简述spark的任务运行流程#

先是在写spark代码的时候，背后做一些RDD的转换，写完后构建DAG，划分stage，然后提交到资源管理器分配计算资源，并在worker上执行。

首先写spark代码时离不开对RDD的调用，那么：

为什么需要RDD#

数据处理模型统一：
RDD是1个数据结构，能够获取数据的分区。
不区分流式还是批式，只理解为1个数学模型。
依赖划分原则：
RDD之间通过窄依赖(仅1个依赖)和宽依赖（多依赖）进行关联。
为什么要划分依赖？
依赖数量不同，决定是否能在1个stage和节点中执行。
同时也决定了容灾策略，是否需要保存所有父RDD
数据处理效率：
1个RDD，同时可在多个节点并发执行。
容错处理：
RDD本身是不可变的数据集，这样可保证数据恢复

wordCount代码的背后#

以wordCount代码为例

textFile#

第一步是读文件数据。

1 2	JavaSparkContext ctx = new JavaSparkContext(sparkConf); ctx.textFile(args[0],1)

这一步会生成HadoopRDD

这里注意下，里面有一个清理序列化的操作，分布式传输数据时，序列化很重要，而序列化时有些成员是无法被序列化的，在java中的关键字是transien.

MappedRDD是什么？
如下:

即我们的RDD，会被包装到一个单点依赖的对象里，并指明这是单点依赖。
并且textFile这个过程，其实是生成了2个RDD， 1个是HadoopRDD，还有一个是读取数据转成字符串的mapRDD。他们各自被塞进dependecy对象中，并通过依赖建立连接。

注意，一般分布式计算设计DAG图时，都是只有input指针（即用输入对象做连接），利用input来确定DAG关系。在spark里就是依赖dependency的概念

第二步做FlatMap#

接着我们调用flatMap

JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>(){
	@Override
	public Iterable<String> call(String s){
	return Arrays.asList(SPACE.split(s));
})

背后的RDD和依赖i情况变成如下：

第三步mapToPair#

懒得敲了，这里省略java代码。

看一下dag。

第四步聚合#

需要分组，然后进行合并相同的单词数量

此时dag如下：

注意，并不是shuffle这个RDD被包装进了shuffle依赖，而是它的前置RDD被包进了shuffle依赖。
即dependency确实是只包装依赖的，你如果是属于某个shuffle过程的依赖，那么就会被包装成shuffleDepnecy。

最后一步collect#

当写完后，执行collet，进行计算执行和提交。

完整流程如下：

Collect的时候发生了什么#

collect后，会通过dagScheduler进行runJob， submitJob的时候会返回一个waiter，在client端主程序中就会进行等待。
即client端提交任务时其实是异步的，会返回一个waiter进行等待，

看一下submitJob的时候发生了什么

前面看起来都是一些业务处理，关键在handleJobSumitted的时候，会做一个newStage的操作，正好可以看一下spark里的stage是怎么确定和生成的。

父(依赖）stage列表是怎么获取的?

上图里的关键信息在于，当遇到shuffle的时候，就会隔离出一个stage。