spark的master、worker、exeuctor容错机制.md

容错机制-exeuctor退出
worker异常退出
master异常
- 1：任务正常运行时master异常退出
- 2:当任务执行过程中，master挂掉后，worker和executor也异常了

[toc]

@[toc]
我们看下spark是怎么针对master、worker、executor的异常情况做处理的。

容错机制-exeuctor退出#

首先可以假设worker中的executor执行任务时，发送了莫名其妙的异常或者错误，然后对应线程消失了。
我们看这个时候会做什么事情

上图总结下来就是：
executor由backend进程包着，如果抛异常，他会感知到，并调用executorRunner.exitStatus()，通知worker

看下通知worker之后发生了什么：

worker会通知master，master会将exectorInfo清除，然后调度worker让他重新创建
这里可以看到worker创建executor的指令仍然是让master来调度和管理的，不是自己想创建就创建。
接下来就是重建executor，然后重新开始执行这个地方的任务了（因此数据也会重新拉，之前发送端缓存的数据就能够派上用场了）

完整流程图如下：

worker异常退出#

假设此时是worker挂掉了，那么正在执行任务的exeuctor和master会怎么做呢？如下：

可以看到worker有一个shutdownHook，会帮忙关闭正在执行的executor。
但是此时worker挂了，因此没法往master发送消息了，怎么办？
上一节有讲到master和worker之间存在心跳，因此就会有如下处理：

可以看到当master发现worker的心跳丢失时，会进行：