[toc]
spark的cacheManager#
这张图能知道什么?
Q: spark对RDD的缓存是通过谁去做的?
A: 通过BlockManager去缓存, 并且根据配置选项,决定缓存在文件还是内存中。
driver、executor和BlockManager的关系#
从中可以看到
- blockManagerMaster在driver端生成
- executor中生成blockManager,并负责向BMM注册。
- spark中注册消息通过ActorSystem进行发送
blockManager包含什么#
- BlockManager的作用?我理解是负责做RDD的存储,如何存下来给后续任务去使用。
- memoryStore和DiskStore,说明把block做存储时,有内存和磁盘2种方式,存储后就都i通过这个Store去管理。
- 存储时以Block为单位,所以会有个映射用的数组
- 有一个负责和Driver的BlockManagerMaster通信的引用接口
- 还有个shuffClient,负责做 备份 和 下载
把块block 存入blockManager的流程#
需要注意的一个地方: 当内存不足以放入Block时, 他会先释放一下,再判断是否满足!
从blockManager中删除块#
红色方框写错了, 应该是如果只支持磁盘存储,则从DiskStore中调用方法取出block。
shuffClient 下载block操作#
BMMAC就是BlockManagerMasterActor,我当初瞎写的简称
- 注意点:当要取的块来自好几个BlockManager时, 把它打乱顺序,避免好几个BM同时从某一个BM上下载数据!
shuffeClinet的备份操作#
- BM为什么要备份他的block?这个书里没提!真坑。我的理解是为了防止节点崩溃或者丢失,导致中间任务无法继续执行?
- 因为其他的BlockManager能接收的block可能有限,所以备份时可能会涉及多个block, 每次我们一样,从BMmaster那里拿一个 随机的blockManager做备份,避免都往同一个上备份。