0%

blockManager介绍.md

[toc]

spark的cacheManager#

在这里插入图片描述
这张图能知道什么?
Q: spark对RDD的缓存是通过谁去做的?
A: 通过BlockManager去缓存, 并且根据配置选项,决定缓存在文件还是内存中。


driver、executor和BlockManager的关系#

在这里插入图片描述
从中可以看到

  1. blockManagerMaster在driver端生成
  2. executor中生成blockManager,并负责向BMM注册。
  3. spark中注册消息通过ActorSystem进行发送

blockManager包含什么#

在这里插入图片描述

  • BlockManager的作用?我理解是负责做RDD的存储,如何存下来给后续任务去使用。
  • memoryStore和DiskStore,说明把block做存储时,有内存和磁盘2种方式,存储后就都i通过这个Store去管理。
  • 存储时以Block为单位,所以会有个映射用的数组
  • 有一个负责和Driver的BlockManagerMaster通信的引用接口
  • 还有个shuffClient,负责做 备份下载

把块block 存入blockManager的流程#

在这里插入图片描述
需要注意的一个地方: 当内存不足以放入Block时, 他会先释放一下,再判断是否满足!

从blockManager中删除块#

在这里插入图片描述
红色方框写错了, 应该是如果只支持磁盘存储,则从DiskStore中调用方法取出block。

shuffClient 下载block操作#

在这里插入图片描述
BMMAC就是BlockManagerMasterActor,我当初瞎写的简称

  • 注意点:当要取的块来自好几个BlockManager时, 把它打乱顺序,避免好几个BM同时从某一个BM上下载数据!

shuffeClinet的备份操作#

在这里插入图片描述

  • BM为什么要备份他的block?这个书里没提!真坑。我的理解是为了防止节点崩溃或者丢失,导致中间任务无法继续执行?
  • 因为其他的BlockManager能接收的block可能有限,所以备份时可能会涉及多个block, 每次我们一样,从BMmaster那里拿一个 随机的blockManager做备份,避免都往同一个上备份。

完整笔记图#

在这里插入图片描述