扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
这篇文章主要介绍“Spark提供了哪些RDD”,在日常操作中,相信很多人在Spark提供了哪些RDD问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Spark提供了哪些RDD”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
土默特右旗网站制作公司哪家好,找创新互联建站!从网页设计、网站建设、微信开发、APP开发、成都响应式网站建设公司等网站项目制作,到程序开发,运营维护。创新互联建站于2013年成立到现在10年的时间,我们拥有了丰富的建站经验和运维经验,来保证我们的工作的顺利进行。专注于网站建设就选创新互联建站。
深入RDD
RDD本身是一个抽象类,具有很多具体的实现子类:
RDD都会基于Partition进行计算:
默认的Partitioner如下所示:
其中HashPartitioner的文档说明如下:
另外一种常用的Partitioner是RangePartitioner:
RDD在持久化的需要考虑内存策略:
Spark提供很多StorageLevel可供选择:
于此同时Spark提供了unpersistRDD:
对RDD本身还有一个非常重要的CheckPoint操作:
其中doCheckpoint的细节如下:
以NewHadoopRDD为例,其内部的信息如下所示:
以WholeTextFileRDD为例,其内部的信息如下所示:
RDD在产生作业调用的时候,经典的过程如下所示:
到此,关于“Spark提供了哪些RDD”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流