欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 明星 > SCAU大数据技术原理期末复习|第10、11章

SCAU大数据技术原理期末复习|第10、11章

2025/6/16 7:17:16 来源:https://blog.csdn.net/Caitlin_lee_/article/details/148670991  浏览:    关键词:SCAU大数据技术原理期末复习|第10、11章

仅针对老师提纲中标注了(理解)和(理解并掌握)的部分进行整理

spark

spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序

spark生态系统

spark基本概念

一个Application包含多个Job,每个Job包含多个Stage,每个Stage包含多个Task

RDD的使用

1、操作分类

转换类(例如 map filter) 行动类(例如 reduce collect)

2、惰性调用

整个转换过程只是记录了转换的轨迹,并不会发生真正的的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作。

3、血缘关系

记录DAG中从创建开始,包括所有转换过程和最终行动处理的全环节各个RDD之间的相互依赖关系。通过记录这个血缘关系,可以从头开始恢复生成每个中间RDD。

4、窄依赖

窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区

5、宽依赖

宽依赖表现为存在一个父RDD的一个分区对应于一个子RDD的多个分区

11 流计算与Flink

静态数据与流数据

流数据特征

批量计算和实时计算

流计算的概念

流计算的处理流程

1、数据实时采集

2、数据实时计算

3、实时查询服务

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词