目录:
1.数据输出-输出为Python对象
2.数据输出-输出到文件中
3.综合案例
1.数据输出-输出为Python对象














2.数据输出-输出到文件中





移动文件到文件夹:




生成了好多文件,因为Rdd是有分区的 ,会把数据分散到各个分区去存储,因为电脑是16核,默认给了16个分区,有的分区有数据,有的没数据,12345默认随机分散到随机一个分区



我想生成到一个分区里:








第二种方式,设置分区为1:



3.综合案例



以反斜杠分割
![]()
取0号元素,切片取前两个元素
![]()
变成2元元组:
进行分组聚合:

进行排序:

取前3:

\代表换行

简化代码:


2:
以反斜杠分割

取2号元素:
![]()
变成2元元组
![]()
进行分组聚合:

进行排序:

取前3:



3.
以反斜杠分割
![]()
过滤元素:

以小时为key变成二元元组

进行分组聚合:

进行排序:

取第一个元素:



4.

以反斜杠分割

变成字典:

写出到文件:

设置分区:



