spar

spark调优（三）：RDD重构和持久化

第一，RDD架构重构与优化尽量去复用RDD，差不多的RDD，可以抽取称为一个共同的RDD，供后面的RDD计算时，反复使用。第二，公共RDD一定要实现持久化对于要多次计算和使用的公共RDD，一定要进行持

作者：jackeychen100

2020-06-14 14:53:23
生产常用Spark累加器剖析之三(自定义累加器)

思路 & 需求参考IntAccumulatorParam的实现思路（上述文章中有讲）： trait AccumulatorParam[T] extends AccumulableParam[

作者：Stitch_x

2020-06-13 10:41:43
Windows 10 下单机 Spark 环境搭建

【目的】　　Windows 10 裸机搭建 Spark 环境，使能运行 PySpark Shell。【原料】Windows 10 x64jdk-8u162-windows-x64.exepython-

作者：RQSLT

2020-06-12 18:07:22
从物理执行角度透视Spark Job（23）

一、再次思考pipeline 即使采用pipeline的方式，函数f对依赖的RDD中的数据集合的操作也会有两种方式： &n

作者：lct19910210

2020-06-11 16:32:31
【总结】spark按文本格式和Lzo格式处理Lzo压缩文件的比较

1、描述spark中怎么加载lzo压缩格式的文件2、比较lzo格式文件以textFile方式和LzoTextInputFormat方式计算数据，Running Tasks个数的影响 &nb

作者：巧克力黒

2020-06-11 06:11:03
spark的HA集群搭建

分布式集群搭建：https://blog.51cto.com/14048416/2327802 上面试spark普通的分布式集群搭建，存在master节点的单点故障问题。Hadoop2.x开始，已经使

作者：原生zzy

2020-06-06 11:54:04
【科普】一篇文章让你知晓Spark

说起大数据的工具，最广为人知的就是Hadoop和Spark了，Hadoop在上一篇文章中已经有所介绍，这期小编就为大家介绍后起之秀Spark。Spark是一个运算速度快如闪电的Apache项目，研发人

作者：小程序员一

2020-06-03 07:45:42
0016-Avro序列化&反序列化和Spark读取Avro数据

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 1.简介本篇文章主要讲如何使用java生成Avro格式数据以及如何通过spark将Avro数据文件转换成DataSet和DataF

作者：Hadoop实操

2020-06-02 03:06:57
生产常用Spark累加器剖析之四

生产常用Spark累加器剖析之四现象描述 val acc = sc.accumulator(0, “Error Accumulator”) val data = sc.parallelize(1 t

作者：Stitch_x

2020-06-01 11:48:50
spark（四）：shuffle

shuflle write 上图有 4 个 ShuffleMapTask 要在同一个 worker node 上运行，CPU core 数为 2，可以同时运行两个 task。在一个 core 上

作者：afeiye

2020-06-01 10:49:05

< 上一页

下一页>

最新资讯

猜你喜欢

相关标签