#

spar

  • spark调优(三):RDD重构和持久化

    第一,RDD架构重构与优化尽量去复用RDD,差不多的RDD,可以抽取称为一个共同的RDD,供后面的RDD计算时,反复使用。第二,公共RDD一定要实现持久化对于要多次计算和使用的公共RDD,一定要进行持

    作者:jackeychen100
    2020-06-14 14:53:23
  • 生产常用Spark累加器剖析之三(自定义累加器)

    思路 & 需求 参考IntAccumulatorParam的实现思路(上述文章中有讲): trait AccumulatorParam[T] extends AccumulableParam[

    作者:Stitch_x
    2020-06-13 10:41:43
  • Windows 10 下单机 Spark 环境搭建

    【目的】  Windows 10 裸机搭建 Spark 环境,使能运行 PySpark Shell。【原料】Windows 10 x64jdk-8u162-windows-x64.exepython-

    作者:RQSLT
    2020-06-12 18:07:22
  • 从物理执行角度透视Spark Job(23)

      一、再次思考pipeline     即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式:    &n

    作者:lct19910210
    2020-06-11 16:32:31
  • 【总结】spark按文本格式和Lzo格式处理Lzo压缩文件的比较

    1、描述spark中怎么加载lzo压缩格式的文件2、比较lzo格式文件以textFile方式和LzoTextInputFormat方式计算数据,Running Tasks个数的影响  &nb

    作者:巧克力黒
    2020-06-11 06:11:03
  • spark的HA集群搭建

    分布式集群搭建:https://blog.51cto.com/14048416/2327802 上面试spark普通的分布式集群搭建,存在master节点的单点故障问题。Hadoop2.x开始,已经使

    作者:原生zzy
    2020-06-06 11:54:04
  • 【科普】一篇文章让你知晓Spark

    说起大数据的工具,最广为人知的就是Hadoop和Spark了,Hadoop在上一篇文章中已经有所介绍,这期小编就为大家介绍后起之秀Spark。Spark是一个运算速度快如闪电的Apache项目,研发人

    作者:小程序员一
    2020-06-03 07:45:42
  • 0016-Avro序列化&反序列化和Spark读取Avro数据

    温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 1.简介 本篇文章主要讲如何使用java生成Avro格式数据以及如何通过spark将Avro数据文件转换成DataSet和DataF

    作者:Hadoop实操
    2020-06-02 03:06:57
  • 生产常用Spark累加器剖析之四

    生产常用Spark累加器剖析之四 现象描述 val acc = sc.accumulator(0, “Error Accumulator”) val data = sc.parallelize(1 t

    作者:Stitch_x
    2020-06-01 11:48:50
  • spark(四):shuffle

    shuflle write 上图有 4 个 ShuffleMapTask 要在同一个 worker node 上运行,CPU core 数为 2,可以同时运行两个 task。 在一个 core 上

    作者:afeiye
    2020-06-01 10:49:05