#

rdd

  • RDD Transformation和Action源码剖析

    wordcount.toDebugString查看RDD的继承链条所以广义的讲,对任何函数进行某一项操作都可以认为是一个算子,甚至包括求幂次,开方都可以认为是一个算子,只是有的算子我们用了一个符号来代

    作者:jethai
    2020-08-15 21:36:49
  • 5.spark core之RDD编程

      spark提供了对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD是一个分布式的数据集合,数据可以跨越集群中的多个机器节点,被分

    作者:菲立思教育
    2020-08-10 13:33:21
  • 揭秘Spark应用性能调优

    引言:在多台机器上分布数据以及处理数据是Spark的核心能力,即我们所说的大规模的数据集处理。为了充分利用Spark特性,应该考虑一些调优技术。本文每一小节都是关于调优技术的,并给出了如何实现调优的必

    作者:博文视点
    2020-08-01 02:41:40
  • rdd没有reduceByKey的方法

    写Spark代码的时候经常发现rdd没有reduceByKey的方法,这个发生在spark1.2及其以前对版本,因为rdd本身不存在reduceByKey的方法,需要隐式转换成PairRDDFunct

    作者:happykuan
    2020-07-30 23:23:07
  • RDD血缘关系源码详解!

    一、RDD的依赖关系 RDD的依赖关系分为两类:宽依赖和窄依赖。我们可以这样认为: (1)窄依赖:每个parent RDD 的 partition 最多被 child RDD 的一个partitio

    作者:Stitch_x
    2020-07-29 18:28:40
  • spark的灵魂:RDD和DataSet

    spark建立在抽象的RDD上,把不同处理的数据的需求转化为RDD,然后对RDD进行一系列的算子运算,从而得到结果。RDD是一个容错的,并行的数据结构,可以将数据存储到磁盘和内存中,并能控制数据分区,

    作者:xiao酒窝
    2020-07-27 11:01:10
  • 11.spark sql之RDD转换DataSet

    简介   Spark SQL提供了两种方式用于将RDD转换为Dataset。 使用反射机制推断RDD的数据结构   当spark应用可以推断RDD数据结构时,可使用这种方式。这种基于反射的方法可以

    作者:菲立思教育
    2020-07-22 20:11:44
  • 处理键值对RDD

    保存Key/Value对的RDD叫做Pair RDD。1.创建Pair RDD:1.1 创建Pair RDD的方式:很多数据格式在导入RDD时,会直接生成Pair RDD。我们也可以使用map()来将

    作者:maninglwj
    2020-07-17 01:10:28
  • spark2.x由浅入深深到底系列七之RDD python api详解一

    学习spark任何技术之前,请先正确理解spark,可以参考:正确理解spark以下对RDD的三种创建方式、单类型RDD基本的transformation api、采样Api以及pipe操作进行了py

    作者:tangweiqun
    2020-07-15 05:16:11
  • Spark笔记整理(四):Spark RDD算子实战

    [TOC] Spark算子概述 RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种操作算子: T

    作者:xpleaf
    2020-07-14 14:31:14