rdd

RDD Transformation和Action源码剖析

wordcount.toDebugString查看RDD的继承链条所以广义的讲，对任何函数进行某一项操作都可以认为是一个算子，甚至包括求幂次，开方都可以认为是一个算子，只是有的算子我们用了一个符号来代

作者：jethai

2020-08-15 21:36:49
5.spark core之RDD编程

spark提供了对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。RDD是一个分布式的数据集合，数据可以跨越集群中的多个机器节点，被分

作者：菲立思教育

2020-08-10 13:33:21
揭秘Spark应用性能调优

引言：在多台机器上分布数据以及处理数据是Spark的核心能力，即我们所说的大规模的数据集处理。为了充分利用Spark特性，应该考虑一些调优技术。本文每一小节都是关于调优技术的，并给出了如何实现调优的必

作者：博文视点

2020-08-01 02:41:40
rdd没有reduceByKey的方法

写Spark代码的时候经常发现rdd没有reduceByKey的方法，这个发生在spark1.2及其以前对版本，因为rdd本身不存在reduceByKey的方法，需要隐式转换成PairRDDFunct

作者：happykuan

2020-07-30 23:23:07
RDD血缘关系源码详解！

一、RDD的依赖关系 RDD的依赖关系分为两类：宽依赖和窄依赖。我们可以这样认为：（1）窄依赖：每个parent RDD 的 partition 最多被 child RDD 的一个partitio

作者：Stitch_x

2020-07-29 18:28:40
spark的灵魂：RDD和DataSet

spark建立在抽象的RDD上，把不同处理的数据的需求转化为RDD，然后对RDD进行一系列的算子运算，从而得到结果。RDD是一个容错的，并行的数据结构，可以将数据存储到磁盘和内存中，并能控制数据分区，

作者：xiao酒窝

2020-07-27 11:01:10
11.spark sql之RDD转换DataSet

简介 Spark SQL提供了两种方式用于将RDD转换为Dataset。使用反射机制推断RDD的数据结构当spark应用可以推断RDD数据结构时，可使用这种方式。这种基于反射的方法可以

作者：菲立思教育

2020-07-22 20:11:44
处理键值对RDD

保存Key/Value对的RDD叫做Pair RDD。1.创建Pair RDD:1.1 创建Pair RDD的方式：很多数据格式在导入RDD时，会直接生成Pair RDD。我们也可以使用map()来将

作者：maninglwj

2020-07-17 01:10:28
spark2.x由浅入深深到底系列七之RDD python api详解一

学习spark任何技术之前，请先正确理解spark，可以参考：正确理解spark以下对RDD的三种创建方式、单类型RDD基本的transformation api、采样Api以及pipe操作进行了py

作者：tangweiqun

2020-07-15 05:16:11
Spark笔记整理（四）：Spark RDD算子实战

[TOC] Spark算子概述 RDD：弹性分布式数据集，是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作，一个RDD代表多个分区里的数据集。 RDD有两种操作算子： T

作者：xpleaf

2020-07-14 14:31:14

< 上一页

下一页>

最新资讯

猜你喜欢

相关标签