温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Spark2.x入门中SparkStreaming的工作原理是什么

发布时间:2021-12-03 10:29:51 来源:亿速云 阅读:105 作者:柒染 栏目:大数据

本篇文章给大家分享的是有关Spark2.x入门中SparkStreaming的工作原理是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

 官网翻译大体意思如下:

    SparkStreaming是核心SparkApi的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如Kafka、Flume、Kinesis或TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如map、reduce、join和window。最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,您可以将Spark的机器学习和图形处理算法应用于数据流。

Spark2.x入门中SparkStreaming的工作原理是什么

  内部工作原理:SparkStreaming接受实时输入数据流,并将数据分成批次,然后由Spark engine处理,以批量生成最终的结果流。

Spark2.x入门中SparkStreaming的工作原理是什么

    DStream是SparkStreaming流提供的基本抽象。它表示连续的数据流,可以是从源接收到的输入数据流,也可以是通过转换输入流生成的经过处理的数据流。在内部,DStream由一系列连续的RDD表示,RDD是Spark对不可变的分布式数据集的抽象。DStream中的每个RDD包含来自某个间隔的数据,如下图所示。

Spark2.x入门中SparkStreaming的工作原理是什么

    应用于DStream上的任何操作都转换为底层RDD上的操作。例如,在前面将一个行流转换为单词的示例中,flatMap操作应用于行DStream中的每个RDD,以生成单词DStream的RDD。如下图所示。

Spark2.x入门中SparkStreaming的工作原理是什么

    这些底层的RDD转换是由Spark引擎计算的。DStream操作隐藏了这些细节中的大部分,并为开发人员提供了更高级的API。这些操作将在后面的小节中详细讨论。

SparkStreaming 、Flink 、Storm 三种流式处理框架对比分析


SparkStreaming Flink Storm 
吞吐量
高吞吐高吞吐低吞吐
实时性
秒级延迟低延迟,毫秒级(百毫秒)低延迟,毫秒级(几十毫秒)
乱序、延迟处理

flink通过warterMarker水印支持乱序和延迟处理,这个spark没有
保证次数
exactly-onceexactly-onceat-least-once
动态调整并行度
不支持支持支持
容错
基于RDD的checkpoint
基于分布式Snapshot的checkpoint
基于Record记录的ack机制

以上就是Spark2.x入门中SparkStreaming的工作原理是什么,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI