#

spar

  • spark 2.2.0 高可用搭建

    一、概述1.实验环境基于以前搭建的haoop HA;2.spark HA所需要的zookeeper环境前文已经配置过,此处不再重复。3.所需软件包为:scala-2.12.3.tgz、spark-2.

    作者:一语成谶灬
    2020-07-04 06:13:06
  • Transparent Activity

    在AndroidManifest.xml中相应的activity标签处添加如下内容即可得到透明Activity: android:theme="@android:style/Theme.Translu

    作者:frank_zfh
    2020-07-04 05:08:07
  • Spark 系列(六)—— 累加器与广播变量

    一、简介 在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景

    作者:heibaiying
    2020-07-03 16:58:53
  • Ubuntu系统搭建单机Spark注意事项

     对于Spark而言,如果大家只是想摸一下、熟悉熟悉而已,可以搭建单机的Spark,大致步骤如下(我使用VMWare下的Ubuntu 14.04,暂不考虑安全问题,在root下运行):&nb

    作者:chenhu73
    2020-07-03 08:07:29
  • spark的持久化和共享变量

    1. 持久化算子cache   介绍:正常情况下,一个RDD是不包含真实数据的,只包含描述这个RDD元数据信息,如果对这个RDD调用cache方法,那么这个RDD的数据,依然没有真

    作者:原生zzy
    2020-07-02 17:35:28
  • Spark笔记整理(五):Spark RDD持久化、广播变量和累加器

    [TOC] Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partiti

    作者:xpleaf
    2020-07-01 19:52:33
  • spark 初体验

    一、spark的产生背景(1)MapReduce的发展:MRv1的缺点:早在 Hadoop1.x 版本,当时采用的是 MRv1 版本的 MapReduce 编程模型。MRv1 版本的实现 都封装在 o

    作者:原生zzy
    2020-07-01 09:25:14
  • 震惊!不需hadoop环境运行scala和pyspark程序

    Databricks官方是这样描述Databricks优势的:        像Databricks这样的云平台提供了一套集成的、主机托管的解决方案,消除了企业采用Spark和确保大数据项目成功所面临

    作者:寒月谷
    2020-06-29 18:37:03
  • 【大数据 】SparkSQL连接查询中的谓词下推处理(二)

    本文首发于 vivo互联网技术 微信公众号 作者:李勇 目录: 1.左表 join 后条件下推 2.左表join中条件不下推 3.右表join中条件下推 4.右表join中条件不下推 5

    作者:vivo互联网
    2020-06-29 07:29:38
  • Spark1.5.1学习笔记汇总

    鲁春利的工作笔记,好记性不如烂笔头Spark1.5.1学习笔记(一)Standalone集群配置    http://luchunli.blog.51cto.c

    作者:luchunli1985
    2020-06-28 18:39:17