1、软件环境和IP规划RHEL6 角色 jdk-8u45apache-maven-3.3.9hive-1.1.0-cdh6.7.1-src.tar.gz hadoop-2.8.1.tar.g
Mapreduce中:shuffle阶段是在map和reduce之间,可以自定义排序,自定义分区和自定义分组!Mapreduce中,map出的数据是键值对,默认的是hashPatitionner来对m
集群设置http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html用户手册htt
前提:搭建zookeeper集群、java环境、无秘互通注意:文中加粗部分表示需要按实际情况修改的部分 zookeeper可以参考:zookeeper传送门 下载安装包 https://mirr
两年多没有搭建过apache hadoop的环境了,昨天再次搭建hadoop环境,将过程记录下来,以便以后查阅。主机角色分配:NameNode、DFSZKFailoverController 角色由
数据挖掘——推荐系统 大数据可以认为是许多数据的聚合,数据挖掘是把这些数据的价值发掘出来,比如有过去10年的气象数据,通过数据挖掘,几乎可以预测明天的天气是怎么
一、Hive 简介 1、什么是 Hive Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL
零基础学习Hadoop该如何下手,很多同学是通过学习hadoop来学习大数据的,学习资料可能是以图书为主要参考方向,《hadoop权威指南》的确是一本很好的入门大数据图书,但大数据系统本身是分布式
Apache顶级项目介绍系列-1,我们从Kafka说起。why?流行 + 名字cool。Kafka官网是见过比较简单,直叙的网站,“kafka是一个高吞吐的分布式的
一、Hbase数据备份恢复说明:因为测试环境要修改hadoop配置文件hdfs-site.xml的参数hdfs.rootdir修改前的配置 &n