如何安装单机版hadoop相关套件

发布时间：2021-11-26 14:47:36 来源：亿速云阅读：121 作者：小新栏目：大数据

这篇文章主要介绍如何安装单机版hadoop相关套件，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

hdfs 和 yarn

配置文件在 $HADOOP_HOME/etc/hadoop 目录下。

配置 hadoop-env.sh ，添加属性

# The java implementation to use.
export JAVA_HOME=/home/java/jdk1.8.0_191
export HADOOP_OPTS="$HADOOP_OPTS -Duser.timezone=GMT+08"

配置 core-site.xml

<configuration>
	  <!-- 用来指定hdfs的NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop-standalone:9000</value>
    </property>
	  <!-- 用来指定Hadoop运行时产生文件的存放目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/home/data/hadoop</value>
	</property>
	
	<property>
　　    <name>hadoop.proxyuser.hadoop.hosts</name>
		<value>*</value>
	</property>
	<property>
　　    <name>hadoop.proxyuser.hadoop.groups</name>
　      <value>*</value>
	</property>
</configuration>

配置 hdfs-site.xml

<configuration>
   <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
	
	<property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
	
	<property>
		<name>dfs.webhdfs.enabled</name>
		<value>true</value>
	</property>

</configuration>

配置 mapred-site.xml

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

	<!-- 日志查看页面. -->
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>hadoop-standalone:10020</value>
	</property>

	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>hadoop-standalone:19888</value>
	</property>

	<!-- 配置正在运行中的日志在hdfs上的存放路径 -->
	<property>
		<name>mapreduce.jobhistory.intermediate-done-dir</name>
		<value>/history/done_intermediate</value>
	</property>

	<!-- 配置运行过的日志存放在hdfs上的存放路径 -->
	<property>
		<name>mapreduce.jobhistory.done-dir</name>
		<value>/history/done</value>
	</property>

</configuration>

配置 yarn-site.xml

<configuration>

	  <!-- NodeManager获取数据的方式是shuffle-->
	<property>
			<name>yarn.nodemanager.aux-services</name>
			<value>mapreduce_shuffle</value>
	</property>
	  <!-- 指定YARN的老大（resourcemanager）的地址 -->
	<property>
			<name>yarn.resourcemanager.hostname</name>
			<value>hadoop-standalone</value>
	</property>
	
	 <property>
      <name>yarn.log-aggregation-enable</name>
      <value>true</value>
     </property>

     <property>
      <name>yarn.nodemanager.log-aggregation.debug-enabled</name>
      <value>true</value>
     </property>

     <property>
      <name>yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds</name>
      <value>3600</value>
     </property>
	 
	<property>
         <name>yarn.log.server.url</name>
         <value>http://hadoop-standalone:19888/jobhistory/logs</value>
	</property>	
</configuration>

yarn-env.sh 配置中添加

YARN_OPTS="$YARN_OPTS -Duser.timezone=GMT+08"

格式化namenode

hdfs namenode -format

分别启动 hdfs / yarn / jobhistory服务器

$HADOOP_HOME/sbin/start-dfs.sh

$HADOOP_HOME/sbin/start-yarn.sh

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

分别访问

http://hadoop-standalone:50070

http://hadoop-standalone:8088

spark on yarn

先安装scala, 再在系统的环境变量中配置SPARK_HOME

然后配置 spark-env.sh

export JAVA_HOME=/home/java/jdk1.8.0_191
export SCALA_HOME=/home/scala2.11.12
export HADOOP_HOME=/home/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SPARK_LOCAL_DIRS=/home/data/spark

配置 spark-defaults.conf

spark.yarn.jars    hdfs://hadoop-standalone:9000/spark/share/lib/*.jar

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop-standalone:9000/spark/spark-events
spark.history.ui.port            18080
spark.history.retainedApplications    10
spark.history.fs.logDirectory    hdfs://hadoop-standalone:9000/spark/spark-events

spark的运行包上传到dfs

hdfs dfs -put $SPARK_HOME/jars/* /spark/share/lib

启动 spark history 服务器

$SPARK_HOME/sbin/start-history-server.sh

spark standalone 集群

master和slave都是同一台机子, 即管理者和工人都是自己

启动 spark master 和 slaves服务

$SPARK_HOME/sbin/start-master.sh

$SPARK_HOME/sbin/start-slaves.sh

下面是默认的端口

SPARK_MASTER_PORT=7077 # 提交任务的端口
SPARK_MASTER_WEBUI_PORT=8080 # webui端口，查看任务进程

打开页面 http://hadoop-standalone:8080/ , 可以看到有worker已经加入到集群

如何安装单机版hadoop相关套件

mysql

用于一些组件的元数据，需要事先启动

hive

添加环境变量

#hive
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin

复制mysql的驱动程序到hive/lib

配置hive.env.sh

export HADOOP_HOME=/opt/hadoop-2.6.5 
# Hive Configuration Directory can be controlled by: export 
HIVE_CONF_DIR=/opt/hive-2.3.5/conf

修改log生成的目录。配置文件hive-log4j.properties。修改到你所需的目录

property.hive.log.dir = /opt/hive-2.3.5/logs

配置 hive-site.xml

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration> 

	<!--hdfs上hive数据存放位置 --> 
	<property>  
	  <name>hive.metastore.warehouse.dir</name>  
	  <value>/user/hive/warehouse</value>   
	</property>
	<!--连接数据库地址，名称 -->  
	<property>
	  <name>javax.jdo.option.ConnectionURL</name>
	  <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>  
	</property>  
	<!--连接数据库驱动 --> 
	<property>
	  <name>javax.jdo.option.ConnectionDriverName</name>  
	  <value>com.mysql.jdbc.Driver</value>  
	</property> 
	<!--连接数据库用户名称 -->  
	<property>  
	  <name>javax.jdo.option.ConnectionUserName</name>  
	  <value>root</value>
	</property> 
	<!--连接数据库用户密码 -->  
	<property>  
	  <name>javax.jdo.option.ConnectionPassword</name>  
	  <value>123456</value>
	</property>
	<!--客户端显示当前查询表的头信息 --> 
	 <property>
	  <name>hive.cli.print.header</name>
	  <value>true</value>
	</property>
	<!--客户端显示当前数据库名称信息 --> 
	<property>
	  <name>hive.cli.print.current.db</name>
	  <value>true</value>
	</property> 
	
	  <property>
	    <name>hive.metastore.port</name>
	    <value>9083</value>
	    <description>Hive metastore listener port</description>
	  </property>
	  <property>
	    <name>hive.server2.thrift.port</name>
	    <value>10000</value>
	    <description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.</description>
	  </property>
	
	<!-- 客户端配置，连接远端的metadata -->
	<property> 
		<name>hive.metastore.local</name> 
		<value>false</value> 
	</property> 
	<property> 
		<name>hive.metastore.uris</name> 
		<value>thrift://192.168.56.140:9083</value> 
	</property>
	
	<property>
	  <name>hive.metastore.schema.verification</name>
	  <value>false</value>
	</property>
</configuration>

初始化hive的meta数据库(mysql)

schematool -dbType mysql -initSchema

如何安装单机版hadoop相关套件

启动hive的命令行客户端，试运行

hive

创建个数据库测试下：

create database test_connect_hive;

如何安装单机版hadoop相关套件

使用jdbc客户端连接hiveserver2

在hadoop/core-site.xml 添加配置。其中 root 是现在用的用户名（报错那里有）

	<property>
　　    <name>hadoop.proxyuser.root.hosts</name>
		<value>*</value>
	</property>
	<property>
　　    <name>hadoop.proxyuser.root.groups</name>
　      <value>*</value>
	</property>

修改hadoop要重启.

下面分别启动 metastore 访问服务和hiveserver2服务

nohup hive --service metastore >> /home/data/hive/metastore.log 2>&1 &
nohup  hive --service hiveserver2 >> /home/data/hive/hiveserver2.log 2>&1 &

通过 beelines 客户端连接 hiveserver2 测试。

beeline

输入连接的地址

!connect jdbc:hive2://localhost:10000

将hive的配置文件拷贝给spark

将 $HIVE_HOME/conf/hive-site.xml copy $SPARK_HOME/conf/

各资源的访问端口

dfs:  http://hadoop-standalone:50070/explorer.html#/
spark master(standalone): http://hadoop-standalone:8080
spark history: http://hadoop-standalone:18080/

以上是“如何安装单机版hadoop相关套件”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注亿速云行业资讯频道！

向AI问一下细节

如何安装单机版hadoop相关套件

hdfs 和 yarn

spark on yarn

spark standalone 集群

mysql

hive

各资源的访问端口

猜你喜欢

最新资讯

相关推荐

相关标签