Hadoop集群搭建配置教程_hadoop集群配置的步骤-程序员宅基地

技术标签: Hadoop  hdfs  hadoop  大数据  

前言

当Hadoop采用分布式模式部署和运行时,存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。这时,数据就可以分布到多个节点上,不同数据节点上的数据计算可以并行执行,这时的MapReduce分布式计算能力才能真正发挥作用。

集群规划

我们使用三个虚拟机节点来搭建集群环境:

ip 主机名 功能
192.168.36.121 hadoop1 NameNode DataNode ResourceManager NodeManager
192.168.36.122 hadoop2 DataNode NodeManager
192.168.36.123 hadoop3 SecondryNameNode DataNode NodeManager

分别在上述的节点上修改hosts文件,增加IP和主机名的映射关系:

# 打开hosts文件
vim /etc/hosts

# 添加如下内容
192.168.36.121   hadoop1
192.168.36.122   hadoop2
192.168.36.123   hadoop3

另外,Hadoop 集群运行需要 Java 运行环境,所以,在各个节点上需要安装 JDK

集群搭建具体步骤

注意:以下步骤均在hadoop1节点上进行操作,特殊说明除外!

1、下载hadoop-3.1.3.tar.gz

hadoop官网下载:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz

2、上传并解压

将下载好的 hadoop-3.1.3.tar.gz 上传到 hadoop1 虚拟机节点 /opt/module 目录下。

cd /opt/module
# 解压
tar -zxvf hadoop-3.1.3.tar.gz
# 修改目录名
mv hadoop-3.1.3 hadoop

3、配置path变量

vim ~/.bashrc 
# 添加如下内容:
export PATH=$PATH:/opt/module/hadoop/bin:/opt/module/hadoop/sbin

# :wq! 保存退出后执行如下命令,使配置生效
source ~/.bashrc

4、修改配置文件

cd /opt/module/hadoop/etc/hadoop

4.1 修改文件hadoop-env.sh

vim hadoop-env.sh
# 添加如下内容
export JAVA_HOME=/usr/java/jdk1.8.0_131

4.2 修改文件workers

vim workers
# 将localhost去掉添加如下内容
hadoop1
hadoop2
hadoop3

注意:需要把所有数据节点的主机名写入该文件,每行一个,默认为localhost(即把本机作为数据节点),所以,在伪分布式配置时,就采用了这种默认的配置,使得节点既作为名称节点也作为数据节点。在进行分布式配置时,可以保留localhost,让hadoop1节点同时充当名称节点和数据节点,或者也可以删掉localhost这行,让hadoop1节点仅作为名称节点使用。

4.3 修改文件core-site.xml

<!--修改为如下内容:-->
<configuration>
	<property>
		<name>fs.defaultFS</name>
    	<value>hdfs://hadoop1:8020</value>
	</property>
	<property>
		 <name>hadoop.tmp.dir</name>						    
		 <value>file:/opt/module/hadoop/tmp</value>
		 <description>Abase for other temporary directories.</description>
	</property>
</configuration>

4.4 修改文件hdfs-site.xml

dfs.replication的值还是设置为 3, 也就是说,一份数据保存三份副本,Hadoop的分布式文件系统HDFS一般都是采用冗余存储。

<configuration>
  <property>
          <name>dfs.namenode.secondary.http-address</name>
          <value>hadoop1:50090</value>
  </property>
  <property>
          <name>dfs.replication</name>
          <value>3</value>
  </property>
  <property>
          <name>dfs.namenode.name.dir</name>
          <value>file:/opt/module/hadoop/tmp/dfs/name</value>
  </property>
  <property>
          <name>dfs.datanode.data.dir</name>
          <value>file:/opt/module/hadoop/tmp/dfs/data</value>
  </property>
</configuration>

4.5 修改文件mapred-site.xml

<!--修改为如下内容:-->
<configuration>
  <property>
          <name>mapreduce.framework.name</name>
          <value>yarn</value>
  </property>
  <property>
          <name>mapreduce.jobhistory.address</name>
          <value>hadoop1:10020</value>
  </property>
  <property>
          <name>mapreduce.jobhistory.webapp.address</name>
          <value>hadoop1:19888</value>
  </property>
  <property>
          <name>yarn.app.mapreduce.am.env</name>
          <value>HADOOP_MAPRED_HOME=/opt/module/hadoop</value>
  </property>
  <property>
          <name>mapreduce.map.env</name>
          <value>HADOOP_MAPRED_HOME=/opt/module/hadoop</value>
  </property>
  <property>
          <name>mapreduce.reduce.env</name>
          <value>HADOOP_MAPRED_HOME=/opt/module/hadoop</value>
  </property>
</configuration>

4.6 修改文件 yarn-site.xml

<!--修改为如下内容:-->
<configuration>
  <property>
          <name>yarn.resourcemanager.hostname</name>
          <value>hadoop1</value>
  </property>
  <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
  </property>
</configuration>

5、把/opt/module/hadoop复制到其他节点上

cd /opt/module
rm -r ./hadoop/tmp     # 删除 Hadoop 临时文件
rm -r ./hadoop/logs/*   # 删除日志文件
tar -zxcf hadoop.tar.gz ./hadoop   # 先压缩再复制
scp ./hadoop.tar.gz hadoop2:/opt/module
scp ./hadoop.tar.gz hadoop3:/opt/module

6、在其他节点上操作

cd /opt/module
rm -r ./hadoop    # 删掉旧的(如果存在)
tar -zxvf hadoop.tar.gz

7、名称节点的格式化

首次启动Hadoop集群时,需要先在hadoop1节点执行名称节点的格式化(只需要执行这一次,后面再启动Hadoop时,不要再次格式化名称节点)

hdfs namenode -format

8、启动Hadoop集群

需要在hadoop1节点上进行

# 启动hdfs
start-dfs.sh
# 启动yarn
start-yarn.sh
# 启动历史服务
mr-jobhistory-daemon.sh start historyserver

9、验证是否启动成功

通过命令jps可以查看各个节点所启动的进程。如果已经正确启动,则在hadoop1节点上可以看到NameNodeResourceManager、和JobHistoryServer以及DataNodeNodeManager进程
在其他两个节点可以看到DataNodeNodeManager进程,在hadoop3节点上还可以看到SecondryNameNode进程
缺少任一进程都表示出错。

10、查看运行实例

在执行过程中,可以在Linux系统中打开浏览器,在地址栏输入http://hadoop1:8088/cluster,通过Web界面查看任务进度,在Web界面点击 Tracking UI 这一列的History连接,可以看到任务的运行信息。

11、关闭Hadoop集群

关闭Hadoop集群,需要在hadoop1节点执行如下命令:

stop-yarn.sh
stop-dfs.sh
mr-jobhistory-daemon.sh stop historyserver

至此,就顺利完成了Hadoop集群搭建。

微信公众号:扫描下方二维码或 搜索 笑看风云路 关注
笑看风云路

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u011109589/article/details/124852278

智能推荐

服务器发送信息给arduino,arduino通过esp8266模块发送数据到云服务器-程序员宅基地

文章浏览阅读1.4k次,点赞2次,收藏25次。arduino通过esp8266模块发送数据到云服务器我是代码小白,一个正在做毕设的秃头少年。鄙人拙作,有不当之处,还请指教。最近买了一套arduino设备,打算做一个物联网设备小玩意,可是怎么把数据上传到云服务器可愁坏我了。通过对比实验,我决定用esp8266wifi模块进行通信。云服务器的话,我现在还没写相应的代码,所以先用Onenet平台进行配置。Onenet平台进行配置1.进入Onenet..._esp8266 arduino wifi发送数据

latex h t b p是什么意思_latex htpb-程序员宅基地

文章浏览阅读1.4w次,点赞9次,收藏17次。常用选项[htbp]是浮动格式:『h』当前位置。将图形放置在正文文本中给出该图形环境的地方。如果本页所剩的页面不够,这一参数将不起作用。『t』顶部。将图形放置在页面的顶部。『b』底部。将图形放置在页面的底部。『p』浮动页。将图形放置在一只允许有浮动对象的页面上。在table或者figure 后加 [!htb] 是系统忽略“美学”标准,把表格和图片插入到你的代码中,是动的,但是不加感叹号,它就是按顺序选择h(此处),t(上方),b(下方),所以为了让图片随着你的代码移动,最好加一个[!htb]_latex htpb

【转载】linux下的usb抓包方法-程序员宅基地

文章浏览阅读67次。1 linux下的usb抓包方法1、配置内核使能usb monitor:make menuconfigDevice Drivers --> USB Support --> USB Monitor --> Sel..._linux安装tcpdump 查看usb

计算机组成pc em ir,计算机组成 课程设计报告.doc-程序员宅基地

文章浏览阅读164次。计算机组成 课程设计报告计算机组成原理课程设计报告姓 名:班 级:学 号:指导老师:2016年 6月31日目 录第一章 背景知识与课设任务概述11.1课设目的11.2课设任务11.2111.2211.2321.2421.252第二章 课设内容32.1指令的执行流程32.1.132.1.242.1.352.2存储器62.2.162.3运算器72.3.172.4硬件系统组成122.4..._计算机组成课程设计报告

python青果教务系统抢课_名额不够,技术来凑,利用Python实现教务系统强制性抢课...-程序员宅基地

文章浏览阅读1.3k次。最近一学期一次的抢课大戏又来了,几家欢乐几家愁。O(∩_∩)O哈哈~(l我每次一选就过了hah,我还是有欧的时候滴)。看着他们盯着教务系统就着急,何况我们那教务系统,不想说什么。emmm 想周围的朋友,正好下午利用扩容前一段时间写了个小脚本帮助朋友抢课。(当然抢到了啦,^_^)私信小编001即可获取大量Python学习资料,名额有限因为时间不够,来不及仔细琢磨,我第一想法就是直接提交选课的数据包(..._青果教务系统抢课

windows 加 switchyomega + burp 抓https包-程序员宅基地

文章浏览阅读4.6k次。很简单,下载证书后导入到受信任根目录证书下载,直接在代理状态浏览器访问burp点击CA就可以下载了 设置该证书全部信任,,switchyomega 设置如下即可 就可以抓https的包了 ...

随便推点

2021-07-18-程序员宅基地

文章浏览阅读43次。从零开始实现简易版本SpringIoC&DI&MVCSpring源码进修中,实现一个简易版本的Spring,包含以下主要内容:IoC,DI,MVC,已完成基本的功能。代码量还算一般,特此记录以共勉。首先是整个项目的基本思路。项目实现的功能就是从前端发一个请求,后端根据请求解析到后端的相应方法进行处理,完成后将结果进行返回。代码需要完成请求路径和类+方法的对应。配置阶段配置web.xml:DispatcherServlet设定init-param:contextConfigL

507页XX市应急管理局智慧矿山煤矿数字化矿山技术解决方案_18万字应急管理局智慧矿山煤矿数字化矿山技术解决方案word-程序员宅基地

文章浏览阅读542次。只有在单系统自动化的基础上,通过高速网络接入各单系统,充分数据融合,建立合理的联动机制才能完成从单系统自动化到综合自动化的转变,该部分的转变从投入的资金和实现的容易度相对来讲可实现性和可控性都比较容易,但是从综合自动化向数字化矿山发展,涉及的面比较广,必须由多方共同来推进,一般涉及到“综合自动化”、“空间数字化”及“管理信息化”三大方面,三者缺一不可,通过三者的有机融合,再通过合适的平台例如三维可视化平台进行展示,同时通过科学合理的管理制度和流程加以应用才是真正意义上有血有肉的数字化矿山。_18万字应急管理局智慧矿山煤矿数字化矿山技术解决方案word

Tomcat官网地址-程序员宅基地

文章浏览阅读1.4w次,点赞8次,收藏7次。Tomcat官网地址_tomcat官网

汇编指令长度计算_汇编指令占多少字节-程序员宅基地

文章浏览阅读5.1k次,点赞11次,收藏58次。指令长度与寻址方式有关系,规律或原则如下:一、没有操作数的指令,指令长度为1字节。如es:ds:cbwxlat等。二、操作数只涉及寄存器的指令,指令长度为2字节。如mov al,[si]mov ax,[bx+si]mov ds,ax等。三、操作数涉及内存地址的指令,指令长度为3字节。如mov al,[bx+1]mov ax,[bx+si+3]lea di,[1234]mov [2345],ax等。四、操作数涉及立即数的指令,指令长度为:寄存器类型+2。8位寄存器,寄存器_汇编指令占多少字节

二、RSA加密_ctf rsa 多个n和多个c-程序员宅基地

文章浏览阅读3.4k次。CTF中的RSA及攻击方法笔记1 数论基础1.1 模运算规则2 RSA相关题目2.1 已知 n,e,c 求 m2.2 已知 p,q,e 求 d2.3 已知dp,dq,c,p,q 求m2.4 仅已知c,c特别大 【c = m^e mod n】2.5 已知n1,n2,c1,c2,n 求 m2.6 已知n1,n2,e,c2 求m2.7 已知e,d,N 求p,q1 数论基础参考链接:https://www.freebuf.com/articles/web/257835.html1.1 模运算规则模运算与基_ctf rsa 多个n和多个c

mysql中把bigint类型转换为时间格式,与hive中unix_timestamp、FROM_UNIXTIME两个函数之间的区别_bigint转日期-程序员宅基地

文章浏览阅读2w次,点赞4次,收藏15次。数据库中时间类型是这样的,13位bigInt类型的数据select date_format(FROM_UNIXTIME(列名/1000),'%Y%m%d') from xx表原理就是把13位的时间格式/1000等于时间戳,使用FROM_UNIXTIME把时间戳转换成具体的日期ps:将时间转换为时间戳select unix_timestamp('2018-08-30..._bigint转日期

推荐文章

热门文章

相关标签