Ubuntu下安装Hadoop所有步骤教程,从虚拟机安装到Hadoop
测试
安装虚拟机VMware
注意: 1要选⾃定义⾼级
2第⼀次安装虚拟机,要选稍后安装操作系统
3选择Linux操作系统
4存储⽬录建议不要放在C盘
5处理器根据⾃⼰的电脑进⾏选择,电脑配置好,存储空间还很⼤的话可以改成2或4
6⽹络类型选择NAT;
7选择磁盘要选择创建新虚拟磁盘
8并选择将虚拟磁盘拆分成多个⽂件,有利于减少电脑的磁盘容量
9其他的都选默认模式即可
10完成虚拟机安装之后不要点击完成,点击⾃定义硬件进⾏Ubuntu的安装
下载ubuntu进⾏系统的安装
1在你点击⾃定义硬件之后选择左边菜单栏⾥的CD/DVD(SATA)
2然后看右边到使⽤IOS映像⽂件(在这之前你已经把Ubuntu已经下载好了,下载⼀定要去官⽹下载)
3点击虚拟机进⾏运⾏,之后就是选择中⽂等待安装即可(如果提⽰要安装tools⼯具,建议不要安装)
进⾏防⽕墙的关闭
关闭防⽕墙命令:Sudo ufw disable
查看防⽕墙的状态的命令:sudo ufw status
显⽰为不活动说明防⽕墙已经关闭。
安装SSH
1. Ubuntu是默认安装ssh客户端的,⽤命令:sudo dpkg- 1 | grep ssh进⾏查看。
如果返回包含“openssh-client”就表⽰已经安装了ssh客户端
1. 安装SSH服务端软件,安装命令:sudo apt-get install openssh-server
2. 重启ssh,命令:sudo /etc/init.d/ssh restart
下载Xshell和Xftp进⾏安装(安装到⾃⼰的电脑上,不是安装在虚拟机中)
在虚拟机看⾃⼰的IP地址的命令:ip addr,记住⾃⼰的ip地址,然后进⾏xshell的连接
之后在官⽹下载jdk和hadoop通过xshell中的xftp进⾏传输到虚拟机就⾏
注意:只需要传输到虚拟机的主⽬录就可以,这样⽅便查
安装jdk并进⾏jdk环境的配置
1.进⾏解压有两种⽅法
第⼀种:如果对⾃⼰敲命令⽐较⾃信可以按照课本进⾏命令输⼊解压
第⼆种:在主⽬录到传过来的解压包,点击右键,到解压到此处即可,解压之后把⽂件名修改的简短⼀点,这样后期配置jdk环境的时候⽐较⽅便(建议修改时只留jdk三个字母,把后⾯的版本号删除即可)
2.建⽴jdk连接(看课本进⾏命令的输⼊),这⼀步看⾃⼰意愿,建⽴连接的意思就是创建⼀个快捷⽅式
3.配置JDK环境变量也是两种⽅法(这⾥主要说第⼆种)
第⼀种:照着课本进⾏输⼊,该⽅法进⾏环境变量的配置时⽐较⿇烦
第⼆种如下图:到画横线的那⼀句,之后就可以进⼊⼀个⽂本⾥进⾏编辑,这样⽐较⽅便
进⼊⽂本之后就进⾏环境的配置就可以。下图是我的配置可以进⾏借鉴
要注意这⾥的地址要根据⾃⼰的情况填写,如果你不知道路径是在哪⾥可以到你解压的jdk⽂件右键点击属性进⾏查看
(1)使设置⽣效
命令:source ~/.bashrc
(2)配置完之后进⾏检验
命令:java -version
(注意:成功之后会显⽰版本号。如果提⽰没有成功,可能是你的权限太低通过输⼊:su这两个字母进⾏权限提升,如果认证失败,通过输⼊:sudo passwd(注意着两个字母中间有⼀个空格)进⾏密码的修改然后在通过:su进⾏权限提升即可。之后再通过课本中的命令进⾏检验。)
Hadoop的安装与环境变量的配置,与JDK步骤⼀致:下图是我的hadoop环境配置
(注意:判断成功与否命令不⼀样,判断Hadoop是否环境搭配成功
命令:whereis hdfs
命令:whereis start-all.sh,这两种命令都要输⼀下)
再次克隆出两台主机:通过虚拟机到上⽅菜单栏上的虚拟机—>管理——>点击克隆就可以了,⼀定要创建完整克隆,克隆出的电脑我在这⾥称作s1,s2主电脑称作m。你可以根据⾃⼰的意愿去配置。这样⽅便我下⾯的配置说明。
Hadoop的安装与完全分布式的安装(只安装完全分布式模式就可以了)
1. 通过命令:ip addr进⾏ip地址的获取(记住改地址,后⾯需要)
2. 修改主机名:sudo vi /etc/hostname进⼊之后将原有内容删除并修改成node1
3. 输⼊命令:sudo reboot进⾏重启使命令⽣效
4. 重复步骤2,3修改另外两台主机,修改成node2,node3
5. 映射ip地址及主机名(要在三台电脑都进⾏此操作)
通过命令:sudo vi /etc/hosts进⼊并在⽂件末尾添加:
Ip地址(m电脑的地址) node1
Ip地址(s1地址) node2
Ip地址(s2地址) node3
注意:这三⾏都要写上,地址就是你开头通过命令查的地址
1. 进⾏免密登陆:
(注意:这⼀步操作是基于你的三个虚拟机都打开的时候,如果你的电脑不能同时打开三个虚拟机就要看情况了。只能打开⼀个虚拟机,你就要到电脑⾥的服务,关闭⼀些软件,再试⼀试,如果还是不⾏那只能加⼀个内存条了。如果你电脑能打开两个虚拟机,你就要两个两个的进⾏连接,⽐如你只打开了m和s1,那你只需现在这两台电脑输⼊⼀下命令,再换成m和s2,然后是s1,s2)
1. 通过命令:ssh-keygen -t rsa⽣成秘钥对(要按三次回车)
2. 通过命令:ls ~/.ssh进⾏查看
3. 通过命令:(输⼊此命令是,你开的哪个虚拟机输⼊哪个命令,⽐如你只打开了m和s1,就只输⼊前两条就⾏)
ssh-copy-id -i ~/.ssh/id_rsa.pub node1
ssh-copy-id -i ~/.ssh/id_rsa.pub node2
ssh-copy-id -i ~/.ssh/id_rsa.pub node3
注意,是敲完⼀⾏执⾏完之后再敲,在执⾏的时候出现[yes/no],要选择输⼊yes,不要只输⼊⼀个y
1. 输⼊命令:
ssh node1
ssh node1
ssh node1
查看主机的变化
1. 安装NTP,这⾥需要在三台虚拟机上都要安装
安装NTP服务命令:sudo apt-get install ntp
查看是否运⾏成功命令:sudo dpkg-1 | grep ntp
1. 设置hadoop配置⽂件也是有两种办法(这⾥也主要讲第⼆种⽅法)
1.按照课本进⾏修改
2.到你解压的hadoop⽂件夹,点击进⼊etc在到hadoop点击进⼊,根据需要配那些⽂件,点击进⼊进⾏修改就可以了。
(1)设置hadoop-env.sh,只需要配置这⼀句即可,根据⾃⼰的实际情况更改⽬录
(2)设置l,只需要改划横线的地⽅。
第⼀个划横线地⽅,根据⾃⼰的实际情况,你通过命令设置的主机名是什么你就写什么。我这⾥写的主机名是node1,其他地⽅不要改。
(3)设置l,这个直接照着敲就可以,这个dfs,replication主要是你克隆了⼏个主机,就写⼏就⾏。这⾥咱们克隆了两个主机。
(4) 设置l,⽂件夹⾥没有这个⽬录
1. 设置l
(6) 设置slavers⽂件。设置slaver⽂件,就是指定哪些主机是slavers。讲slavers⽂件中的原有内容全部删除。添加ubuntu安装教程
node2
node3
1. 分发配置(两种⽅法)
将node1的配置⽂件分发⾄node2,node3
第⼀种:通过命令发送
命令:cd ~/hadoop/etc(说明:根据你⾃⼰的地址进⾏编写)
命令:scp -r hadoop(这个写你⾃⼰的⽤户名) hadoop@ node2:~/hadoop/etc(这⾥写你⾃⼰的地址)
命令:scp -r hadoop(这个写你⾃⼰的⽤户名) hadoop@ node3:~/hadoop/etc(这⾥写你⾃⼰的地址)
第⼆种⽅法:通过你的Xftp,把你node1配置好的⽂件先通过虚拟机传送到你的本机上,再送本机传送到node2和node3.
1. 格式化HDFS
在node1操作即可
命令:hdfs namenode -format
1. 启动和关闭hadoop
全部启动和关闭命令:
启动命令:start-all.sh
关闭命令:stop-all.sh
分步开启和关闭:
启动HDFS和YARN
命令:start-hdfs.sh
命令:start-yarn.sh
关闭HDFS和YARN
命令:stop-hdfs.sh
命令: stop -yarn.sh
1. 验证hadoop进程
命令:jps
如果出现:SecondaryNameNode
NameNode
ResouceManager
这三个进程,说明hadoop启动成功。
13,测试Hadoop
1. 在Ubuntu操作系统的⽬录下,创建⼀个⽂本⽂件:
命令:cd ~
命令:
1. 在⽂件中输⼊以下内容,保存并退出
Hello word
Hello hadoop
1. 将上传到HDFS,命令如下: