大象教程
首页
Spark
Hadoop
HDFS
MapReduce
Hive
Hadoop 教程
Hadoop 教程
Hadoop 工作原理
Ubuntu LInux 伪分布式安装 Hadoop2.0
Ubuntu Linux 分布式安装 Hadoop2.0
Hadoop 常用命令
Hadoop 高可用
Hadoop 任务调度器
Hadoop 分布式缓存
Hadoop 3.x新特性
Ubuntu Linux 伪分布式安装 Hadoop3.0
#Ubuntu 安装 Hadoop 2.0(分布式) ##软件版本 操作系统:Linux操作系统,Ubuntu 14.04或者16.04及以上版本。 Hadoop:Cloudera公司发布的Hadoop版本CDH5.x,你也可以使用Apache Hadoop 2.x。 ##Master节点安装Hadoop ###准备 ####配置hosts文件 在Master节点和Slave节点的hosts文件增加以下记录。 ```bash sudo nano /etc/hosts MASTER-IP master SLAVE01-IP slave01 SLAVE02-IP slave02 ``` 注意把 MASTER-IP、SLAVE01-IP、SLAVE02-IP 替换对应节点的IP。 ###安装Java8(建议用Oracle Java) 1、安装python-software-properties `sudo apt-get install python-software-properties` 2、新增仓库 `sudo add-apt-repository ppa:webupd8team/java` 3、更新资源列表 `sudo apt-get update` 4、安装java `sudo apt-get install oracle-java8-installer` ###配置SSH 1、 安装openssh-server和openssh-client `sudo apt-get install openssh-server openssh-client` 2、生成秘钥 `ssh-keygen -t rsa -P ""` 3、 配置免密SSH 把 master 节点的 `.ssh/id_rsa.pub` 文件的内容拷贝到所有节点(包括 master 和 slave )的 `.ssh/authorized_keys` 文件里面。 4、测试免密配置是否成功 ```bash ssh slave01 ssh slave02 ``` ###下载Hadoop 通过下面链接下载hadoop。 http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.3.2.tar.gz ####解压tar包 `tar xzf hadoop-2.5.0-cdh5.3.2.tar.gz` ###配置Hadoop集群 ####配置环境变量 在用户 home 目录下,编辑`.bashrc`文件,并增加下面环境变量: ```bash export HADOOP_PREFIX="/home/ubuntu/hadoop-2.5.0-cdh5.3.2" export PATH=$PATH:$HADOOP_PREFIX/bin export PATH=$PATH:$HADOOP_PREFIX/sbin export HADOOP_MAPRED_HOME=${HADOOP_PREFIX} export HADOOP_COMMON_HOME=${HADOOP_PREFIX} export HADOOP_HDFS_HOME=${HADOOP_PREFIX} export YARN_HOME=${HADOOP_PREFIX} ``` *注意:要确保路径都是正确的。`/home/ubuntu/hadoop-2.5.0-cdh5.3.2` 这个是我的 home 目录,你可以用`cd;pwd`命令查看你自己的home目录,并把路径替换成你自己的。 * 配置完之后按“Ctrl+X”保存文件。为了使环境变量生效,可以退出终端,再重新登录。 ####检查环境变量 检查被添加到`.bashrc`文件的环境变量是否生效。 ```bash bash hdfs ``` 如果生效,hdfs命令应该是正常的。 ####配置hadoop-env.sh 把JAVA_HOME添加到hadoop-env.sh里面。hadoop-env.sh在$HADOOP_HOME/etc/hadoop目录下。 `export JAVA_HOME=/usr/lib/jvm/java-8-oracle/` ####配置core-site.xml 编辑 $HADOOP_HOME/etc/hadoop 目录下的core-site.xml文件,并增加下面配置: ```bash
fs.defaultFS
hdfs://master:9000
hadoop.tmp.dir
/home/ubuntu/hdata
``` 这里的这个目录 /home/ubuntu/hdata,用于举例。请自己指定一个由写权限的目录即可。 ####配置hdfs-site.xml 在 $HADOOP_HOME/etc/hadoop/ 目录下,编辑 hdfs-site.xml,并增加下面配置: ```bash
dfs.replication
2
``` ####配置mapred-site.xml 在 $HADOOP_HOME/etc/hadoop 下,编辑 mapred-site.xml 配置文件,并增加以下配置: ```bash
mapreduce.framework.name
yarn
``` ####配置yarn-site.xml 在 $HADOOP_HOME/etc/hadoop 下,编辑 yarn-site.xml 配置文件,并增加以下配置: ```bash
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.resource-tracker.address
master:8025
yarn.resourcemanager.scheduler.address
master:8030
yarn.resourcemanager.address
master:8040
``` ####配置slave文件 在 $HADOOP_HOME/etc/hadoop 目录下,配置 slave 文件,并增加下面记录: ```bash slave01 slave02 ``` ##Slave节点安装Hadoop ###准备 下面的步骤跟Master节点一样,需要在所有slave节点执行。 - 配置hosts文件 - 安装Java8 ###把master的配置好的Hadoop安装文件拷贝到所有Slave节点 1、打包配置好的hadoop安装包,注意:下面命令在Master节点执行。 `tar czf hadoop.tar.gz hadoop-2.5.0-cdh5.3.2` 2、把打包好的tar文件拷贝到所有slave节点,注意:下面命令在Master节点执行。 ```bash scp hadoop.tar.gz slave01:~ scp hadoop.tar.gz slave02:~ ``` 3、在所有slave节点解压tar文件,注意:下面命令在所有slave节点执行。 `tar xzf hadoop.tar.gz` 到这里,Hadoop已经在所有的Slave节点都安装完成了。接下来就可以启动集群了。 ##启动Hadoop集群 让我们来看一下如何启动Hadoop集群? ###格式化namenode节点 `bin/hdfs namenode -format` 该命令会把HDFS里面的所有数据都清空。注意:该命令要在master节点执行。 ###启动HDFS `sbin/start-dfs.sh` 该命令要在master节点执行。 ###启动Yarn `sbin/start-yarn.sh` 该命令要在master节点执行。 ###检查Hadoop是否启动成功 1、Master节点 ```bash $jps NameNode ResourceManager ``` 2、Slave节点 ```bash $jps DataNode NodeManager ``` ##关闭Hadoop集群 让我们来看一下如何关闭Hadoop集群。 ###关闭Yarn `sbin/stop-yarn.sh` 该命令要在master节点执行。 ###关闭HDFS `sbin/stop-dfs.sh` 该命令要在master节点执行。
加我微信交流吧