大象教程
首页
Spark
Hadoop
HDFS
MapReduce
Hive
Hadoop 教程
Hadoop 教程
Hadoop 工作原理
Ubuntu LInux 伪分布式安装 Hadoop2.0
Ubuntu Linux 分布式安装 Hadoop2.0
Hadoop 常用命令
Hadoop 高可用
Hadoop 任务调度器
Hadoop 分布式缓存
Hadoop 3.x新特性
Ubuntu Linux 伪分布式安装 Hadoop3.0
#Ubuntu 安装 Hadoop 3.0(伪分布式) 本教程主要介绍如何在Ubuntu安装Hadoop 3.0版本的单节点的伪分布式集群,并涉及几个方面,比如如何安装Java,如何安装SSH以及配置免密SSH,如何下载并安装Hadoop,以及配置Hadoop环境,如对.bashrc,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml等配置文件的设置。最后还会学习如何启动和关闭Hadoop相关的服务。 ##在 Ubuntu 系统安装 Hadoop 3.x ###安装 Java 8 1、安装 python-software-properties 软件包 `sudo apt-get install python-software-properties` 2、新增仓库 `sudo add-apt-repository ppa:webupd8team/java` 3、更新资源列表 `sudo apt-get update` 4、安装 Java 8 `sudo apt-get install oracle-java8-installer` 5、验证 java 是否安装成功 `java -version` ###配置 SSH SSH 是一种用于远程登录工具。Hadoop需要用它来管理集群节点。 1、安装SSH ```bash sudo apt-get install ssh sudo apt-get install pdsh ``` 2、生成秘钥 `ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa` 3、配置免密SSH `cat ~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys` 4、修改authorized_keys文件权限 `chmod 0600 ~/.ssh/authorized_keys` 5、在本机器测试免密ssh是否配置成功 `ssh localhost` ###安装 Hadoop 1、下载 Hadoop http://redrockdigimark.com/apachemirror/hadoop/common/hadoop-3.0.0-alpha2/hadoop-3.0.0-alpha2.tar.gz 2、解压tar包 `tar -xzf hadoop-3.0.0-alpha2.tar.gz` ###Hadoop 配置 1、配置系统环境变量 打开.bashrc文件 `nano ~/.bashrc` 在该文件末尾假如下面环境变量: ```bash export HADOOP_PREFIX="/home/dataflair/hadoop-3.0.0-alpha2" export PATH=$PATH:$HADOOP_PREFIX/bin export PATH=$PATH:$HADOOP_PREFIX/sbin export HADOOP_MAPRED_HOME=${HADOOP_PREFIX} export HADOOP_COMMON_HOME=${HADOOP_PREFIX} export HADOOP_HDFS_HOME=${HADOOP_PREFIX} export YARN_HOME=${HADOOP_PREFIX} ``` 使环境变量生效: `Source ~/.bashrc` 2、配置 hadoop-env.sh 在 $HADOOP_HOME/etc/hadoop 目录下,编辑 hadoop-env.sh,并配置JAVA_HOME路径。 `export JAVA_HOME=/usr/lib/jvm/java-8-oracle/` 3、配置 core-site.xml 在 $HADOOP_HOME/etc/hadoop 目录下,打开 core-site.xml 文件,新增下面配置: ```bash
fs.defaultFS
hdfs://localhost:9000
hadoop.tmp.dir
/home/dataflair/hdata
``` 4、配置 hdfs-site.xml 在 $HADOOP_HOME/etc/hadoop 目录下,打开 hdfs-site.xml,新增下面配置: ```bash
dfs.replication
1
``` 5、配置 mapred-site.xml 在 $HADOOP_HOME/etc/hadoop 目录下,如果找不到 mapred-site.xml,可以从 mapred-site.xml.template 文件复制一份,并把文件名修改为 mapred-site.xml `cp mapred-site.xml.template mapred-site.xml` 在 mapred-site.xml 增加下面配置: ```bash
mapreduce.framework.name
yarn
``` 6、配置 yarn-site.xml 在$HADOOP_HOME/etc/hadoop目录下,打开yarn-site.xml,新增下面配置: ```bash
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
``` ###启动 Hadoop 1、格式化 HDFS 启动 hadoop 之前先对 hdfs 做格式化操作,把 hdfs 里面的文件全部清空。 `bin/hdfs namenode -format` 2、启动HDFS `sbin/start-dfs.sh` 用下面命令可以查看HDFS启动的报错信息 `echo "ssh" | sudo tee /etc/pdsh/rcmd_default` 3、启动 Yarn `sbin/start-yarn.sh` 4、jps命令查看启动的进程 ```bash $jps 2961 ResourceManager 2482 DataNode 3077 NodeManager 2366 NameNode 2686 SecondaryNameNode 3199 Jps ``` ###关闭 Hadoop 1、关闭 yarn `sbin/stop-yarn.sh` 2、关闭HDFS `sbin/stop-dfs.sh` ###注意 hadoop3 把相关的 web 端口更换了。 端口列表如下: ![hadoop3 web 端口](/media/editor/file_1570115282000_20191003230802379788.png "hadoop3 web 端口")
加我微信交流吧