在centos上配置hdfs(hadoop distributed file system)以实现高可用性,主要涉及到设置多个namenode(主节点)和datanode(数据节点),以及使用zookeeper进行故障转移管理。以下是详细的步骤:
1. 安装Hadoop
首先,确保你已经在所有节点上安装了Hadoop。你可以从Apache Hadoop官方网站下载并按照官方文档进行安装。
2. 配置Hadoop集群
编辑Hadoop的配置文件,主要包括core-site.xml、hdfs-site.xml和yarn-site.xml。
core-site.xml
<configuration> <property> <name>fs.defaultFSname> <value>hdfs://myclustervalue> property> <property> <name>ha.zookeeper.quorumname> <value>zk1:2181,zk2:2181,zk3:2181value> property> configuration>
hdfs-site.xml
<configuration> <property> <name>dfs.nameservicesname> <value>myclustervalue> property> <property> <name>dfs.ha.namenodes.myclustername> <value>nn1,nn2value> property> <property> <name>dfs.namenode.rpc-address.mycluster.nn1name> <value>namenode1:8020value> property> <property> <name>dfs.namenode.rpc-address.mycluster.nn2name> <value>namenode2:8020value> property> <property> <name>dfs.namenode.http-address.mycluster.nn1name> <value>namenode1:50070value> property> <property> <name>dfs.namenode.http-address.mycluster.nn2name> <value>namenode2:50070value> property> <property> <name>dfs.client.failover.proxy.provider.myclustername> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue> property> <property> <name>dfs.ha.fencing.methodsname> <value>sshfencevalue> property> <property> <name>dfs.ha.fencing.ssh.private-key-filesname> <value>/path/to/ssh/keyvalue> property> <property> <name>dfs.namenode.shared.edits.dirname> <value>qjournal://journalnode1:8485;journalnode2:8485;journalnode3:8485/myclustervalue> property> <property> <name>dfs.journalnode.edits.dirname> <value>/path/to/journalnode/datavalue> property> configuration>
yarn-site.xml
<configuration> <property> <name>yarn.resourcemanager.ha.enabledname> <value>truevalue> property> <property> <name>yarn.resourcemanager.cluster-idname> <value>yarn-clustervalue> property> <property> <name>yarn.resourcemanager.ha.rm-idsname> <value>rm1,rm2value> property> <property> <name>yarn.resourcemanager.hostname.rm1name> <value>resourcemanager1value> property> <property> <name>yarn.resourcemanager.hostname.rm2name> <value>resourcemanager2value> property> <property> <name>yarn.resourcemanager.zk-addressname> <value>zk1:2181,zk2:2181,zk3:2181value> property> configuration>
3. 配置JournalNode
在所有JournalNode节点上编辑hdfs-site.xml,添加以下配置:
<property> <name>dfs.journalnode.edits.dirname> <value>/path/to/journalnode/datavalue> property>
然后启动JournalNode服务:
$HADOOP_HOME/sbin/hadoop-daemon.sh start journalnode
4. 初始化NameNode元数据
在其中一个NameNode节点上执行以下命令来初始化NameNode元数据:
$HADOOP_HOME/sbin/hdfs namenode -format
5. 同步NameNode元数据到其他JournalNode
在所有JournalNode节点上执行以下命令来同步NameNode元数据:
$HADOOP_HOME/sbin/hdfs namenode -bootstrapStandby
6. 启动NameNode和DataNode
在所有NameNode节点上启动NameNode服务:
云模块_YunMOK网站管理系统采用PHP+MYSQL为编程语言,搭载自主研发的模块化引擎驱动技术,实现可视化拖拽无技术创建并管理网站!如你所想,无限可能,支持创建任何网站:企业、商城、O2O、门户、论坛、人才等一块儿搞定!永久免费授权,包括商业用途; 默认内置三套免费模板。PC网站+手机网站+适配微信+文章管理+产品管理+SEO优化+组件扩展+NEW Login界面.....目测已经遥遥领先..
$HADOOP_HOME/sbin/hadoop-daemon.sh start namenode
在所有DataNode节点上启动DataNode服务:
$HADOOP_HOME/sbin/hadoop-daemon.sh start datanode
7. 启动ResourceManager和NodeManager
在所有ResourceManager节点上启动ResourceManager服务:
$HADOOP_HOME/sbin/yarn-daemon.sh start resourcemanager
在所有NodeManager节点上启动NodeManager服务:
$HADOOP_HOME/sbin/yarn-daemon.sh start nodemanager
8. 验证集群状态
使用以下命令验证集群状态:
$HADOOP_HOME/bin/hdfs haadmin -getServiceState nn1 $HADOOP_HOME/bin/hdfs haadmin -getServiceState nn2 $HADOOP_HOME/bin/yarn rmadmin -getServiceState rm1 $HADOOP_HOME/bin/yarn rmadmin -getServiceState rm2
通过以上步骤,你可以在CentOS上配置一个高可用的HDFS集群。确保所有节点的时间同步,并且网络连接正常。









