)hadoop版本与hbase版本的匹配度,也在不断尝试新的东西

2019-11-07 作者:联系我们   |   浏览(112)

前言

做大数据有关的后端开垦专门的学问一年多来,随着Hadoop社区的接踵而至 蜂拥而至上扬,也在再三尝试新的东西,本文器重来说课下Ambari,这一个新的Apache的项目,目的在于让我们可以有助于急速的布局和陈设Hadoop生态圈相关的零构件的遭受,并提供保险和监察的功效.

作为生手,我讲讲本人自个儿的上学经历,刚刚开头学习的时候,当然最简易的 Google下Hadoop ,然后下载相关的包,在融洽的虚构机(CentOS 6.3) 上安装四个单机的Hadoop版本用来做测量试验,写多少个测量检验类,然后做下CRUD测验之类的,跑跑Map/Reduce的测量试验,当然这时候对于Hadoop还不是很驾驭,不断的看人家的稿子,明白下完整的架构,本人所做的正是更改conf下的多少个布局文件,让Hadoop能够符合规律的跑起来,这时两种在纠正配置上,那几个阶段之后,又用到了HBase,那些Hadoop生态圈的其它一个付加物,当然依然改过配置,然后 start-all.sh , start-hbase.sh 把劳务起起来,然后就是改正本身的顺序,做测验,随着用Hbase 学了下 Zookeeper 和Hive等, 接着过了那一个操作阶段了今后,初叶研商Hadoop2.0, 算是对Hadoop的生态圈全部有生机勃勃对摸底,介于自个儿在小卖部所担当的开支所关联到相关的技艺仅仅就这个.可是用作二个爱好查究的人,是否想多领悟下吧,它的性质怎么样? 它是现实性什么运维的? 看大厂家的那些PPT,人家(Taobao等大公司)动不动正是几十三个,几百个,甚至几千个节点,人家是什么样管理的,品质是怎么样的?望着PPT里面包车型大巴前段时间性能测量试验的曲线,你是否也可以详细的询问,何况对和煦的门类进展质量调优呢? 作者日常找到答案了,那正是 Ambari , 由 HortonWorks 开采的一个Hadoop相关的品种,具体能够上合法去了然.

布置HBase时,首先考虑的任其自然是Hbase版本与您所装的Hadoop本子是或不是相配,这点作者在事先的稿子中曾经认证清楚,(见 http://www.linuxidc.com/Linux/2014-05/102532.htm 卡塔尔hadoop版本与hbase版本的相配度,那是法定提供的。上面包车型地铁推行便是笔者没参照版本相称尝试投机的艺术,现身了错误。

本文首借使记录使用yum安装CDH Hadoop集群的历程,包涵HDFS、Yarn、Hive和HBase。本文使用CDH5.4版本进行安装,故下文中的过程都是针对CDH5.4版本的

--------------------------------------分割线

相关阅读

Ubuntu 13.04上搭建Hadoop环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu上搭建Hadoop情况(单机方式+伪布满形式卡塔尔国 http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu下Hadoop情状的安顿 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建Hadoop碰着图像和文字化教育程详明 http://www.linuxidc.com/Linux/2012-02/53927.htm

Hadoop LZO 安装教程 http://www.linuxidc.com/Linux/2013-01/78397.htm

Hadoop集群上运用Lzo压缩 http://www.linuxidc.com/Linux/2012-05/60554.htm

--------------------------------------分割线 -------------------------------------- 

--------------------------------------分割线

Ubuntu 13.04上搭建Hadoop环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1本子集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu上搭建Hadoop遭逢(单机格局+伪布满方式卡塔尔 http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu下Hadoop景况的配备 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建Hadoop情形图像和文字化教育程详细明白 http://www.linuxidc.com/Linux/2012-02/53927.htm

Hadoop LZO 安装教程 http://www.linuxidc.com/Linux/2013-01/78397.htm

Hadoop集群上行使Lzo压缩 http://www.linuxidc.com/Linux/2012-05/60554.htm

0. 条件认证

系统情形:

  • 操作系统:CentOS 6.6
  • Hadoop版本:CDH5.4
  • JDK版本:1.7.0_71
  • 运行客商:root

集群各节点剧中人物规划为:

192.168.56.121        cdh1     NameNode、ResourceManager、HBase、Hive metastore、Impala Catalog、Impala statestore、Sentry 
192.168.56.122        cdh2     DataNode、SecondaryNameNode、NodeManager、HBase、Hive Server2、Impala Server
192.168.56.123        cdh3     DataNode、HBase、NodeManager、Hive Server2、Impala Server

cdh1作为master节点,别的节点作为slave节点。

了解Hadoop生态圈

于今我们平时来看的风流罗曼蒂克对最重要字有: HDFS,MapReduce,HBase,Hive,ZooKeeper,Pig,Sqoop,Oozie,Ganglia,Nagios,CDH3,CDH4,Flume,Scribe,Fluented,HttpFS等等,其实应该还应该有更加多,Hadoop生态圈以往腾飞毕竟一定繁荣了,而在这里些如火如荼的骨子里又是哪个人在推进的吧? 读过Hadoop历史的意中人可能知道,Hadoop最初是始于Yahoo,可是以往关键是由 HortonWorks 图片 1和 Cloudera 图片 2 那2家商店在协理者,大部分的commiter 都归于那2家厂商,所以今后期货市场场道上见到的最首要有2个本子,CDH类别,和社区版, 小编最早用的是社区版本,后来换来CDH3,今后又换回社区版,因为有Ambari.当然,用哪些和毫无什么,只要自个儿的手艺到家,照旧都能改改的跑的正规的.这里就非常少说了. 讲了这般多废话了,开首讲 Ambari安装吧.

 

--------------------------------------分割线

本子表达:

hadoop1.1.2

hbase-0.94.7(lib下的是hadoop-core-1.0.4.jar)

jdk 1.6.0.24

意气风发、查看hadoop版本和hbase的本子是不是匹配(这里现身谬误,那步可粗略卡塔 尔(英语:State of Qatar)

只要不宽容,可将hadoop下的hadoop-core-*的jar包复制替换hbase/lib下的hadoop-core-*的jar包。

我的hadoop版本是hadoop-1.1.2的

图片 3

Hbase下lib的本子是

图片 4

进而覆盖jar包:

图片 5

二、修改hbase-env.xml的配置

a) 指定jdk路劲和hadoop下conf的路径

图片 6

b) 打开hbase对zookeeper的管理

图片 7

三、修改hbase-site.xml文件

a) 将hbase/src/main/resource/ 下的hbase-default.xml复制到hbase/conf目录下。

b) 改过hbase的根目录

图片 8

注:根目录路劲是建在hdfs上的

图片 9

c) 将布满式的配置设成true,那样hbase就通晓大家是做遍布式。

图片 10

d) 校订hbase的一时目录

图片 11

e卡塔尔国配置zookeeper运维的的机械,平时设置是基数个

图片 12

f卡塔 尔(阿拉伯语:قطر‎配置zookeeper寄存数据的目录

图片 13

四、修改conf/regionservers.xml

去掉localhost,添加 Slave1 Slave2

越多实际情况见请继续读书下大器晚成页的优质内容: http://www.linuxidc.com/Linux/2014-05/102531p2.htm

图片 14

1. 筹算专门的学问

设置 Hadoop 集群前先做好上边的预备专门的学问,在改良配置文件的时候,提出在一个节点上校正,然后一齐到别的节点,比如:对于 hdfs 和 yarn ,在 NameNode 节点上改革然后再风华正茂并,对于 HBase,接纳一个节点再同台。因为要协同布署文件和在四个节点运营服务,提议配置 ssh 无密码登录。

初叶布署

率先掌握下Ambari, 项目地址在:http://incubator.apache.org/ambari/

安装文书档案在:

HortonWorks的人写的生龙活虎篇介绍安装的稿子作者翻译了下:  http://www.linuxidc.com/Linux/2014-05/101530.htm 安装的时候请我们先看下安装文书档案吧,安装文书档案必得认真看,结合自个儿这几天所利用的系统版本,配置不一样的源,并且安装进度中须求的岁月相对相比长,所以需求认真的盘活安装文书档案的每种步骤. 这里自身就说自家遇见的部分难题.

以下说说自个儿要好的装置过程.

机械寻思:

自个儿的测量试验情状选择 9 台 HP 的烂机器,分别是 cloud100 - cloud108 , cloud108做为管理节点.

Ambari安装的情形路线:

各台机器的安装目录:

/usr/lib/hadoop

/usr/lib/hbase

/usr/lib/zookeeper

/usr/lib/hcatalog

/usr/lib/hive

Log路线, 这里必要看出错消息都得以在目录下找到相关的日志

/var/log/hadoop

/var/log/hbase

安顿文件的路线

/etc/hadoop

/etc/hbase

/etc/hive

HDFS的储存路线

/hadoop/hdfs

 

设置进度要求注意的点:

1, 安装的时候,供给抓牢每台机械的ssh免密码登录,那篇  http://www.linuxidc.com/Linux/2014-05/101532.htm 中涉嫌了,做好之后,从 管理节点到各样集群节点之间,都能选取这些登录.

2, 如若你的机械以前安装过 Hadoop的连锁服务,特别是Hbase 里面配备了 HBASE_HOME 的情况变量,需求 unset掉, 这么些情形变量会影响,因为本人从前把那个门路放到 /etc/profile 里面招致影响了HBase,因为Ambari安装的门路和你以前安装的或是区别样.

3,在服务选项页面包车型客车时候, NameNode 和 SNameNode 须求安排在一块, 笔者以前尝试做 HA 而把他们分手,但是SNameNode一直起不来,招致整个运营退步,接下去时间需求花在HA上.

 

图片 15

  1. JobTrakcer 不和Namenode在一同也会促成 运营不起来.

  2. Datanode的节点 一定要难 Block replication 中数, 基本都以急需 >= 3.

图片 16

  1. Confirm Hosts 的时候,需求在乎里面包车型客车 Warning 消息,把有关的Warning都管理掉,有部分Warning会促成安装出错.

  2. 铭记安装中所新建的客户,接下去需求用到这几个客户.

图片 17

  1. Hive和HBase Master 安排在同一个节点,这里当然你也得以分开. 设置好后就从头安装了.

图片 18

更加多详细情形见请继续读书下风度翩翩页的精粹内容: http://www.linuxidc.com/Linux/2014-05/101531p2.htm

图片 19

1.1 配置hosts

CDH 必要采纳 IPv4,IPv6 不辅助,禁用IPv6方法:

$ vim /etc/sysctl.conf
#disable ipv6
net.ipv6.conf.all.disable_ipv6=1
net.ipv6.conf.default.disable_ipv6=1
net.ipv6.conf.lo.disable_ipv6=1

使其收效:

$ sysctl -p

末段承认是或不是已禁止使用:

$ cat /proc/sys/net/ipv6/conf/all/disable_ipv6
1

1、设置hostname,以cdh1为例:

$ hostname cdh1

2、确保/etc/hosts中蕴藏ip和FQDN,借使你在行使DNS,保存那个新闻到/etc/hosts未为不可或缺的,却是最棒执行。

3、确保/etc/sysconfig/network中包含hostname=cdh1

4、检查互连网,运营下边谈笑自若检查是不是布署了hostname以致其相应的ip是不是科学。

运行uname -a翻开hostname是还是不是合营hostname命令运转的结果:

$ uname -a
Linux cdh1 2.6.32-358.23.2.el6.x86_64 #1 SMP Wed Oct 16 18:37:12 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux
$ hostname
cdh1

运行/sbin/ifconfig查看ip:

$ ifconfig
eth1      Link encap:Ethernet  HWaddr 08:00:27:75:E0:95  
          inet addr:192.168.56.121  Bcast:192.168.56.255  Mask:255.255.255.0
......

先安装bind-utils,手艺运作host命令:

$ yum install bind-utils -y

运行下边三令五申查看hostname和ip是否合作:

$ host -v -t A `hostname`
Trying "cdh1"
...
;; ANSWER SECTION:
cdh1. 60 IN A 192.168.56.121

5、hadoop的兼具配置文件中配置节点名称时,请使用hostname和不是ip

1.2 关闭防火墙

$ setenforce 0
$ vim /etc/sysconfig/selinux #修改SELINUX=disabled

#清空iptables
$ iptables -F

1.3 石英钟同步

搭建石英钟同步服务器

此处选取 cdh1 节点为石英钟同步服务器,别的节点为客商端一齐时间到该节点。安装ntp:

$ yum install ntp

改革 cdh1 上的布局文件 /etc/ntp.conf :

restrict default ignore   //默认不允许修改或者查询ntp,并且不接收特殊封包
restrict 127.0.0.1        //给于本机所有权限
restrict 192.168.56.0 mask 255.255.255.0 notrap nomodify  //给于局域网机的机器有同步时间的权限
server  192.168.56.121     # local clock
driftfile /var/lib/ntp/drift
fudge   127.127.1.0 stratum 10

启动 ntp:

#设置开机启动
$ chkconfig ntpd on

$ service ntpd start

ntpq用来监视ntpd操作,使用专门的学业的NTP方式6调控新闻方式,并与NTP服务器通信。

ntpq -p 查询网络中的NTP服务器,同一时候映现客商端和每一种服务器的关联。

$ ntpq -p
     remote           refid      st t when poll reach   delay   offset  jitter
==============================================================================
*LOCAL(1)        .LOCL.           5 l    6   64    1    0.000    0.000   0.000
  • ”* “:响应的NTP服务器和最纯粹的服务器。
  • ”+”:响应那几个查询央浼的NTP服务器。
  • “blank(空格卡塔 尔(英语:State of Qatar)”:未有响应的NTP服务器。
  • “remote” :响应这些哀告的NTP服务器的名号。
  • “refid “:NTP服务器使用的更加高顶尖服务器的称号。
  • “st”:正在响应央浼的NTP服务器的等级。
  • “when”:上一遍成功央求之后到前段时间的秒数。
  • “poll”:当前的伏乞的时钟间距的秒数。
  • “offset”:主机通过NTP石英钟同步与所协同时期源的年华偏移量,单位为阿秒(ms卡塔尔。

顾客端的安顿

在cdh2和cdh3节点上进行上边操作:

$ ntpdate cdh1

Ntpd运维的时候不感觉奇须要风流倜傥段时间大概5分钟进行时间一齐,所以在ntpd刚刚启航的时候还不能健康提供石英钟服务,报错”no server suitable for synchronization found”。运营时候须要等待5分钟。

若果想准时进行时间校准,可以应用crond服务来准时实行。

# 每天 1:00 Linux 系统就会自动的进行网络时间校准
00 1 * * * root /usr/sbin/ntpdate 192.168.56.121 >> /root/ntpdate.log 2>&1

1.4 安装jdk

CDH5.4要求使用JDK1.7,JDK的装置进度请参见英特网文章。

1.5 设置本地yum源

CDH官方的yum源地址在 或 ,请按照你安装的cdh版本改过该公文中baseurl的门路。

您能够从这里下载 cdh4 的仓库压缩包,只怕从这里 下载 cdh5 的库房压缩包。

因为自身是使用的centos操作系统,故作者这里下载的是cdh5的centos6压缩包,将其下载之后解压到ftp服务的路子下,然后配置cdh的本地yum源:

[hadoop]
name=hadoop
baseurl=ftp://cdh1/cdh/5/
enabled=1
gpgcheck=0

操作系统的yum源,提议你通过下载 centos 的 dvd 然后布署一个本土的 yum 源。

2. 设置和安插HDFS

依据随笔早先的节点安顿,cdh1 为NameNode节点,cdh2为SecondaryNameNode节点,cdh2 和 cdh3 为DataNode节点

在 cdh1 节点安装 hadoop-hdfs-namenode:

$ yum install hadoop hadoop-hdfs hadoop-client hadoop-doc hadoop-debuginfo hadoop-hdfs-namenode

在 cdh2 节点安装 hadoop-hdfs-secondarynamenode

$ yum install hadoop-hdfs-secondarynamenode -y

在 cdh2、cdh3节点安装 hadoop-hdfs-datanode

$ yum install hadoop hadoop-hdfs hadoop-client hadoop-doc hadoop-debuginfo hadoop-hdfs-datanode -y

NameNode HA 的铺排进度请参见CDH中配置HDFS HA,建议权且不用配置。

2.1 改革hadoop配置文件

/etc/hadoop/conf/core-site.xml中设置fs.defaultFS属性值,该属性钦定NameNode是哪三个节点以引致用的文件系统是file依旧hdfs,格式:hdfs://<namenode host>:<namenode port>/,暗中认可的文件系统是file:///

<property>
 <name>fs.defaultFS</name>
 <value>hdfs://cdh1:8020</value>
</property>

/etc/hadoop/conf/hdfs-site.xml中设置dfs.permissions.superusergroup品质,该属性内定hdfs的精品顾客,默感到hdfs,你能够校订为hadoop:

<property>
 <name>dfs.permissions.superusergroup</name>
 <value>hadoop</value>
</property>

更加多的计划消息验证,请参照他事他说加以考察 Apache Cluster Setup

2.2 钦命地方文件目录

在hadoop中私下认可的文本路线以致权限必要如下:

目录         所有者  权限  默认路径
hadoop.tmp.dir      hdfs:hdfs drwx------ /var/hadoop
dfs.namenode.name.dir    hdfs:hdfs drwx------ file://${hadoop.tmp.dir}/dfs/name
dfs.datanode.data.dir    hdfs:hdfs drwx------ file://${hadoop.tmp.dir}/dfs/data
dfs.namenode.checkpoint.dir   hdfs:hdfs drwx------ file://${hadoop.tmp.dir}/dfs/namesecondary

表明你能够在 hdfs-site.xm l中只安排hadoop.tmp.dir,也得以独家配备方面包车型大巴门路。这里运用各自陈设的不二等秘书籍,hdfs-site.xml中布置如下:

<property>
 <name>dfs.namenode.name.dir</name>
 <value>file:///data/dfs/nn</value>
</property>

<property>
 <name>dfs.datanode.data.dir</name>
<value>file:///data/dfs/dn</value>
</property>

NameNode上手动创造 dfs.name.dirdfs.namenode.name.dir 的地头目录:

$ mkdir -p /data/dfs/nn

DataNode上手动创设 dfs.data.dirdfs.datanode.data.dir 的地点目录:

$ mkdir -p /data/dfs/dn

改过上面目录全部者:

$ chown -R hdfs:hdfs /data/dfs/nn /data/dfs/dn

hadoop的经过会自动安装 dfs.data.dirdfs.datanode.data.dir,但是 dfs.name.dirdfs.namenode.name.dir 的权限私下认可为755,须求手动设置为700:

$ chmod 700 /data/dfs/nn

# 或者
$ chmod go-rx /data/dfs/nn

只顾:DataNode的地点目录能够设置八个,你能够设置 dfs.datanode.failed.volumes.tolerated 参数的值,表示能够耐受不当先该个数的目录退步。

2.3 配置 SecondaryNameNode

配置 SecondaryNameNode 需要在 /etc/hadoop/conf/hdfs-site.xml 中增加以下参数:

dfs.namenode.checkpoint.check.period
dfs.namenode.checkpoint.txns
dfs.namenode.checkpoint.dir
dfs.namenode.checkpoint.edits.dir
dfs.namenode.num.checkpoints.retained

/etc/hadoop/conf/hdfs-site.xml 中插手如下配置,将cdh2设置为 SecondaryNameNode:

<property>
  <name>dfs.secondary.http.address</name>
  <value>cdh2:50090</value>
</property>

设置多少个secondarynamenode,请参谋multi-host-secondarynamenode-configuration.

2.4 开启回笼站功效

回笼站效率默许是关门的,建议展开。在 /etc/hadoop/conf/core-site.xml 中增添如下三个参数:

  • fs.trash.interval,该参数值为时间隔绝,单位为分钟,默感到0,表示回笼站功用关闭。该值表示回笼站汉语件保留多长期,要是服务端配置了该参数,则忽视顾客端的配置;如若服务端关闭了该参数,则检查客户端是或不是有安插该参数;
  • fs.trash.checkpoint.interval,该参数值为时间隔断,单位为分钟,默以为0。该值表示检讨回笼站时间间距,该值要小于fs.trash.interval,该值在服务端配置。要是该值设置为0,则采纳 fs.trash.interval 的值。

2.5 (可选)配置DataNode存款和储蓄的载荷均衡

/etc/hadoop/conf/hdfs-site.xml 中配置以下多个参数:

  • dfs.datanode.fsdataset. volume.choosing.policy
  • dfs.datanode.available-space-volume-choosing-policy.balanced-space-threshold
  • dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction

详尽表达,请参谋 Optionally configure DataNode storage balancing。

本文由美高梅赌堵59599发布于联系我们,转载请注明出处:)hadoop版本与hbase版本的匹配度,也在不断尝试新的东西

关键词: