今天给各位分享hadoop平台搭建的知识,其中也会对hadoop平台搭建与应用进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
- 1、HDFS系统的搭建(整理详细版)
- 2、hadoop pipeline 搭建
- 3、在docker上搭建hadoop平台有什么目的
- 4、hadoop集群搭建(Hadoop 3.1.3 /Hive 3.1.2/Spark 3.0.0)
HDFS系统的搭建(整理详细版)
首先我这里有5台虚拟机,1台NameNode,4台DataNode
master充当着NameNode的角色,其他的salve充当着DataNode的角色,并且在这5台虚拟机上我都修改了hosts文件,配置了他们的主机名尘游他们可以通过主机名进行互相的访问。
配置完成 wq 保存退出。
加入 export PATH=$PATH:/usr/local/hadoop-2.7.3/bin:/usr/local/hadoop-2.7.3/sbin
保存后输入命令让profile文件立即生效。
输入命令:hadoop
如果出现以下内容 Hadoop环境就配置成功了
在我的master机器上也就是我192.168.56.101这台机器,这台机器将会成为我的Hadoop集群NameNode节点。
进入master这台机器的的根目录
出现提示可以不理会 直接按几次回车键就行了,出现以下界面说明生成私钥id_rsa和公钥id_rsa.pub
把生成的公钥id发送到 slave1、slave2、slave3、slave4机器上
slave1会要求你输入slave1这台机器上的密码
密码输入正确后你会看到以下界面,它说已经添加了密钥,它叫你尝试登陆一下
输入命令SSH免密登陆到slave1
你发现你已经从master不用输入密码登陆到slave1上了
添加其他的slave2、slave3、slave4 也是同样的操作。
在所有有的机器上历世的上core-site.xml、和hdfs-site.xml 文件
修改core-site.xml,在configuration标签内加入以下配置
修改hdfs-site.xml,在configuration标签内加入以下配置
创建文件夹Hadoop存放数据的文件夹
mkdir /home/hadoopData
master主机是我的NameNode节点,所以我在我肢兄肢的master主机上操作,也就是192.168.56.101这台主机。
在master主机的Hadoop目录下修改slaves文件,加入DataNode的节点
注意!注意!注意!
在我hosts文件中已经绑定了域名所以可以直接通过主机的名字访问(不明白看本文章中的节点的介绍)
slave1、slave2、slave3、slave4都是DataNode的节点我把它们加入到我的NanmeNode节点中
这样我就可以一个命令启动整个集群。
在我master这台主机上 输入命令HDFS格式化命令
输入启动HDFS系统命令
检查是否启动成功
在游览器中输入 :
默认 你NameNode的IP+50070端口
当你见到以下界面说明你的集群已经起来了
再检查DataNode
我这里配了4个DataNode也起来了 说明整个HDFS集群搭建完成了!
hadoop pipeline 搭建
在互联网公司做算法工程师,一般的工作流程是1.hadoop跑数据做线下调研,2 调研结果出来后,跟线上效果做对比,3 线下调研结果OK 将模型上线。一般来讲,训练数据都具有时效性,模型需要常常更新才能在线上获得稳定的效果,于是在模型上线后搭建一个自动化更新模型的pipeline就变得非常重要了。
pipeline的一般搭建流程如图一所示:
首先是日志挖掘,从线上日志利用hadoop挖掘原始数据;其次是从原始数据中清洗并且提取特征(可能这里还需要对数散启据进行采样,变换数据分布);然后是重新自动训练一个新的模型,在测试集上自动评估后,以词典的方式上线。(深度学习的模型参数值保存为pb文件锋袜,可以通过上线词典的形式更新模型)。我将整体的pipeline 流程分为三段:
a.数据集生成,hadoop 日志挖掘与清洗
b.模型生成,模型自动训练
c.词典上线,评估结果并自动上线
在数据集生成阶段,其实可以分为三段: 1 日志挖掘原始数据;2 数据清洗与特征变换;3 数据抽样变换分布,用一个主shell处理数据集生成。
1 在这里每一个子任务都应该由一个shell脚本处理,在每一个子任务里都应该打印重要的参数信息,例如输入和输出以及其他的重要参数,方便脚本出错debug调试。每一个子任务都可能有很多需要控制的参数,这些参数不应该分开写在每个shell里,应该写在主shell里统一控制。
2 一个自动化的pipeline应该是全程自行的,不需要我们去管他。只有当遇到错误发生的时候需要提醒我们去处理。所以在每一个子shell里应当编写if语句 发送邮件通知。
冲基如 if [ $? -ne 0 ];then
echo "dst M/R Job fails" | mail -s "check the hadoop shell" 邮箱名
exit 1
fi
3 有的数据清洗与特征变换任务可以在hadoop上直接完成,有的可能由于一些特征原因需要在本地完成,这点需要工程师自行决定怎么才是最优选择。
4 对于数据抽样变换分布,我一般用蓄水池抽样,根据不同的分类,等概率抽取每个类别的样本数据
在docker上搭建hadoop平台有什么目的
在docker上搭建hadoop平台目的占用资源含兄掘少。根据查询相关公开资料得知想在一台电脑上尘简搭建一个多节点的Hadoop集群,传统的方式是使用多个虚拟机。但这种方式占用的资源比较多,一台笔记本能同时运行的虚拟机的数量是很有限的。这个时候我们可以使用Docker。Docker可以看做是一种轻量级的虚拟机,占用资源谈核少,用起来和传统的虚拟机很像,使用的时候可以类比VMware或VirtualBox。
hadoop集群搭建(Hadoop 3.1.3 /Hive 3.1.2/Spark 3.0.0)
完全分布式HA
服务器规划
技术栈包含
hdfs
hive on spark
presto
doris
superset
azkaban
kafka
fluent\flume
sqoop\kettle\flink-cdc
atlas
禁用swap/selinux
修改 IP/修改主机名/及主机名和 IP 地址的映射
时间同步/设置时区/自动时间同步
关闭防火墙
关闭SELINUX
新建用户
免密登录(先升级openssh)
发送密锋闹钥(dw01上执行)
授权
Tencent Kona v8.0.8-GA
腾讯开源的konaJDK,针对大数据场景下优化
解压并重命名至安装地址:/usr/local/java/
zookeeper-3.5.9
解压并重命名至安装地址:/usr/local/zookeeper
apache-hadoop-3.1.3 解压至安装地型基谈址:/usr/local/hadoop
修改环境变量
/usr/local/zookeeper/conf
启动zookeeper集群(每台执行)
三台服务器启动
格式卜碰化namenode(dw01执行)
启动namenode(dw01上执行)
在[nn2]和[nn3]上分别执行,同步 nn1 的元数据信息
启动nn2 nn3,分别执行
所有节点上启动datanode
将[nn1]切换为 Active
查看状态
配置yarn-site.xml
配置mapred-site.xml
分发配置文件,启动yarn(dw03 启动)
dw03节点
dw01节点
dw01执行
dw03执行
测试样例
HA切换namenode手动
修改yarn显示log的bug
hadoop平台搭建的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于hadoop平台搭建与应用、hadoop平台搭建的信息别忘了在本站进行查找喔。