基础环境配置
说明:参考文章CDH伪分布搭建教程。此处作为补充。整个操作在root用户下进行。
安装图形化界面(非必须)
1
2
3
4yum groupinstall "X Window System" #1
yum groupinstall "GNOME Desktop" "Graphical Administration Tools" #2
ln -sf /lib/systemd/system/runlevel5.target /etc/systemd/system/default.target #3
reboot #4安装Anaconda
说明:考虑到多用户使用存在的权限问题,将安装路径设置为
/usr/local/anaconda3
。更改权限:
1
chmod 777 Anaconda3-5.1.0-Linux-x86_64.sh
执行安装,安装过程中手动添加安装路径
/usr/local/anaconda3
,选择添加path
至~/.bashrc
中,不安装Mircosoft vsCode。1
sh Anaconda3-5.1.0-Linux-x86_64.sh
添加spyder链接:
方便在MobaXterm中打开图形化界面。
1
ln -s /usr/local/anaconda3/bin/spyder /usr/bin/spyder
重启:
1
reboot
添加hive服务
添加hive所需库:
1
2
3
4
5
6
7-- 在mysql中执行
create user 'hive'@'%' identified by 'Password3#';
grant all on *.* to 'hive'@'%' identified by 'Password3#';
flush privileges;
create database metastore;
alter database hive character set latin1;添加zookeeper服务
- 添加hive服务,数据库选择
metastore
添加spark2服务
准备文件
安装步骤
- 将
SPARK2_ON_YARN-2.1.0.cloudera2.jar
拷贝到/opt/cloudera/csd
,并且更改用户权限chown cloudera-scm:cloudera-scm
- 将其他文件拷贝到
/opt/cloudera/parcel-repo
关闭CDH集群,重启
cm server
和cm agent
,启动CDH集群:1
2service cloudera-scm-server restart
service cloudera-scm-agent restart进入cm页面,选择
Hosts
——>Parcels
:
- 按照提示进行分配安装,激活:
- 点击集群,添加spark2服务。
- 将
- 在python中正常import pyspark
- 在
/etc/profile
中添加如下配置:
- 在
过程中遇到的问题
- 问题1:
安装成功后运行pyspark代码报错:
启动spark-shell报无法获取资源:查到的资料:
- https://stackoverflow.com/questions/30828879/application-report-for-application-state-accepted-never-ends-for-spark-submi/42324377
- http://www.cnblogs.com/zlslch/p/6683814.html
- http://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/spark-shell-stuck/td-p/57603
- https://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/Endless-INFO-Client-Application-report-for-application-xx/m-p/31461
其他
centOS7 端口占用解决
1
2ss -lnp|grep 4040
kill -9 pid