基于华为云的CDH配置介绍

基础环境配置

说明:参考文章CDH伪分布搭建教程。此处作为补充。整个操作在root用户下进行。

  1. 安装图形化界面(非必须)

    1
    2
    3
    4
    yum groupinstall "X Window System"  #1
    yum groupinstall "GNOME Desktop" "Graphical Administration Tools" #2
    ln -sf /lib/systemd/system/runlevel5.target /etc/systemd/system/default.target #3
    reboot #4
  2. 安装Anaconda

    说明:考虑到多用户使用存在的权限问题,将安装路径设置为/usr/local/anaconda3

    • 更改权限:

      1
      chmod 777 Anaconda3-5.1.0-Linux-x86_64.sh
    • 执行安装,安装过程中手动添加安装路径/usr/local/anaconda3,选择添加path~/.bashrc中,不安装Mircosoft vsCode。

      1
      sh Anaconda3-5.1.0-Linux-x86_64.sh
    • 添加spyder链接:

      方便在MobaXterm中打开图形化界面。

      1
      ln -s /usr/local/anaconda3/bin/spyder /usr/bin/spyder
    • 重启:

      1
      reboot

添加hive服务

  1. 添加hive所需库:

    1
    2
    3
    4
    5
    6
    7
    -- 在mysql中执行
    create user 'hive'@'%' identified by 'Password3#';
    grant all on *.* to 'hive'@'%' identified by 'Password3#';
    flush privileges;

    create database metastore;
    alter database hive character set latin1;
  2. 添加zookeeper服务

  3. 添加hive服务,数据库选择metastore

添加spark2服务

  1. 准备文件

  2. 安装步骤

    • SPARK2_ON_YARN-2.1.0.cloudera2.jar拷贝到/opt/cloudera/csd,并且更改用户权限chown cloudera-scm:cloudera-scm
    • 将其他文件拷贝到/opt/cloudera/parcel-repo
    • 关闭CDH集群,重启cm servercm agent,启动CDH集群:

      1
      2
      service cloudera-scm-server restart
      service cloudera-scm-agent restart
    • 进入cm页面,选择Hosts——>Parcels:

    • 按照提示进行分配安装,激活:
    • 点击集群,添加spark2服务。
  3. 在python中正常import pyspark
    • /etc/profile中添加如下配置:

过程中遇到的问题

其他

  1. centOS7 端口占用解决

    1
    2
    ss -lnp|grep 4040
    kill -9 pid