澳门威利斯人_威利斯人娱乐「手机版」

来自 威利斯人娱乐 2019-10-30 14:29 的文章
当前位置: 澳门威利斯人 > 威利斯人娱乐 > 正文

Spark安装与配置,0上Spark伪分布式安装

朝气蓬勃、运维条件

Hadoop2.2.0上Spark伪分布式安装进度笔记。

风流洒脱、版本如下
    细心:Hive on 斯Parker对版本有着严苛的渴求,上面包车型大巴本子是透过验证的版本

  • CentOS 7.2
  • Hadoop 2.7
  • Hive 2.2.0
  • Spark 2.0.0
  • JDK 1.7
  • Scala 2.11.8
  • Maven 3.3.9
  1. 从官英特网下下载合适的本子:
  • apache-hive-2.3.2-bin.tar.gz

  • hadoop-2.7.2.tar.gz

  • jdk-8u144-linux-x64.tar.gz

  • mysql-5.7.19-1.el7.x86_64.rpm-bundle.tar

  • mysql-connector-java-5.1.43-bin.jar

  • spark-2.0.0.tgz(spark源码包,须求从源码编写翻译)

  • Redhat Linux 7.4 64位

注脚:Scala 2.11.8从此以往的本子只帮衬JDK1.8,假设条件原来是利用JDK1.7的就无需安装新型版本。

二、安装Linux和JDK、关闭防火墙

二、起尾安顿前的排坑

作者下载的是for hadoop2.2版本的spark0.9.2

威尼斯人网上娱乐 1

成百上千人都会参考Hive on spark的法定手册来配置,但内部依旧有那个坑的,下面就说一下合法手册上的坑及未有涉及一些细节。

  1. 解压,配置碰着:

威尼斯人网上娱乐 2

1)版本包容难题

sudo gedit /etc/profile

三、安装和布局MySQL数据库

尖锐湿疣E官方辅导说Spark必须要设置未有HIVE jar包的本子。原来的作品“Note that you must have a version of 斯Parker which does not include the Hive jars.”除外就从不任何的求证了。但骨子里情况是梅毒E最新发表版2.1.1(结束作者写那篇博客的时日点官英特网的下载页面最新版本)是不能运营在斯Parker2.0.0上述的,强行运维的话会现出Java.lang.ClassNotFoundException: org.apache.spark.Java斯ParkerListener的失实。原因是出于从斯Parker2.0.0开首Java斯ParkerListener已移除,改为了斯帕克Listener。

添加SPARK_HOME和更新PATH;

          1、解压MySQL安装包

若果想利用Hive2.X本子搭配斯Parker2.X版本的话能够利用Hive-14029的修补版本:

  1. 安装Scala

                   威尼斯人网上娱乐 3

添加Scala_HOME和更新PATH

         2、安装MySQL

Hive对应的Spark版本可依赖源码目录中的pom.xml的<spark.version>确认。

  1. 配置Spark

                  yum remove mysql-libs
                 rpm -ivh mysql-community-common-5.7.19-1.el7.x86_64.rpm
                 rpm -ivh mysql-community-libs-5.7.19-1.el7.x86_64.rpm
                 rpm -ivh mysql-community-client-5.7.19-1.el7.x86_64.rpm
                 rpm -ivh mysql-community-server-5.7.19-1.el7.x86_64.rpm
                 rpm -ivh mysql-community-devel-5.7.19-1.el7.x86_64.rpm  (可选)

2)spark编写翻译时scala版本需求改造

进入SPARK_HOME/conf目录,复制风度翩翩份spark-env.sh.template并改换文件名字为spark-env.sh

         3、启动MySQL

合法教导的编译命令

张开编辑:

                 systemctl start mysqld.service

./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

export SCALA_HOME=/home/hadoop/ha/scala-2.10.3
export JAVA_HOME=/usr/lib/jdk/jdk1.7.0_71
export SPARK_MASTER=localhost
export SPARK_LOCAL_IP=localhost
export HADOOP_HOME=/home/hadoop/ha/hadoop-2.2.0
export SPARK_HOME=/home/hadoop/ha/spark-0.9.2-bin-hadoop2
export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

           4、查看并校正root客商的密码  

依赖spark官方指引实操的编译命令

  1. 让景况生效:

                   查看root客户的密码:cat /var/log/mysqld.log | grep password
                   登入后更改密码:alter user 'root'@'localhost' identified by 'Welcome_1';

./dev/change-scala-version.sh 2.11
./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided,-Dscala-2.11"

source /etc/profile

                  威尼斯人网上娱乐 4

3)启动Hive时java.lang.NoClassDefFoundError: org/slf4j/Logger错误

  1. 启动spark

         5、创制hive的数据库和hiveowner顾客   

案由是从未有过导入hadoop的jar包,在spark-env.sh参与上面包车型地铁变量就可以:

进入SPARK_HOME/sbin目录,运维命令:

                  (*)创立七个新的数据库:create database hive;
                  (*)成立二个新的顾客:
                           create user 'hiveowner'@'%' identified by ‘Welcome_1’;
                  (*)给该客户授权
                           grant all on hive.* TO 'hiveowner'@'%';
                           grant all on hive.* TO 'hiveowner'@'localhost' identified by 'Welcome_1';

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

start-all.sh

四、安装Hadoop(以伪布满式为例)

4)斯Parker on Yarn无需运营spark集群

  1. 输入指令jps查看是不是运维成功:

       由于Hive on 斯Parker暗许支持斯Parker on Yarn的点子,所以须求配置Hadoop。

威尼斯人网上娱乐,官方手册原版的书文是在编译后将要求运转spark集群——“Start 斯Parkercluster”,但这种用是要安顿master和worker的,有一点点像配置resourcemanager和nodemanager。而实在只若是斯Parkeron Yarn则无需安顿也无需运行spark集群。斯Parker会自动读取Yarn配置文件,借使不是用了Sparkon Yarn,那在Yarn的webUI上是看不到斯Parker职务的。

能够看看有一个Master跟Worker进度 表达运转成功

       1、图谋工作:

斯Parker on Yarn须求在spark-env.sh参与上边的变量

能够由此

             (*)配置主机名(编辑/etc/hosts文件)

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

威尼斯人网上娱乐 5

             (*)配置免密码登入

5)Hive的spark.master参数

  1. 经过浏览器访问 查看spark集群处境

         2、Hadoop的配置文件如下:

合法手册上说spark.master参数是<Spark Master U普拉多L>,未有详尽地证实,像本身如此的新手超级轻便犯晕,spark官方文档上有详细解释

威尼斯人网上娱乐 6

              威尼斯人网上娱乐 7

三、配置进程

OK!

       

1)编译spark和hive
安装scala和maven 
布局maven运转参数 

下边关于Hadoop的篇章您也说不定喜欢,无妨看看:

           3、启动Hadoop:

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m -XX:MaxPermSize=512m"

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程  http://www.linuxidc.com/Linux/2015-02/113487.htm

                     start-all.sh

编译spark 05.

CentOS安装和配备Hadoop2.2.0  http://www.linuxidc.com/Linux/2014-01/94685.htm

           4、通过Yarn Web Console检查是或不是为正义调节原则

本文由澳门威利斯人发布于威利斯人娱乐,转载请注明出处:Spark安装与配置,0上Spark伪分布式安装

关键词: 澳门威利斯人 大数据 Spark Hive