大数据实践 Hadoop3 Hive Spark完全安装

在下载目录下打开终端，移动下载好的文件到/usr/local
```
sudo mv 文件名 /usr/local
```
在/usr/local中解压文件
```
cd /usr/local
sudo tar -zxvf 文件名
```
改个名
```
sudo mv 文件名 简称
```

安装一些工具

sudo apt-get update
sudo apt-get install -y openssh-client openssh-server vim ssh unzip

安装java

sudo apt install openjdk-8-jdk openjdk-8-jre

配置java环境变量

sudo gedit ~/.bashrc

在最后添加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JRE_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre

保存退出后刷新、验证

source ~/.bashrc
java -version

Lab 1

Hadoop配置

给文件夹添加最高权限
```
sudo chmod 777 /usr/local/hadoop
```

给hadoop添加环境变量

sudo gedit ~/.bashrc

在最后添加

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

保存退出后刷新、验证

source ~/.bashrc
hadoop version

给HDFS的NameNode和DataNode建立文件夹，建立保存日志的文件夹

mkdir -p $HADOOP_HOME/hdfs/namenode
mkdir -p $HADOOP_HOME/hdfs/datanode
mkdir $HADOOP_HOME/logs

进入hadoop的配置文件夹
```
cd $HADOOP_HOME/etc/hadoop
ls
```

在Hadoop-env.sh中添加JAVA_HOME

gedit hadoop-env.sh

在最后添加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

保存退出

配置core-site.xml

gedit core-site.xml

在<configuration>中添加

 <property><name>fs.defaultFS</name><value>hdfs://bigdata-master:9000/</value></property>

保存退出

配置hdfs-site.xml

gedit hdfs-site.xml

在<configuration>中添加

 <property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hdfs/namenode</value><description>NameNode directory for namespace and transaction logs storage.</description></property><property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hdfs/datanode</value><description>DataNode directory</description></property><property><name>dfs.replication</name><value>2</value></property>

保存退出

配置mapred-site.xml

gedit mapred-site.xml

在<configuration>中添加

 <property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property>

保存退出

配置yarn-site.xml

gedit yarn-site.xml

在<configuration>中添加

 <property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.resourcemanager.hostname</name><value>bigdata-master</value></property>

保存退出

调整log level (optional)

gedit log4j.properties

在最后添加

log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

保存退出

免密码登陆

ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

初始化Namenode
```
hdfs namenode -format
```
重启一下ssh
```
sudo /etc/init.d/ssh restart
```
运行hadoop
```
start-all.sh
```
查看进程
```
jps
```
打开浏览器，地址栏输入localhost:9870

HDFS操作

在图形界面的Utilities-Browse the file system可以看到可视化的HDFS文件目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y3LvqMsR-1604631818431)(/Users/yiger/Library/Application Support/typora-user-images/截屏2020-11-05 下午2.54.01.png)]

添加一个目录

hadoop fs -mkdir /user/用户名/wordcount/input

上传一个文件到该HDFS目录中（以README.txt为例）

cd $HADOOP_HOME
hadoop fs -copyFromLocal README.txt /user/用户名/wordcount/input
# hadoop fs -ls -R

MapReduce操作（optional）

Lab2

Hive配置

给文件夹添加最高权限
```
sudo chmod 777 /usr/local/hive
```
给hadoop添加环境变量
```
sudo gedit ~/.bashrc
```
在最后添加
```
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
```
保存退出后刷新、验证
```
source ~/.bashrc
hive --version
```
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V43bAb7q-1604631818434)(/Users/yiger/Desktop/截屏2020-11-05 下午3.26.41.png)]
进入hive的配置文件夹
```
cd $HIVE_HOME/conf
ls
```

重命名模板文件并复制一个用户自定义配置文件hive-site.xml

mv hive-default.xml.template hive-default.xml
cp hive-default.xml hive-site.xml

编辑hive-site.xml

gedit hive-site.xml

在<configuration>中添加

  <property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBC connect string for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.cj.jdbc.Driver</value><description>Driver class name for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value><description>username to use against metastore database</description></property><property><name>javax.jdo.option.ConnectionPassword</name><value>密码</value><description>password to use against metastore database</description></property>

密码设置尽量复杂，如：Mysql@123

保存后退出

安装mysql
```
sudo apt-get install mysql-server
```
进入mysql shell创建用户并授权
```
sudo mysql
```
查看当前database、用户
```
show databases;
select user from mysql.user;
```
如果有Navicat、DataGrip等工具可以建立一个允许全网访问的用户’external_test’@’%'并在本机上尝试连接

添加一个hive用户并授最高权限，检查用户表
```
grant all privileges on *.* to 'hive'@'localhost' identified by '密码'; 
select user from mysql.user;
```
退出exit;
配置mysql jdbc

在虚拟机中打开https://dev.mysql.com/downloads/connector/j/选择对应版本下载

解压到/usr/local/mysql_jdbc目录

sudo dpkg-deb --extract 文件名 /usr/local/mysql_jdbc

进入解压好的文件夹并找到jar包

cd /usr/local/mysql_jdbc/usr/share/java
ls

把这个jar包拷贝到hive里

cp 文件名 /usr/local/hive/lib

重启mysql并进入shell

service mysql stop
service mysql start
sudo mysql

创建数据库

create database hive;
show databases;

删除版本冲突的包

cd /usr/local/hive/lib
rm -rf guava-19.0.jar

利用schematool初始化元数据配置更改到mysql中

schematool -dbType mysql -initSchema

启动hive

hive

Hive操作

查看数据库
```
show databases;
```
创建数据库
```
create database test_hive;
```
在hdfs中查看

创建表

create table if not exists usr(
id bigint,
name string,
age int);

查看表
```
show tables in test_hive；
```
删库
```
drop database test_hive;
```

Lab3

Spark配置

给文件夹添加最高权限
```
sudo chmod 777 /usr/local/spark
```

给hadoop添加环境变量

sudo gedit ~/.bashrc

在最后添加

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

保存退出后刷新

source ~/.bashrc

进入spark的配置文件夹

cd $SPARK_HOME/conf
ls

使用三个模板文件

mv spark-defaults.conf.template spark-defaults.conf
mv slaves.template slaves
mv spark-env.sh.template spark-env.sh

启动spark并检验

cd /usr/local/spark/sbin
./start-all.sh
jps

Lab4

SparkSQL配置

进入spark的配置文件夹

cd $SPARK_HOME/conf

打开spark-defaults.conf

gedit spark-defaults.conf

在最后添加

spark.sql.warehouse.dir hdfs://localhost:9000/user/hive/warehouse

保存退出

复制hadoop、hive配置文件到spark中

cp /usr/local/hive/conf/hive-site.xml  /usr/local/spark/conf
cp /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/spark/conf
cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/spark/conf

复制jdbc到spark中

cp /usr/local/hive/lib/mysql-connector-java-x.x.x.jar  /usr/local/spark/jars

启动spark-sql
```
spark-sql
```

SparkSQL操作

查看数据库
```
show databases;
```
创建数据库
```
create database test_sparksql;
```
在hdfs中查看

pyspark操作

进入pyspark
```
pyspark
```

统计词频

textFile = spark.read.text("wordcount/input/README.txt")
textFile.count()

使用spark.sql执行sql语句

df = spark.sql("show databases")
df.show()

建库

spark.sql("create database test_pyspark_sql")

在hdfs中查看

Hadoop3 Hive Spark完整安装与实践

大数据实践 Hadoop3 Hive Spark完全安装

Lab 1

Hadoop配置

HDFS操作

MapReduce操作（optional）

Lab2

Hive配置

Hive操作

Lab3

Spark配置

Lab4

SparkSQL配置

SparkSQL操作

pyspark操作

相关文章

搭建hexo博客并部署到github上

前端学习（2004）vue之电商管理系统电商系统之阻止页签切换

XML入门

动态规划之力扣股票类问题

前端学习（2005）vue之电商管理系统电商系统之获取动态参数列表

分布式技术一周技术动态 2016.07.10

Mysql存储结构B树与B+树与索引

前端学习（2006）vue之电商管理系统电商系统之绘制商品参数的复选框

酒厂选址（codevs 1507）

spring入门笔记

struts2.0标签库

前端学习（2007）vue之电商管理系统电商系统之优化复选框的样式

MapReduce改造fp-growth算法

《一线架构师实践指南》—— 读后总结

随机排列实现 -shuffle算法

前端学习（2008）vue之电商管理系统电商系统之获取静态属性列表

转载_递归树求递归算法的时间复杂度

[转]Eclipse Java注释模板设置详解

前端学习（2011）vue之电商管理系统电商系统之初步使用upload上传组件

为什么使用Deque而不使用Stack构造栈

Hadoop3 Hive Spark完整安装与实践

大数据实践 Hadoop3 Hive Spark完全安装

Lab 1

Hadoop配置

HDFS操作

MapReduce操作 （optional）

Lab2

Hive配置

Hive操作

Lab3

Spark配置

Lab4

SparkSQL配置

SparkSQL操作

pyspark操作

相关文章

MapReduce操作（optional）