hadoop学习–(从hadoop框架讨论大数据生态)

一、hadoop介绍

hadoop是Apache基金会开发的分布式系统基础架构。


主要解决海量数据的存储和海量数据分析计算。(传统工具存储不了海量数据,传统数据计算速度慢)。


广义上来说。hadoop是指hadoop生态圈。


二、hadoop的优势

高可靠性 :hadoop底层维护多个数据副本,一般备份3分数据。所以即使hadoop某个计算元素或者存储出现故障,也不会导致数据丢失。

高扩展性 :在集群间分配任务数据,可方便得扩张数以千计的节点。(动态的)

高效性 :在MapReduce的思想下,Hadoop是并行工作的。

高容错性 :能够将失败的任务自动分配。

三、hadoop的组成

1.hadoop1.x组成


hadoop1.x组成

common辅助工具

HDFS数据存储

MapReduce计算+资源调度--cpu/磁盘/内存

2.hadoop2.x将hadoop1.x中的MR中的资源调度单独拿出来变成了yarn,而MR则只负责计算。目的是解耦,模块化。


hadoop2.x组成

common辅助工具

HDFS数据存储

MapReduce计算

yarn资源调度--cpu/磁盘/内存

总结:在hadoop1.x中MapReduce同时处理业务逻辑计算和资源调度,耦合性较大。在hadoop2.x中,新增了yarn负责资源调度,