hadoop学习–(从hadoop框架讨论大数据生态)
一、hadoop介绍
hadoop是Apache基金会开发的分布式系统基础架构。
主要解决海量数据的存储和海量数据分析计算。(传统工具存储不了海量数据,传统数据计算速度慢)。
广义上来说。hadoop是指hadoop生态圈。
二、hadoop的优势
高可靠性 :hadoop底层维护多个数据副本,一般备份3分数据。所以即使hadoop某个计算元素或者存储出现故障,也不会导致数据丢失。
高扩展性 :在集群间分配任务数据,可方便得扩张数以千计的节点。(动态的)
高效性 :在MapReduce的思想下,Hadoop是并行工作的。
高容错性 :能够将失败的任务自动分配。
三、hadoop的组成
1.hadoop1.x组成
hadoop1.x组成
common辅助工具
HDFS数据存储
MapReduce计算+资源调度--cpu/磁盘/内存
2.hadoop2.x将hadoop1.x中的MR中的资源调度单独拿出来变成了yarn,而MR则只负责计算。目的是解耦,模块化。
hadoop2.x组成
common辅助工具
HDFS数据存储
MapReduce计算
yarn资源调度--cpu/磁盘/内存
总结:在hadoop1.x中MapReduce同时处理业务逻辑计算和资源调度,耦合性较大。在hadoop2.x中,新增了yarn负责资源调度,