Hadoop,系统底层细节透明的分布式基础架构

PS:Hadoop是大数据平台,但在安全领域应用,所以把它放在了【安全软件】的分类中备查。

Hadoop是Apache软件基金会下的一个开源分布式计算平台,采用JAVA语言开发,具有良好的跨平台性,并且可部署在廉价的计算机集群中,是大数据的代名词,也是分布式计算架构的鼻祖。几乎所有主流厂商都是围绕Hadoop进行开发和提供服务的,如微软、谷歌、思科、百度、华为、阿里等都支持Hadoop。它将一个大型的任务切割成多个部分给多台计算机,让每台计算机处理其中的一部分。

硬盘存储层面:Hadoop的数据处理工作借助HDFS,将架构下每一台计算机中的硬盘资源汇聚起来,无论是存储计算还是调用,都可以视为一块硬盘使用,就像计算机中C盘与其它盘的样子。

资源管理层面:Hadoop使用集权管理和调度软件YARN,相当于计算机的Windows操作系统,进行资源的调度管理。

计算处理层面:Hadoop利用MapReduce计算框架进行计算编程,将复杂的、运行在大规模集群上的并行计算过程高度抽象成两个函数——MAP和Reduce。

经过多年发展,Hadoop生态系统不断完善和成熟,除了核心的HDFS、YARN和MapReduce之外,还包括ZooKeeper、HBase、Hive、Pig、Mathout、Flume、Sqoop、Ambari等功能组件。

作为一种对大量数据进行分布式处理的软件框架,Hadoop具有以下5个特点:


1、 高可靠性:采用冗余数据存储方式,即使副本发生故障,其他的仍能正常提供服务;


2、 高效性:采用分布式存储和分布式处理两大核心技术,能高效处理PB及数据;


3、 成本低:采用廉价计算机集群,普通用户容易搭建;


4、 可扩展性:可高效稳定运行在廉价的计算机集群上,扩展到数以千计的计算机节点上;


5、 支持多种编程语言:虽然是JAVA开发的,但也可使用其它语言编写,比如C、C++。