Hadoop的架构是一个分布式系统,旨在高效存储和处理大规模数据。其核心设计包括分层组件,各司其职,协同工作。以下是Hadoop架构的详细解析:
1. 核心模块
Hadoop主要由三个核心模块构成:
- HDFS(Hadoop Distributed File System):分布式文件系统,负责数据存储。
- YARN(Yet Another Resource Negotiator):资源管理和作业调度框架。
- MapReduce:分布式计算模型(在YARN上运行)。
2. HDFS架构
设计目标:高容错性、高吞吐量、支持海量数据存储。
关键组件
-
NameNode(主节点):
- 管理文件系统元数据(目录结构、文件分块信息、块位置等)。
- 协调客户端对文件的读写操作。
- 单点故障问题通过**HA(高可用)**方案解决(如双NameNode + ZooKeeper)。
-
DataNode(从节点):
- 存储实际数据块(默认每个块128MB/256MB,3副本)。
- 定期向NameNode发送心跳和块报告。
-
Secondary NameNode:
- 辅助合并NameNode的编辑日志(fsimage + edits),非热备,需与HA区分。
数据读写流程
- 写入:客户端切分文件→NameNode分配DataNode→流水线写入多副本。
- 读取:客户端从NameNode获取块位置→直接联系DataNode读取。
3. YARN架构
设计目标:解耦资源管理与作业调度,支持多计算框架(如MapReduce、Spark)。
关键组件
-
ResourceManager(RM):
- 全局资源调度器,管理集群资源(CPU、内存)。
- 包含Scheduler(纯调度,不监控任务)和ApplicationsManager(接受作业提交)。
-
NodeManager(NM):
- 单节点资源代理,监控资源使用并汇报给RM。
- 启动和管理容器(Container)执行任务。
-
ApplicationMaster(AM):
- 每个应用(如MapReduce作业)专属,向RM申请资源,协调任务执行。
- 处理任务失败、重试等容错逻辑。
作业执行流程
- 客户端提交作业到RM。
- RM分配容器启动AM。
- AM向RM申请资源,NM启动容器运行任务(Map/Reduce)。
- AM监控任务状态,直到作业完成。
4. MapReduce计算模型
- Map阶段:分布式处理输入数据,生成键值对。
- Shuffle & Sort:按Key排序并分发到Reduce节点。
- Reduce阶段:聚合中间结果,生成最终输出。
5. 辅助组件与生态系统
- Hadoop Common:提供基础库和工具(如RPC、序列化)。
- 高可用与联邦:
- HDFS HA:双NameNode + ZooKeeper实现故障切换。
- HDFS Federation:多个NameNode分治命名空间,扩展元数据容量。
- 生态系统工具:
- ZooKeeper:协调分布式服务(如HA)。
- HBase、Hive、Spark等:基于Hadoop构建的数据处理工具。
6. 核心特性
- 容错性:数据多副本存储、任务自动重试。
- 可扩展性:支持数千节点集群。
- 高吞吐:数据本地化计算(移动计算而非数据)。
架构图示
+-------------------+ +-------------------+
| Client | | Client |
+-------------------+ +-------------------+| || Submit Job | Read/Writev v
+-------------------+ +-------------------+
| ResourceManager |<--->| NameNode |
+-------------------+ +-------------------+| || Allocates Resources | Manages Metadatav v
+-------------------+ +-------------------+
| NodeManager | | DataNode |
| (Containers) | | (Data Blocks) |
+-------------------+ +-------------------+|| Runsv
+-------------------+
| ApplicationMaster |
| (MapReduce/Spark) |
+-------------------+
总结
Hadoop通过分层架构实现了存储(HDFS)、资源管理(YARN)与计算(MapReduce等)的分离,兼具高扩展性和容错性。其生态系统丰富,支持多样化的大数据处理场景,成为大数据领域的基石技术。