第一模块
课程名称:Hadoop 系统入门+核心精讲
章节名称:3-1 ~ 3-6
讲师姓名:Michael_PK
第二模块
内容概述:
3-1 ~ 3-6小结主要继续深入的讲解了HDFS,从其设计目标入手到其架构再到NameNode、DataNodes等,着重讲解了HDFS的副本机制,正是由于副本机制的存在,才保证了HDFS的高容错性。
第三模块
学习心得:
HDFS是一个分布式文件系统,相比于单机的文件系统其有很多特性,比如:高容错性、支持水平扩展,一个集群能支持成千上万个节点,基本上达到了【海量】数据的要求,基于block的副本机制,使其有很优秀的容错机制;
HDFS特点:扩展性&容错性&海量数据存储容错实现方式:把数据/文件拆成块,以block为单位进行存储,每个block都存在多个副本,每个副本存在不同机器上。
在Hadoop的生态中扮演了重要的角色!!!下面附上学习笔记:
3-1 HDFS概述
HDFS官网:
HDFS(The Hadoop Distributed File System)
3-2 HDFS设计目标
HDFS不怕文件大,就怕文件小;
一致性模型;
移动计算比移动数据更划算!!!
设计目标:
3-3 HDFS架构详解【超级重要 面试工作中都要用到】
一句话概况HDFS:
他是一个工具,这个工具可以分布式的存储文件,在存储文件的时候会将一个文件拆分成若干块,存储在不同的block上(每个block都在一台物理机上),获取文件时会从若干个block中查询数据,最终合并成一个完整的数据。
HDFS 架构:
1)NameNode(master) and DataNodes(slave)
2)master/slave 架构
3)NN的作用:
一:the file system namespace
二:regulates access to files by clients
DN的作用:storage(存储数据)
通常情况下:1个node部署在一个机器上
问:啥是namespace(命名空间)?
命名空间可以理解为文件系统,比如:
就是命名空间的一部分,也既是文件系统的一部分!!!
hdfs架构图:
hdfs是用java开发的!!!
3-4 文件系统NameSpace详解
NN维护的是文件系统的namSpace(nameSpace简单的认为是一个目录就行!!!)
一个块的副本数默认是3个。
3-4 HDFS副本机制
block的size、副本数这些都可以通过配置文件进行指定(应用程序也可以通过代码的方式进行改变)
block中除了最后一个block,其他block的大小都是一样的!!!
注意:
hdfs are write-once(except for appends and truncates)
HDFS是只写一次的(追加和截断除外)
3-6 课程环境介绍
第四模块
学习截图: