hdfs 分布式文件系统
mapreduce 大数据离线数据处理框架
yarn 统一资源管理和调度平台
hive 数据分析
sqoop 数据导入导出
hbase 大数据存储 非关系型数据库
flume 日志采集系统
spark 实时流式数据计算框架
hdfs
架构原理 配置 使用
1.分布式文件系统和普通文件系统
2.hdfs中的几个组件,都有什么作用
namenode:存储文件的元数据,接收来自客户端的读写请求
datanode:存储文件数据
secondarynamenode:第二名字节点,定期的检查并且合并FSImage系统快照,editlog编辑日志
3.hdfs默认存储几块,每块大小、
3, 128M
4.seconderynamenode 和namenode之间的关系
SecondaryNameNode引导NameNode滚动更新编辑日志文件,并开始将新的内容写入EditLog.new.
SecondaryNameNode将NameNode的FSImage和编辑文件复制到本地的检查点的目录
SecondaryNameNode载入FSImage文件,回放编辑日志,将其合并到FSImage,将新的FSImage文件压缩后写入磁盘。
SecondaryNameNode将新的FSImage文件送回NameNode,NameNode在接收新的FSImage后,直接加载和应用该文件
NameNode将Edit Log.new更名为Edit Log
5.hdfs的容错机制
副本机制和心跳机制
6.hadoop 2.X 端口号是8020 1.X 版本端口是 9000
7.hdfs配置核心配置文件和配置内容
hadoop-env.sh JAVA_HOME HADOOP_HOME
core-site.xml dfs.default.name、
hdfs-site.xml dfs.replication dfs.name.dir dfs.data.dir
slaver
8.hdfs的命令
创建目录 Hadoop fs -mkdir
删除目录 hadoop fs -rmdir
列出文件或目录 hadoop fs -ls
上传/覆盖文件 hadoop fs -put (-f) 本地文件 上传路径 copyFromLocal
下载文件 hadoop fs -get/copyToLocal 文件地址 本地地址
查看文件 hadoop fs -cat
删除文件 hadoop fs -rm
移动文件 hadoop fs -mv
mapreduce
1.MapReduce执行流程 WordCount
2.Partitioner 和combinner
partitioner 是分组,将要清洗的数据按照key来对其进行分组,相同key的放在同一个输出文件中
combiner 是在进入reduce之前,先行合并一次,提高计算效率
yarn
1.yarn中有什么组件,各有什么作用
resourceManager 资源管理器,负责给各个节点分配计算和存储资源以及响应各个节点的计算请求
nodeManager 节点管理器 负责管理各个节点的container,以及开启map task 和reduce task
2.yarn的配置文件以及配置内容
mapred-site.xml MapReduce的计算框架 mapreduce.framework.name
yarn-site.xml resoursemanage 和 nodemanager 的节点地址
3.yarn的执行流程
hbase
1.nosql 和mysql的区别
2.hbase的表结构
表名,行键,列族,列,时间戳
3.hbase 系统架构
4.hbase基础命令
1.列出所有表 list
2.创建表 create '表名','列族'...
3.添加数据 put '表名','行键','列族:列','值'
4.查询单行数据 get '表名','行键'
5.查询所有数据 scan '表名'
flume
1.flume三个组件以及作用
source 负责从源数据接收event 或者自己产生event,传递到下一层
channel 负责将event传递到sink,将数据缓存在管道中,保证数据的传输速率恒定
sink 负责将event传递到目的端,并且将event从channel中移除
sqoop
数据导出命令
sqoop export --connect mysql连接 --username 数据库用户名 --password --数据库密码 --table mysql中的表 --export-dir 导出的文件地址 --fields-terminated-by 分割方式 --m 1
hive
数据库操作
创建数据库 create database 数据库名;
删除数据库 drop database 数据库名;
使用数据库 use 数据库名;
表结构
创建表 create table 表名(字段名 字段类型,....) row format delimited fields terminated by 分隔符;
删除表 drop table 表名;
表内容
添加数据 load data inpath '文件路径(必须是hdfs上的)' into table 表名;
查询
1.查询所有
select * from 表;
2.查询固定的字段
select ziduanming, 字段名2 from 表名;
3.按照条件查询
select * from 表 where 条件;
4.排序 升序 asc 降序 desc
select * from biao order by id asc;
5.分组聚合
sum 求和 count 计数 max 最大值 min 最小值 avg 平均值
select * from student group by sex; 按照xx进行统计就是group by xx
6.多表查询 多表查询的条件是 两个表中的字段内容相等
select ziduan from t1, t2 where t1.ziduan1 = t2.ziduan1
select 字段 from t1 join t2 on t1.zidaun1 = t2.ziduan1
left join :以左边为主表,如果右边表的数据不存在,则填充null
right join :以右边为主表,如果左边表的数据不存在,则填充null
7.分组排序 distribute by sort by
select * from biao distribute by sex sort by height;男女生分别按照身高排序
8.CTAS 创建新表
create table xx row format delimited fields terminated by '' as select ......
9.查询表结构 格式化查询
desc formatted biao;