大数据开发之HDFS分布式文件存储系统详解
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
相关文章
-
发明计算机密码的人去世了,他还改变了我们使用电脑的方式
-
CAT实操|如何往DéjàVu项目中添加文件?
-
平安好医生是不是好生意?
-
科学家不敢公布的发现:月球是人造的几大证据解密
-
移动全球通68元套餐包多少流量
-
海信全自动洗衣机怎么调时间啊
-
小鸣单车每辆车被贱卖12元!你上次骑共享单车是几个月前?
-
卢伟冰:小米之家3年要达3万家,已在为卖车做准备
-
谁将是短视频行业第三极,百度好看视频or腾讯微视?
-
干胶标签印刷和普通彩色标签印刷的区别
-
氪星晚报|瓜子二手车母公司获软银15亿美元投资;瑞幸咖啡欲今年赴美IPO;百度推出带屏智能音箱小度在家
-
华为授权体验店武汉再开店,“Plus”背后是科技体验全面升级
-
三星GalaxyNote20通过3C认证
-
苹果将推高端三摄iPhone 二代XR升级双摄
-
网易暴力裁患绝症员工?内部人士:正在了解核实;报告:华为手机国内市场保有率第一 |早8点档
-
为了让Clips更好用苹果又给它新增不少功能
-
刘强东说明年最暴利的行业,几乎零成本,将成就一批百万富翁
-
被90后抛弃的QQ,为什么受到00后的热捧?
-
程序员是否应该创造面向 IDE 而非人类的编程语言?
-
ThoughtWorks中国的社会使命
-
戴森吸尘器v10怎么拆洗
-
炉石传说世界杯中国夺冠,快播王欣狱中信件首次公开
-
资讯6点档 | 网络安全高官竟没用过电脑,USB也不知怎么用
-
红米Note7强势带节奏!千元年货手机该怎么挑?
-
遭花旗和杰富瑞下调目标价百度股价跌超6%
-
Chainlink+星际文件系统——创造结合去中心化存储和预言机的DApp
-
这位农民10年只做一朵棉花,他的公司年销30亿
-
15周岁如何办手机卡
-
华为P40系列DxOMark跑分曝光,无愧拍照之王