大数据开发之HDFS分布式文件存储系统详解
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
相关文章
-
一文了解企业微信封号规则!杜绝封号危险
-
微宝阁SCRM系统告诉您如何利用企业微信来沉淀私域流量?
-
小七带你逛起点|3岁内产品新人,如何度过迷茫期,进入快速成长
-
【微信iOS版7.0.13正式版发布:可修改微信号了】
-
实测OculusQuest收集了那些用户信息数据
-
网络用语nice的意思是什么
-
专访知乎市场公关总经理来原:把品牌做成爆款是一种什么体验?
-
996被批洗脑;奔驰否认收金融服务费;宇航员DNA永久突变
-
什么样的区块链存证具有法律效力?杭州互联网法院给出四要素
-
好莱坞进军视频技术圈,含着“金汤匙”出生的新产品Quibi厉害在哪
-
携程App故障深夜得到修复曾一度无法搜索机票等信息
-
ThoughtWorks中国的社会使命
-
“人设”经济学:过把瘾就死
-
支付宝信用卡还款收费成本压力不过是块遮羞布
-
苹果搜索广告ASA已可在中国大陆地区AppStore正式投放
-
市场消息:克罗格(KR.US)与英伟达(NVDA.US)达成合作,将通过支持AI的应用和服务重塑购物体验
-
联合国用VR来普及艾滋病测试和改善医患关系
-
【钛晨报】神州租车:陆正耀已辞任董事会主席及非执行董事职务;苹果Mac电脑将改用自研ARM芯片;任天堂:共有30万账号被黑客入侵
-
制作视频用哪些工具方便
-
QuestMobile:拼多多月活用户达4.29亿,净增3500万
-
微信又更新了!网友:这个功能也太“社死”了
-
你还在傻乐,别人已经顺着网线找上了门
-
iPhone降价销量暴涨,苹果再夺全球市值之冠
-
史上最严政策下,陌生社交领域,探探入不敷出
-
短视频APP创业史:加入创业团队,探讨商业模式
-
"后补贴时代"蔚来能有未来吗?
-
苹果高管:公司与FDA关系不错但审查严格
-
2022企业邮箱怎么设置自动回复和签名,总结如何设置手机邮箱的方法
-
阿里投资趣头条博新的用户入口挺进下沉市场方式从狙击变为联合