本文摘要:目前较为主流的分布式文件系统结构是主/从(master/slave)体系结构,如下图右图,一般来说还包括主控节点(或称之为元数据服务器,一般来说不会配备一个活动节点和一个可用节点以构建高可用性)、多个数据节点(或称之为存储节点)和各种大数据应用于或者终端用户构成的客户端。
目前较为主流的分布式文件系统结构是主/从(master/slave)体系结构,如下图右图,一般来说还包括主控节点(或称之为元数据服务器,一般来说不会配备一个活动节点和一个可用节点以构建高可用性)、多个数据节点(或称之为存储节点)和各种大数据应用于或者终端用户构成的客户端。分布式存储的目的是将大数据区分为小数据,均匀分布至多个数据节点上,将数据的规模降至单个节点可以处置的程度。1、主控节点主控节点主要负责管理文件系统名字空间(namespace)和管理客户端的采访。
少见的命名空间结构有经典的目录树结构如Hadoop分布式文件系统(HadoopDistributedFileSystem,HDFS)等,扁平化结构如【淘宝分布式文件系统(TaobaoFileSystem,TFS)等。为了确保命名空间,主控节点必须存储一些元数据(metadata),如文件的所有者和权限、文件到数据节点的同构关系等。除了管理命名空间,主控节点还要集中管理数据节点。
除了管理命名空间,主控节点还要对数据节点轮询或接管来自数据节点的定期跳动(heartbeat)来集中管理数据节点。主控节点根据获得的消息可以检验文件系统的元数据;若找到数据节点有故障,主控节点将采行修缮措施,新的拷贝在该节点遗失的数据块;若有新的数据节点重新加入或某个数据节点阻抗过低,主控节点不会根据情况继续执行阻抗平衡。2、数据节点数据节点负责管理数据在集群上的长久化储存。
数据节点一般来说以机架的形式的组织,机架通过交换机连接起来。数据节点号召来自客户端的读取催促,还号召来自主控节点的移除和拷贝命令。类似于磁盘的结构,在数据节点中也有块(block)的概念,这是数据读取的大于单位,不过这里的块是一个相当大的单元,在很多文件系统中一般来说为64MB,如google的GFS、HDFS和TFS等。
对于小文件的储存,可以将多个文件储存在一个块中,并创建索引,提升空间利用率;对于大文件的储存,则不会将数据区分为多个数据块,并作为独立国家的单元展开储存。为了保证数据的安全性和容错性,分布式文件系统不会存储多个数据副本在数据节点上。当数据不能用时,可调用存放在其他节点上的副本。
在HDFS系统中,副本的基本存储策略是:在任务运营的节点上存储第一个副本;在任务所在机架内的其他节点中的某一节点存储第二个副本;在集群的其他机架中的某一节点存储第三个副本。
本文来源:ayx·爱游戏-www.qarea.net
我要加盟(留言后专人第一时间快速对接)
已有 1826 企业通过我们找到了合作项目