《一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法.pdf》由会员分享,可在线阅读,更多相关《一种解决HADOOP分布式文件系统NAMENODE单点故障的HA方法.pdf(4页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410717146.8 (22)申请日 2014.12.03 G06F 11/16(2006.01) G06F 17/30(2006.01) (71)申请人 浪潮集团有限公司 地址 250101 山东省济南市高新区浪潮路 1036 号 (72)发明人 李璋 (54) 发明名称 一种解决 HADOOP 分布式文件系统 NAMENODE 单点故障的 HA 方法 (57) 摘要 本发明提供一种解决 HADOOP 分布式文件系 统 NAMENODE 单点故障的 HA 方法, 采用两台服务 器实现双机热备, HDFS 的元数据需要保存在共享 。
2、存储中 ; 两台主机的 eth1 使用双机对联线直接 连接 ; 每台主机预留 30G 的空间作为共用空间被 HA 使用 ; DRBD 实现了网络 RAID-1 功能, 即两台服 务器一台是主节点, 一台是从节点 ; 在主节点上 的任何操作, 都会被同步到从节点的相应磁盘分 区上, 达到数据备份的效果。本发明和现有技术 相比, 够解决 HDFS 中 NameNode 单点故障的问题, HDFS 的元数据保存在共享存储中, 实现双机热 备, 当其中一台服务器出现故障时实现自动切换。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书2页 (1。
3、0)申请公布号 CN 104461792 A (43)申请公布日 2015.03.25 CN 104461792 A 1/1 页 2 1. 一种解决 HADOOP 分布式文件系统 NAMENODE 单点故障的 HA 方法, 其特征在于采用 两台服务器实现双机热备, HDFS 的元数据需要保存在共享存储中 ; 两台主机的 eth1 使用双 机对联线直接连接 ; 每台主机预留 30G 的空间作为共用空间被 HA 使用 ; DRBD 实现了网络 RAID-1 功能, 即两台服务器一台是主节点, 提供存储服务, 一台是从节点 ; 在主节点上的任 何操作, 都会被同步到从节点的相应磁盘分区上, 达到数据。
4、备份的效果 ; 当主节点发生故障 时, 通过 Heartbeat 从节点可以接管主节点的虚拟 IP。 权 利 要 求 书 CN 104461792 A 2 1/2 页 3 一种解决 HADOOP 分布式文件系统 NAMENODE 单点故障的 HA 方法 技术领域 0001 本发明具体地说是一种解决 HADOOP 分布式文件系统 NAMENODE 单点故障的 HA 方 法。 背景技术 0002 Hadoop 是一个能够对大量数据进行分布式处理的软件, 能够让用户轻松架构和使 用的分布式计算平台。用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。 Hadoop 由许多元素构成, 。
5、如 HDFS、 MapReduce 等。其最底部是 Hadoop Distributed File System(HDFS) , 它存储 Hadoop 集群中所有存储节点上的文件。 0003 对外部客户机而言, HDFS 就像一个传统的分级文件系统。可以创建、 删除、 移动或 重命名文件, 等等。 但是 HDFS 的架构是基于一组特定的节点构建的, 这是由它自身的特点 决定的。这些节点包括 NameNode(仅一个) , 它在 HDFS 内部提供元数据服务 ; DataNode, 它为 HDFS 提供存储块。由于仅存在一个 NameNode, 因此这是 HDFS 存在 NameNode 单点 。
6、失败的问题。 0004 NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文 件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。 0005 实际的 I/O 事务并没有经过 NameNode, 只有表示 DataNode 和块的文件映射的 元数据保存在 NameNode 中。当外部客户机发送请求要求创建文件时, NameNode 会以块标 识和该块的第一个副本的 DataNode IP 地址作为响应。这个 NameNode 还会通知其他将 要接收该块的副本的 DataNode。 0006 NameNode。
7、 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信 息。这个文件和一个包含所有事务的记录文件 (EditLog) 存储在 NameNode 的本地文件系 统上。FsImage 和 EditLog 文件也需要复制副本, 以防文件损坏或 NameNode 系统丢失。 发明内容 0007 本发明的目的是克服现有技术中存在的不足, 提供一种解决 HADOOP 分布式文件 系统 NAMENODE 单点故障的 HA 方法。 0008 本发明的技术方案是按以下方式实现的, 采用两台服务器实现双机热备, HDFS 的 元数据需要保存在共享存储中 ; 两台主机的 eth1 使用双机对联线直接。
8、连接 ; 每台主机预留 30G的空间作为共用空间被HA使用 ; DRBD实现了网络RAID-1功能, 即两台服务器一台是主 节点, 提供存储服务, 一台是从节点 ; 在主节点上的任何操作, 都会被同步到从节点的相应 磁盘分区上, 达到数据备份的效果 ; 当主节点发生故障时, 通过 Heartbeat 从节点可以接管 主节点的虚拟 IP。 0009 本发明的优点是 : 说 明 书 CN 104461792 A 3 2/2 页 4 本发明的一种解决 HADOOP 分布式文件系统 NAMENODE 单点故障的 HA 方法和现有技术 相比, 够解决 HDFS 中 NameNode 单点故障的问题, H。
9、DFS 的元数据保存在共享存储中, 实现双 机热备, 当其中一台服务器出现故障时实现自动切换。 具体实施方式 0010 下面对本发明的一种解决 HADOOP 分布式文件系统 NAMENODE 单点故障的 HA 方法 作以下详细说明。 0011 本发明的一种解决 HADOOP 分布式文件系统 NAMENODE 单点故障的 HA 方法, 采用两 台服务器实现双机热备, HDFS 的元数据需要保存在共享存储中 ; 两台主机的 eth1 使用双 机对联线直接连接 ; 每台主机预留 30G 的空间作为共用空间被 HA 使用 ; DRBD 实现了网络 RAID-1 功能, 即两台服务器一台是主节点, 提供。
10、存储服务, 一台是从节点 ; 在主节点上的任 何操作, 都会被同步到从节点的相应磁盘分区上, 达到数据备份的效果 ; 当主节点发生故障 时, 通过 Heartbeat 从节点可以接管主节点的虚拟 IP。 0012 DRBD 实际上是一种块设备的实现, 主要被用于 Linux 平台下的高可用 (HA) 方案 之中。他是有内核模块和相关程序而组成, 通过网络通 信来同步镜像整个设备, 有点类似 于一个网络 RAID 的功能。也就是说当你将数据写入本地的 DRBD 设备上的文件系统时, 数 据会同时被发送到网络中的另外一台主机之上, 并以完全相同的形式记录在一个文件系 统中 (实际上文件系统的创建也。
11、是由 DRBD 的同步来实现的) 。本地节点 (主机) 与远程节点 (主机) 的数据可以保证实时 的同步, 并保证 IO 的一致性。所以当本地节点的主机出现故 障时, 远程节点的主机上还会保留有一份完全相同的数据, 可以继续使用, 以达到高可用的 目的。 0013 实际生产环境中, 如果 NameNode 宕机, 造成的损失是不可估量的。要保证主 NameNode不间断服务, 就需要对服务器实现冗余。 Heartbeat 提供了廉价的、 可伸缩的高可 用集群方案。通过 DRBD + Heartbeat 在 Linux 下创建一个高可用 (HA) 的集群服务器, 在 高可用 (HA) 解决方案中使用 DRBD 的功能, 可以代替使用一个共享盘阵存储设备。因为数 据同时存在于本地主机和远程主机上, 在遇到需要切换的时候, 远程主机只需要使用它上 面的那份备份数据, 就可以继续提供服务了。 0014 本发明的一种解决 HADOOP 分布式文件系统 NAMENODE 单点故障的 HA 方法其加工 制作非常简单方便, 按照说明书所示即可加工。 0015 除说明书所述的技术特征外, 均为本专业技术人员的已知技术。 说 明 书 CN 104461792 A 4 。