HBASE的主备数据备份互联网技术圈互联网技术圈

HBASE的主备数据备份已关闭评论
187 views

A+

【摘要】本文简单介绍下集群间的HBASE数据备份（导入导出），即主集群往备集群上备份（同步）数据的主要方式当前HBASE上可以使用的数据备份主要有以下几种u Snapshotsu Replicationu Exportu CopyTableu HTable APIu Offline backup of HDFS data分别从操作对集群的性能影响、数据空间消耗、业务中断影响、增量备份、...

本文简单介绍下集群间的HBASE数据备份（导入导出），即主集群往备集群上备份（同步）数据的主要方式

HBASE作为当前火热的大数据存储服务，自身提供了多种备份方式，来满足不同的条件和需求下对数据的同步，当前HBASE上可以使用的数据备份主要有以下几种

Snapshots
Replication
Export
CopyTable
HTable API
Offline backup of HDFS data

分别从操作对集群的性能影响、数据空间消耗、业务中断影响、增量备份、易用性、可恢复性几个维度进行了如下的对比：

	Performance Impact	Data Footprint	Downtime	Incremental Backups	Ease of Implementation	Mean Time To Recovery (MTTR)
Snapshots	Minimal	Tiny	Brief (Only on Restore)	No	Easy	Seconds
Replication	Minimal	Large	None	Intrinsic	Medium	Seconds
Export	High	Large	None	Yes	Easy	High
CopyTable	High	Large	None	Yes	Easy	High
API	Medium	Large	None	Yes	Difficult	Up to you
Manual	N/A	Large	Long	No	Medium	High

以上备份方法除了Replication都可以在当前集群备份数据，由于本集群数据备份和本远端备份的操作流程相似，本文以下内容就只讨论集群间的数据备份

离线数据备份

离线数据备份，顾名思义它需要中断当前主集群和备集群的业务

主要执行步骤为：

#主集群

1）对当前集群中表数据执行flush操作，将当前内存中的数据持久化到hdfs中

flush ‘tableName’ 2）停止HBASE 3）使用distcp命令拷贝当前集群hdfs上的数据到备集群上hadoop distcp -i /hbase/data hdfs://1.1.1.2:25000/hbase hadoop distcp –update –append –delete /hbase/ hdfs:// 1.1.1.2:25000/hbase/

---1.1.1.2:25000为备集群hdfs主nn节点的ip/端口

---第二条增量拷贝主要是为了拷贝除了data目录以外的文件，例如archive里面的数据可能当前还有被数据目录所引用

#备集群

1）重启hbase

2）执行hbase hbck检查是否表中所有region都已经上线

注意：当用户使用了hbase协处理器，自定义jar包放在主集群的regionserver/hmaster上时，在备集群重启hbase之前，需要把这些自定义jar包也拷贝过来

此种方式数据备份的优点：

1）简单暴力，可以一下子把主集群上所有数据（包含元数据）整个复制到备集群

2）由于是通过distcp直接拷贝的，所以数据备份的效率相对较高

3）实际操作时可以根据具体的需求灵活拷贝，可以只拷贝其中一个表的数据，也可以拷贝region中的其中一个hfile等。

缺点和限制：

1）此操作对备集群上的hdfs的数据目录会有破坏性（整个覆盖了）

2）如果主备集群间的hbase版本不同，hdfs目录直接拷贝可能会出现问题，例如MRS上的hbase1.3版本新增了系统表index，如果使用老版本的hdfs目录直接覆盖，会找不到该数据表。所以此种方案在执行前需要慎重考虑

3）操作对hbase的能力有一定的要求，如出现异常情况需要根据实际情况执行恢复

Export和import导入导出数据

Export/Import主要是启动MR任务对数据的表进行scan扫描，往远端hdfs写入SequenceFile，之后Import再把SequenceFile读出来写入hbase（put）

可以参考以下操作：

#主集群

1）执行表的Export操作

hbase org.apache.hadoop.hbase.mapreduce.Export member hdfs://10.120.169.46:25000/user/table/member

---member为表名

---10.120.169.46为远端hdfs的主nn节点ip

#备集群

1）主机群执行完之后可以在备集群上查看生成的目录数据如下：

2）在备集群上新建与主机群相同结构的表

create 'member_import','id','address','info'

3）执行Import导入操作

hbase org.apache.hadoop.hbase.mapreduce.Import member_import -Dimport.bulk.output=/tmp/member /user/table/member

--- member_import为备集群上与主集群相同表结构的表

--- Dimport.bulk.output 执行完数据的输出目录

---/user/table/member 为从主集群上导出的数据目录

4）执行load操作

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/member member

----/tmp/member 步骤3中hfile数据的输出路径

----member 备集群上要导入数据的表名

此种方式的优点：

1）在线拷贝不中断业务，由于是scan->put的方式写入新表，所以比CopyTable更加灵活，可灵活配置需要获取的数据，数据可增量写入

限制和约束：

1）由于Export是通过MR任务往远端hdfs写入SequenceFile，之后Import再把SequenceFile读出来写入hbase，实际效率不高，且需要跑两次MR任务

使用snapshot备份表数据

对表执行snapshot操作生成快照，既可以作为原表的备份，当原表出现问题的时候可以回滚恢复，也可以作为跨集群的数据备份工具。

执行快照会在当前hbase在hdfs上的根目录（默认为/hbase），生成” .hbase-snapshot”目录，里面有每个快照的详细信息。

当执行ExportSnapshot导出快照时，会在本地提交MR任务，将快照信息以及表的hfile分别拷贝到备集群的/hbase/.hbase-snapshot和/hbase/archive

HBASE的主备数据备份

操作可以参考以下过程：

#主集群

1）对表member创建快照member_snapshot

restore_snapshot 'member','member_snapshot'

2）将快照拷贝到备集群上

hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot member_snapshot -copy-to hdfs://10.120.169.46:25000/hbase -mappers 3

注意远端的数据目录必须为HBASE根目录（/hbase）

---- mappers 表示MR任务需要起的map个数

#备集群

1）使用restore命令后会在备集群自动新建表，以及与archive里的hfile建立link

restore_snapshot 'member_snapshot'

HBASE的主备数据备份

PS：如果只是备份表数据的话，建议使用此种方式备份， SnapshotExport会在本地起MR任务，将snapshot和hfile拷贝到备集群，之后可以在备集群直接load，效率比其他方式高很多。

snapshot命令介绍：

HBASE的主备数据备份

此种方式的优点：

1）单表备份效率高，在线数据本地/远程备份，不中断主机群和备集群业务，可以灵活配置map的个数和限制流量，MR的执行节点可不在主备集群（不占资源）

限制和约束：

2）只能单表操作，备份的表名在snapshot中已经指定无法更改，且无法增量备份，跑MR需要占用本地集群资源

官网链接：http://hbase.apache.org/1.2/book.html#ops.snapshots

CopyTable拷贝表数据

#主集群

1）执行CopyTable的命令（这之前备集群必须手动新建和主集群结构相同的表member_copy）

hbase org.apache.hadoop.hbase.mapreduce.CopyTable [--starttime=1265875194289] [--endtime=1265878794289] --new.name=member_copy --peer.adr=server1,server2,server3:2181:/hbase [--families=myOldCf:myNewCf,cf2,cf3] TestTable

---- starttime/ endtime需要拷贝数据的timestamp

---- new.name目的表的表名，缺省为和原来表名相同

---- peer.adr 目标集群zk节点的信息，格式为quorumer:port:/hbase

---- families 需要拷贝的表的family列

注意：如果是拷贝数据到远端集群，此种方式导入数据会在主机群上起MR任务，读取原始表的全量/部分数据之后采用put的方式写入远端集群，所以如果表的数据量很大（远程拷贝不支持bulkload），则效率会比较低

此种方式的优点：

1）操作简单，在线拷贝不中断业务，可以指定备份数据的startrow/endrow/timestamp

限制和约束：

2）只能单表操作，远程拷贝数据量大时效率较低，MR需要占用本地资源，MR的map个数以表region的个数划分

CopyTable命令介绍

官网参考链接：http://hbase.apache.org/1.2/book.html#copy.table