Microcomputer Applications Vol. 30, No.5, 2013 研究与设计 微型电脑应用 2013年第30卷第5期
・1・
文章编号:1007-757X(2013)05-0001-03
王 刚,王 冬,李 文,李光亚
摘 要:数据是信息系统运行的基础和核心,是机构稳定发展的宝贵资源。随着信息系统数据量成几何级数增加,特别是在当前大数据环境和信息技术快速发展情况下,海量数据迁移是企业解决存储空间不足、新老系统切换和信息系统升级改造等过程中必须面对的一个现实问题。如何在业务约束条件下,快速、正确、完整地实现海量数据迁移,保障数据的完整性、一致性和继承性,是一个关键研究课题。从海量数据管理的角度,阐述了海量数据迁移方法,比较了不同数据迁移的方案特点。 关键词:大数据;数据迁移;存储
中图分类号:TP391 文献标志码:A
Data Migration Technology Research Based on Big Data Environment
Wang Gang 1, Wang Dong 2, Li Wen 3, Li Guangya 2
(1.Information Center of Shanghai Municipal Human Resources and Social Security, Shanghai200051, China;
2. Wonders Information Co., Ltd., Shanghai201112, China;
3. Shanghai Institute of Foreign Trade, Shanghai201600, China)
Abstract: The data is the core resource of the information system, it is the basis of the enterprise, With the continuous of business, a geometric increase in the amount of data generated by the information system, especially in the case of current data environment and information technology. The massive data migration is a real problem. With the business constraints, the massive data migration is a key research topic, in this paper, from the point of view of the massive data management, elaborated a massive data migration me-thod, and compare the characteristics of different data migration program. Key words: Big Data; Data Migration; Storage
崔永元事件全过程0 引言
数据一直是信息系统的基础和核心。一方面,随着企业业务的发展,信息系统覆盖面的扩大,管理和
服务精细化层度的深入,集中式的管理信息系统正在不断应运而生,各行各业都先后出现了规模庞大的数据中心。这些数据中心经过一段时间的运行,其数据量正成几何级增长,有的甚至可以达到TB 级或PB 级。另一方面,新的技术架构和业务操作对性能指标提出了更高的要求,而这些要求往往需要通过软件升级或者硬件更新的方式来实现,因而在新老系统的切换或升级改造过程中,势必会面临一个现实问题――数据迁
移。吕帅[1]
等人从分级存储管理的角度提出了混合存储环境下的数据价值评估模型和迁移过程控制理论,提出了数据价
值的精确判定。徐燕[2]
等人利用编程基础实现了异构数据库系统间的数据迁移,提出了数据迁移的抽取、转换和载入3个过程。李喆[3]等从项目管理和方法论角度描述了企业级数据迁移的过程。张玺[4]针对数据从磁盘到磁带的数据迁移问题,提出了并行文件处理方式。丛慧刚[5]等人,从元数据角度,提出了数据迁移中元数据对映射模式体系,对采用源数据驱动ETL 引擎进行功能实现。这些研究都是根据具体工程中数据迁移这个关键问题进行了研究,但是随着信息技术
的发展,针对数据迁移整体管理缺少研究。本文结合某特大
型城市社会保险信息系统管理过程中大数据环境下,海量数据迁移问题进行整体分析,对可能需要大数据迁移的驱动因素和在数据迁移过程中需要关注的各类风险点进行了汇总分析,根据这些风险对数据迁移的各类方案进行分析、研究和论述,最后针对实际工作给出了实际应用。
1 数据迁移驱动分析
1) 新老系统切换需要:数据作为企业的核心资源,是
企业业务连续和发展的基础,因此当信息系统更新或者新老系统切换时,需要对老系统的数据进行整理,抽取,并按照新系统的业务逻辑和数据规则进行迁移,以保障业务的连续性。 2) 搬迁或数据中心合并需求:很多政府政策上的指导
引发了组织结构的变化以及数据分布的改变。一个非常有名的例子是美国的金融监管法案
(Ring-Fencing Senario),这个法案要求所有的银行把数据通过几个步骤和高危投资业务进行隔离。而这些步骤会涉及大量的结构性数据(数据库)和非结构性数据(金融交易的图像存档)的迁移。 3) 性能提升需求:由于业务的发展,企业规模的变大,
——————————————
基金项目:核高基重大专项课题(2009ZX01043-003-004-05);上海市教委科研创新项目(11YS205)和上海市高校“085工程”项目资助。
作者简介:王 刚(1974-)男,上海市,上海市人力资源和社会保障信息中心,工程师,本科,研究方向:计算机信息系统集成和安全管理,上海,
200051
王 冬(1972-)男,上海市,万达信息股份有限公司,工程师,硕士,研究方向:信息系统软件工程和数据挖掘,上海,200051 李 文(1972-)女,上海市,上海对外贸易学院,副教授,博士,研究方向:计量经济和数据挖掘,上海,200051
李光亚(1973-)男,上海市,万达信息股份有限公司,教授级高工,博士,研究方向:计算机软件、系统集成、信息安全、软件工程等,上海,200051
Microcomputer Applications Vol. 30, No.5, 2013 研究与设计 微型电脑应用 2013年第30卷第5期
・2・
原有的存储无论是容量还是响应速度都无法满足现有的需求,因此企业不得不通过更换更高性能的存储来进行性能提升。比如社保在今年年初进行的数据迁移,就是因为原有的存储的容量和性能已经无法满足现有业务系统的发展需求,因此必须进行数据的迁移。
4) 分级存储架构需求:为了解决存储成本问题,集中
奋斗吧少年演员表式大型系统多采用分级存储的设计方案,一些历史数据将定期从高性能存储环境中定期迁移到更加廉价和性能低的存储环境中,也常常带来大规模数据迁移的问题。 5) 存储整合需求:有时一个应用实例会在企业内部有
多份同样的拷贝。随着企业内部结构性数据和非结构性数据的不断增长,企业越来越希望将这些数据进行整合,以减少在存储空间上的投入。这种需求大大推动了区域性的数据整合。
2 数据迁移策略和风险分析
企业的数据在其IT 环境中均处于核心地位,同时,数据的使用者(各种硬件和软件)也非常纷繁复杂。根据ESG (Enterprise Strategy Group 企业战略集团)的一个对700位大数据用户的回访发现,在大数据迁移时候会发生各类问题:
残疾证有什么用64% 超过停机时间或导致意外宕机 51% 出现不同程度兼容性问题 38% 不同程度数据损坏
38% 导致新老系统之间性能的问题 34% 不同程度数据丢失
在一个典型的数据迁移场景中,会遇到各式各样的风险,其中最常见的一些高危风险归纳如下:
1) 最小停机时间风险:数据迁移时间必须满足业务操
作可以容忍的停机时间,同时事先必须做好完整的回退路线图。杨晓丹
2) 业务系统性能下降风险:存储本身是个复杂的系
统,数据迁移至新设备后,需要在很多环节上加强后续监控和优化,发现信息系统存在的瓶颈,如:热盘分布、光纤通道配置等,这些环节都会影响新设备的性能发挥。 3) 数据丢失风险:大数据迁移存在数据丢失而且不能
被及时发现的风险,需要有一些复杂的统计口径进行数据完整性的核对。 4) 数据不一致风险:数据库升级或应用系统升级过程
中,可能会涉及数据结构的调整,因而在数据迁移时, -数据一致性问题就更为突出,需要制定严格的数据转储方案,描述数据之间的逻辑关系。迁移后需要进行严格的数据校验。
5) 迁移失败风险:数据迁移受到很多客观因素的影
响,因而在大数据的迁移过程中难免会遇到失败的风险。需要在整个数据迁移方案中从技术和时间上充分考虑回退方案。并确定回退方案启动的标准和管理人。
因此,在数据迁移技术和方案的选择策略上,应重点考虑数据的完整性、安全性和平滑性,选择成熟和稳妥的技术方案,尽可能减少对生产系统的冲击。
3 海量数据迁移方法
数据迁移方法的选择是建立在对系统软硬件以及业务系统的各环节的具体分析基础之上。目前开放平台系统中可以采用的数据迁移方法根据其发起端的不同,主要分为以下几类:
3.1 基于主机的迁移方式
该方式的主要特点是数据迁移操作的发起和控制发生在主服务器端,有以下两种形式: 1) 利用操作系统命令直接拷贝
UNIX 系统一般可以使用cp 、dd 、tar 、savevg 等命令; windows 系统,一般使用图形界面工具或copy 命令。此方法的优点在于:简单灵活,可以方便的决定哪些数据需要迁移;但其缺点也很明显,由于从主机端发起,对主机的负载压力和应用的冲击较大。 2) 逻辑卷数据镜像方法
对于服务器操作系统已经采用逻辑卷管理器的系统,可以直接利用逻辑卷管理器的管理功能完成原有数据到新存储的迁移,如图1所示:
图1 数据的迁移
此方法的优点在于: 支持任意存储系统之间的迁移 ,且成功率较高,支持联机迁移。但在镜像同步的时候,仍会对主机有一定影响,适合于主机存储的非经常性迁移。 3.2 备份恢复的方式
利用备份管理软件将数据备份到磁带(或其他虚拟设备),然后恢复到新的存储设备中,对于联机要求高的环境,可以结合在线备份的方法,然后恢复到目的地。该方法优点在于:可以有效缩短停机时间窗口,一旦备份完成,其数据的迁移过程完全不会影响生产系统。但备份时间点至切换时间点,源数据因联机操作所造成的数据变化,需要通过手工方式进行同步。
3.3 基于存储的迁移方式 3.3.1 存储虚拟化
虚拟化是通过网络(SAN 网络和IP 网络)将不同品牌的存储设备进行统一管理,可以方便的将数据从源端迁移到目的地,如图2所示:
图2 数据从源瑞迁移到目的地
Microcomputer Applications Vol. 30, No.5, 2013 研究与设计 微型电脑应用 2013年第30卷第5期
・3・
这种方法的主要优点在于:①兼容主流存储设备;②支持不同厂商不同品牌间的数据迁移和容灾;③适合于频繁迁移数据的大型企业。 3.3.2 盘阵内复制方法
数据迁移发生在同一台存储设备内时,一般采用盘阵内复制方法,如图3所示:
图3 盘阵内复制民营企业是什么意思
就是通过盘阵内的复制软件,将源数据卷复制到目标数据卷。
3.3.3 不同盘阵间复制方法
当数据迁移发生在不同存储设备时,一般采用阵列到阵列的复制方法,如图4所示:
图4 阵列复制
复制过程由磁盘阵列完成,不需要消耗服务器资源。 3.4 应用软件提供的迁移方式
应用软件支持数据迁移,还可以利用其自有或第三方的工具来进行数据迁移。Oracle 自带复制工具DataGuard ,第三方数据复制工具GoldenGate ;sybase 的dump/load ;ERP 软件SAP 的数据迁移
工具LSMW 。
一般而言,这种迁移方式完全依赖于应用软件自身,与具体的主机、存储种类则关系不大。迁移方法的具体实现从实时复制、定时复制到数据转储也各不相同。
4 数据迁移在社保系统中的实际应用
上海作为我国特大型中心城市,其社会保障信息系统集成了各类险种的统一征缴和支付庞大政府管理信息系统,在数据库设计上采用了分级存储的技术架构,其中3年内的业务数据量达到了5TB 。根据不同的数据迁移需求,我们采用了各种不同的数据迁移方式,包括:①零停机数据备份,采用基于备份恢复的方式,将生产系统的数据全量完整的进行磁带库备份;②核心存储设备升级,采用基于存储盘阵内复制的方式如基于存储虚拟化的方式,通过将不同品牌和型号的存储进行虚拟化,再结合本地复制和远程复制等技术实现数据迁移;③数据库大版本升级,采用基于软件的方式,实现了数据库版本升级,数据存储和数据结构的优化;④每年度历史数据迁移工作中,采用基于软件的方式(如Oracle DBlink )对主机、存储透明的方式,实现大量数据的在线迁移。我们根据不同项目的不同风险(如最小停机时间风险、数据丢失风险、数据不一致性风险、迁移失败风险等)可以灵活的采用不同的数据迁移方式,从工程实践来看,各种数据迁移方式均可在项目中灵活运用,不存在方案的绝对优劣。
5 数据迁移方法的总结
各种数据迁移方法都有不同的特点,适用于不同的数据迁移需求,如表1所示:
表1 数据迁移的需求表示
数据迁移方法分类
迁移技术 优势 不足
基于主机的方式
逻辑卷数据镜像方法
操作简单; 可联机迁移
占用主机资源
直接拷贝方法
操作简单灵活
需脱机迁移; 占用主机资源 备份恢复的方式
备份&恢复 成熟可靠
需购买备份软件和备份设备
基于存储的迁移方式
存储虚拟化
技术成熟可靠; 可联机迁移; 迁移时间可控
需额外购买软件; 部分产品只能针对同种设备才能进行迁移
盘阵内复制方法 阵列到阵列复制方法
应用软件迁移方式
N/A
与硬件种类无关;
对特定应用支持好
迁移工具需要收费;迁移时间不可控; 只针对单一应用进行数据迁移
通常在有联机迁移要求且迁移数据量大的情况下,一般采用逻辑卷数据镜像方法或直接的阵列到阵列复制方法来实现数据迁移,相对简单、高效。
如果系统没有逻辑卷管理软件,可以考虑采用在线备份恢复的方式来实现,这种方式较前者步骤复杂,但使用可靠、成熟,在满足备份窗口要求的情况下,也是一种很好的选择。
对于迁移数据量不大的系统,可以考虑采用脱机迁移的方法,这种方式下,采用直接拷贝的方式就显得简单,快捷。
对那些需要在线不停机做数据迁移,同时又要求不占用业务系统服务器资源,我们建议采用直接的阵列到阵列复制方法。
参考文献:
[1] 徐燕等,信息系统中的通用数据迁移工具的研究与设计
[J]。计算机与现代化,2010, 178(6):156-158.
[2] 史晓燕,数据迁移的研究[J].浙江工商职业技术学院学
报,2007,6(3):55-56.
[3] 吕帅等,海量信息分级存储数据迁移策略研究[J],计算
机工程与科学, 2009, 31(A1):163-167.
[4] 张玺, 并行文件系统下数据迁移功能的实现[J], 北京
2022年六一儿童节放假吗信息科技大学学报, 2012, 27(5): 77-80.
[5] 丛慧刚等, 元数据驱动的大型数据库数据迁移工具实
现[J], 科学技术与工程,2011,11(10):2352-2356。 [6] 刘如等, 一种通用的多数据库间数据抽取方法及应用
[J],北京交通大学学报( 自然科学版) ,2008,32( 4) : 14-18.
[7] 黄毅,钟碧良. 基于 XML 的异构数据库间数据迁移
的研究[J ]. 科技管理研究,2008,28( 8) : 173-174. [8] 胡晓鹏等,. 一种基于 XML 映射规则的数据迁移方法
设计和实现[J ]. 计算机应用,2005,25( 8) :1849-1852 [9] 杜军威等. 异构数据库之间数据迁移的实现方法[J],青
岛化工学院学报( 自然科学版) ,2002,23( 3) : 78-81.
(收稿日期:2013.03.25)
发布评论