什么是数据迁移,如何正确进行?
已发表: 2023-12-14众所周知,对于任何企业或组织来说,数据即使不是最大的资产,也是最大的资产之一。 这一信息并不新鲜,几乎不需要进一步阐述,因为越来越多的大大小小的组织正在认识到数据的真正价值——寻求利用其变革力量。 仅在 2023 年,就有 91.9% 的组织通过数据和分析投资实现了可衡量的业务价值。
在某些时候,严重依赖数据进行战略决策的公司需要迁移其业务数据,无论是作为性能优化工作还是大规模数字化转型项目的一部分。 企业可能需要进行数据迁移并寻求数据迁移顾问帮助的原因因情况而异。
在这篇博文中,我们将定义什么是数据迁移、何时需要迁移,以及制定稳健的数据迁移策略的步骤。 此外,我们将解析企业在迁移数据时可能面临的一些关键挑战和风险,并分享 ITRex 提供的一些关于如何处理这些挑战和风险的最佳实践技巧和建议。 继续阅读。
什么是数据迁移?
从广义上讲,数据迁移意味着在 IT 系统之间移动数据。 具体来说,数据迁移是将数据从一种存储类型传输到另一种存储类型,或从一个应用程序传输到另一种存储类型的过程,通常由新应用程序或软件的实现驱动。
但是,在我们深入研究数据迁移的细节之前,解释数据迁移、数据集成和数据复制之间的区别至关重要,这些数据可能会被错误地互换对待并组合在一起。 尽管它们都涉及数据移动,但这些术语是截然不同的,因为它们服务于不同的目的。 那么,让我们定义这些术语的含义。
数据迁移涉及处理内部信息,而数据集成是指将异构内部和外部源中的数据组合到单个数据仓库或数据库中的过程。 这样做是为了提供整个企业所有关键业务数据的统一视图。 但差异还不止于此。 虽然数据迁移是一项一次性活动,当所有数据都到达其目标位置时结束,但数据集成可以是一个持续的过程。 这个持续的过程允许数据不断实时地来回流动,这有助于加速分析,实现稳健和明智的决策,并支持日常运营。
与一次性迁移过程相反,数据复制意味着实时、根据计划批量或按需创建多个数据副本并将其存储在多个位置的永久过程。 该方法可以在灾难发生后快速高效地恢复数据,实现更快的数据访问,提高数据可用性,并帮助优化服务器性能。 而且,在复制过程中,源存储永远不会被删除或放弃。 相反,数据迁移意味着一旦数据迁移到目标存储系统,源数据库就停止运行。
什么时候需要进行数据迁移?
现在我们已经为您提供了一个简洁的数据迁移定义,并解释了它与集成和复制过程的不同之处,让我们探讨一下企业可能需要进行数据迁移的原因。
以下列出了需要数据迁移时最常见的场景。
- 升级或替换可能已有数十年历史的遗留软件和数据库系统
- 将来自多个不同来源的业务数据整合到一个集中存储库中,以消除数据孤岛并获得企业范围信息的单一 360 度视图
- 可能需要数据整合或隔离的业务重组和扩张,例如合并、收购或剥离
- 迁移到基于云的存储以实现可扩展性和安全性并降低与本地数据存储相关的成本
- 采用大数据分析、物联网、机器学习等新技术,需要不同的数据存储和处理能力
- 遵守越来越多的数据隐私法律和法规——例如,根据数据本地化法律在受监管的数据离开本国之前对其进行本地化,或者由于居住规则的变化而重新定位数据
无论出于何种原因,数据迁移都是一项不小的任务,更不用说是一项冒险的任务,有时甚至会产生不确定的结果。 然而,选择不迁移往往风险更大。 为了降低风险并使数据迁移变得轻而易举,您可能需要聘请值得信赖且经验丰富的合作伙伴来完成所有繁重的工作。
数据迁移的类型
数据迁移有多种类型,根据所涉及的特定业务需求、系统和数据,这些类型可能会重叠。 以下是最常见的数据迁移场景的概述。
存储迁移
作为最基本的数据迁移类型,存储迁移涵盖了所有迁移场景,例如从本地服务器过渡到基于云的存储、从一个云存储提供商切换到另一个云存储提供商、或者将数据从区域数据中心迁移到其他云存储提供商。中央数据中心。
数据库迁移
鉴于数据库是通过数据库管理系统 (DBMS) 进行管理的,数据库迁移通常意味着从一个 DBMS 迁移到另一个 DBMS(异构迁移)或升级到同一 DBMS 的较新版本(所谓的同质迁移)。 前者的例子是从MySQL切换到PostgreSQL,或者从Oracle数据库切换到MongoDB。
应用程序迁移
应用程序迁移是指将应用程序从一种计算环境迁移到另一种计算环境。 这只是可以结合其他几种迁移类型的迁移类型。 此迁移场景的一些示例是将本地客户关系管理 (CRM) 应用程序迁移到基于云的 Salesforce 解决方案,或者将整体电子商务应用程序迁移到一组微服务。
云迁移
云迁移的关键方面是指将数据从本地数据库服务移动到云端,以及在不同的基于云的环境之间移动,例如,从本地 Microsoft SQL Server 迁移到 Microsoft Azure SQL 数据库。
业务流程迁移
与大规模业务流程重组计划相关,这种类型的数据迁移需要将应用程序和关键业务数据(例如业务指标、流程或运营信息)转移到新环境。
数据迁移方法
尽管制定数据迁移策略的方法不止一种,但大多数方法基本上属于两个最常见的类别之一,每种方法都有自己的优点和局限性。 他们来了。
大爆炸移民
在大爆炸迁移中,整个数据资产通过单个操作从源系统传输到目标环境。 虽然可能需要一段时间,但对于用户来说,感觉就像摆脱旧系统并在某个时间点启动新系统,这类似于大爆炸,因此得名。
从好的方面来说,大爆炸方法允许在尽可能短的时间内切换到新系统,从而省去了同时使用旧系统和新数据库的麻烦。
不利的一面是,大爆炸式迁移通常需要系统停机,这意味着只要数据经过转换并移动到目标存储系统,系统就对其用户保持不可用。 考虑到这一点,此类迁移需要在下班后或非高峰时段(例如周末或公共假期)执行,因为此时用户预计不会使用系统。 此外,源系统中积累的千兆字节和兆兆字节的数据可能会导致传输过程中的网络拥塞,从而可能导致数据丢失,或者在最好的情况下导致数据传输缓慢。 因此,Big Bang 的采用可能适合那些不生成大型数据集且能够承受停机时间的小公司。
涓流迁移
顾名思义,Trickle Migration 方法相反,是以更小的、可管理的块的形式迁移数据。 该策略允许同时运行旧系统和目标系统,直到企业准备好最终切换到新系统。 这有助于消除停机时间并减少网络拥塞问题,从而降低出现错误或意外故障的可能性。 数据迁移在后台持续进行,这对于需要在数据传输期间保持运行的系统尤为重要。
然而,与大爆炸策略不同,迭代迁移无论是在规划还是执行方面都是一个时间和资源密集型的过程。 迁移团队必须确保目标系统与源系统保持同步,并执行持续的数据验证和测试,以确保整个迁移过程中数据的一致性和完整性。 在这方面,对于使用大型数据集且停机时间容忍度较低的组织来说,选择采用滴流迁移方法可能是最佳选择。
数据迁移过程:如何顺利进行
现在您已经完全了解了数据迁移的含义、其类型、重要性和方法,现在是我们深入研究数据迁移过程的细节的时候了。
无论采用哪种方法,每个数据迁移项目都会经历相同的关键阶段。 在较高层面上,这些阶段通常包括迁移前规划、实施和迁移后审核。 每个阶段又可以根据具体的业务需求和要求进一步细分为多个阶段。 以下概述了正确进行数据迁移的基本步骤。
规划
全面的战略规划是数据迁移项目成功的关键。 通常从评估现有数据集并制定清晰的计划开始 - 您应该准确了解需要迁移哪些数据、需要迁移到哪里以及如何将其迁移到那里。 规划阶段还可能涉及以下步骤。
- 检查源数据并识别数据格式、位置、结构和属性
- 选择合适的目标存储解决方案并分析目标系统,以确定源数据是否适合新环境以及需要重构哪些内容以适应目标的规范
- 选择最合适的数据迁移方法(大爆炸或涓流)
- 分配最适合的资源、设置预算并定义数据传输时间表
- 数据审核
在数据迁移之前,对要移动的数据执行完整的审核至关重要。 数据审计的目的是检测数据质量问题,例如重复记录、不准确或不一致,并在继续之前排除这些问题,以确保只有高质量的数据传输到新系统。 这就是统包数据质量解决方案可能派上用场的地方。
删除过时的数据
识别并删除新系统中不需要的未使用或过时的对象。 删除过时的数据可以使您的迁移更加顺利,同时还允许您的团队在迁移后使用干净的数据集。
数据备份
尽管在技术上不是强制性的,但备份数据(最好是在多个位置)是实施迁移时的最佳实践。 这将在迁移失败时提供额外的保护层。
迁移设计
这里详细介绍迁移过程,即设置目标环境、执行彻底的数据映射、定义迁移和测试规则、编写验收标准、分配迁移角色和职责以及指定数据迁移技术和方法。
对于后者,有多种数据迁移方法可以将数据从源系统传输到目标系统。 例如物理存储迁移、备份和恢复、1:1 复制(批量 EL)或 ETL 技术(代表提取、转换、加载)等。 至于数据迁移工具,最常见的工具包括 AWS Database Migration Service、Azure Data Box、Apache NiFi 或满足特定和复杂迁移需求的自定义 Python 脚本。
执行和测试
这是迁移实际发生的地方。 强大的数据迁移过程需要定期测试,以确保数据按照规范进行转换和加载。 随着数据的移动,测试和重新测试迁移的数据以验证其完整性、准确性和可靠性至关重要。 频繁或持续的测试是绝对必要的,以查看源系统是否有任何故障和停机的迹象,并尽快纠正问题。
迁移后审计
实施完成后,对迁移结果进行审核至关重要,以确认数据是否已安全迁移到目标基础设施以及是否完整且可行。 一旦新系统上线并完美运行,您就可以安全地停用旧环境。
数据迁移挑战:需要注意什么
一旦您意识到您的业务需要数据迁移作为现代化项目的一部分,那么清楚地了解您可能遇到的挑战就至关重要。
迁移可能是实施中最复杂和最具挑战性的部分之一,因为有许多问题可能会阻碍数据迁移过程。 考虑一下:根据 Gartner 的数据,超过 83% 的数据迁移项目要么失败,要么超出预算和时间表。 大多数时候,这是因为组织忽视了风险或低估了成功的数据迁移过程所需的工作,将数据迁移视为只是从 A 点迁移到 B 点。为了防止数据迁移工作付诸东流,强烈建议您在开始数据迁移计划之前注意数据迁移风险和挑战。 以下是关键考虑因素的列表。
运营中断和停机
在数据迁移方面实现业务连续性可能非常具有挑战性,因为组织必须平衡数据完整性的需求和保持系统正常运行的要求。 对于生成大量数据且无法承受任何停机时间的公司来说尤其如此。 虽然存在不可避免的计划内停机(就像大爆炸数据迁移方法一样),但您的业务流程可能会由于传输故障、应用程序性能问题或您未能计划的其他一系列紧急情况而意外停止。初始阶段。
低估成本
预算可能决定数据迁移计划的成败。 正是对成本的低估使数据迁移项目面临风险。 如果您未能考虑数据迁移实施的所有方面,包括隐藏的间接成本,例如与计划外停机或紧急情况相关的成本,您可能会发现自己处于意外地远远超出指定预算的情况。 正如 Gartner 所说,对于数据迁移项目,成本平均超支 30%。
数据映射不良
由于数据库架构的差异,旧系统中的数据字段可能与新系统中的数据字段不同步。 因此,仅仅尝试映射字段并将数据塞入目标系统可能会造成损失。 不完整或不准确的数据映射可能会导致某些数据元素被放置在不正确的字段中,这可能需要大量时间和精力来进行定期更新和字段重新映射。
数据安全与合规性
在迁移过程中确保法律合规性和敏感数据的安全会增加项目的复杂性。 在处理客户的个人数据时,您必须了解并寻求遵守不同地区不同的隐私和数据保护法规的方法。 问题是,在美国,没有全面的联邦数据保护立法。 相反,各州和行业的法规差异很大。 相比之下,在欧盟,数据受到《通用数据保护条例》(GDPR) 的保护。 这一统一的数据隐私规则框架对数据持有者施加了严格的义务,并禁止将个人数据转移到缺乏足够数据保护措施的第三国。 只有在欧盟委员会发布充分性决定的情况下,才能进行这些转移。
因此,在跨大西洋数据流方面,寻求防止 GDPR 违规的方法成为首要问题,因为这些违规行为可能会招致制裁,科技巨头 Meta 就被处以破纪录的 13 亿美元 GDPR 罚款。 — GDPR 历史上规模最大的一次。
抵制变革
大规模数据迁移会立即产生整个宇宙的变化,这总是让系统用户感到沮丧。 由于习惯了在现有数据库上运行查询,用户可能很难适应新的环境和数据格式的变化,这往往表现为对变化的抵制。
ITRex 团队的数据迁移最佳实践
以下是 ITRex 大数据顾问提供的一些明确指南,可帮助您应对上面列出的数据迁移风险和挑战:
- 制定中断计划,以最大程度地减少停机时间或减轻其发生时的影响。 是的,你没听错。 您肯定想知道如何在任何情况下都能继续前进,不是吗? 这就是为什么建立强大的颠覆准备战略至关重要。 制定一个具体的业务连续性计划,概述一系列灾难场景和恢复方法,是保护您的业务运营免受长期中断并帮助其在最短的时间内恢复正常的可靠方法。 对于不可避免的停机时间,在组织方便的时间正确安排停机时间是确保无缝数据迁移的好方法,同时最大限度地减少意外问题或意外减速的可能性。
- 准确估算数据迁移成本,同时重点关注潜在的隐性成本。 其中包括管理应用程序依赖性、雇用外部承包商、运行额外测试周期以及解决数据质量问题的成本。 运行同一系统的重复版本以及生产力损失和迁移后问题也会显着增加成本。 总的来说,从长远来看,这些因素加起来会导致预算超支。
- 在编写映射脚本之前,必须分析所有源数据以确定其结构、质量和关系。 在数据加载之前执行全面的源到目标数据映射是确保所有数据准确放置的关键步骤。
- 迁移敏感数据时,优先考虑数据安全和隐私因素变得至关重要。 确保敏感数据在传输过程中和新环境中得到安全处理。 您可能希望应用数据加密、匿名或屏蔽技术来在整个迁移过程中保护敏感数据。 此外,请确保数据迁移符合相关数据保护法规,例如 GDPR 或行业特定指南。
- 尽管经常被忽视,但基于角色和职责的定制用户培训可以使您的数据迁移过程和结果发生巨大变化。 分配足够的时间和预算来重新培训现有团队有助于在数据迁移期间和之后实现更平稳的过渡,确保用户接受度,并有助于最大限度地减少运营中断。 最好尽早就即将进行的数据迁移和实践培训课程进行沟通,以便让用户有机会在实际数据迁移发生之前接受变革。 这种沟通还可以帮助他们做好准备,更好地理解新环境并在新环境中运作。
以下是 ITRex 数据迁移团队提供的一些同样重要的提示:
- 评估、理解并证明迁移到新技术的必要性,而不是匆忙加入潮流——您应该对自己想要什么以及为什么想要它有一个清晰的愿景。 迁移会有什么好处?
- 创建概念验证 (PoC) — 首先进行小规模尝试并试水,然后再完全致力于数据迁移。
- 探索替代方案并评估与每个选项相关的风险和收益。 还有哪些其他技术可以完成相同的工作? 你为什么选择这个?
- 评估新技术的局限性。 例如,Oracle 和许多其他关系数据库管理系统 (RDBMS) 常见的存储过程可能无法以相同的形式在基于云的大规模并行处理 (MPP) 数据仓库中使用。
- 评估是否需要重写数据处理逻辑。
- 评估您的用户可能受到的影响,并考虑为您的客户和员工创建单点联系点,以帮助应对他们遇到的任何挑战。
整合所有内容:为何进行数据迁移
在数字化转型方面,开展数据迁移计划是必然而非选择。 就数据迁移而言,变化是不可避免的,但也充满了一定的风险、不确定性和考虑因素。 将数据迁移视为重要创新过程的一部分就成功了一半。
现在您已经充分了解了什么是数据迁移以及为什么需要它,您将可以更轻松地开始数据迁移项目。
83% 的失败率并不一定意味着您的数据迁移计划从一开始就注定会失败。 虽然数据迁移可能具有挑战性并且有些令人沮丧,但只要制定了精心策划的数据迁移策略,一切都应该一帆风顺。 我们希望我们的顶级数据管理专家提出的针对性建议和最佳实践将为您带来好处。
想要了解什么是数据迁移以及如何正确进行数据迁移? 请随时给我们留言。 通过我们的数据迁移团队提供的经过验证的方法,最大限度地发挥数据迁移的优势。
本文最初发布于 ITRex 网站。