ETL/ELT 数据管道的远程引擎执行能力

如果企业领导者不积极实施，他们的竞争优势可能会受到损害生成式人工智能（人工智能时代）。然而，企业扩展人工智能面临进入壁垒。组织需要可靠的数据来建立强大的人工智能模型和准确的见解，但当前的技术格局提出了前所未有的数据质量挑战。

据国际数据公司（IDC）称，到 2025 年，存储的数据将增加 250%，数据在本地和跨云、应用程序和位置快速传播，但质量受到影响。这种情况将加剧数据孤岛、增加成本并使人工智能和数据工作负载的治理复杂化。

对于负责部署人工智能的人员来说，不同格式和位置的数据量激增以及扩展人工智能的压力成为一项艰巨的任务。在与人工智能模型一起使用之前，必须将多个来源的数据组合并协调成统一、一致的格式。统一的、受管控的数据还可用于各种分析、运营和决策目的。此过程称为数据集成，是强大数据结构的关键组成部分之一。如果没有熟练的数据集成策略来集成和管理组织的数据，最终用户就无法信任他们的人工智能输出。

下一级别的数据集成

数据集成对于现代数据结构架构至关重要，特别是因为组织的数据处于混合、多云环境和多种格式中。由于数据驻留在各个不同的位置，数据集成工具已经发展到支持多种部署模型。随着云和人工智能的日益普及，用于集成来自不同来源的数据的完全托管部署已变得流行。例如，IBM Cloud 上的完全托管部署使用户能够采用无服务器服务，并从自动维护、更新和安装等应用程序效率中受益。

另一种部署选项是自我管理方法，例如在本地部署软件应用程序，它使用户可以完全控制其关键业务数据，从而降低数据隐私、安全和主权风险。

这 远程执行引擎 是一项出色的技术发展，它将数据集成提升到了一个新的水平。它结合了完全托管和自我管理部署模型的优势，为最终用户提供了最大的灵活性。

数据集成有多种风格。两种比较流行的方法，提取、转换、加载（ETL）和提取、加载、转换 (ELT)，都具有高性能和可扩展性。数据工程师构建数据管道（称为数据集成任务或作业），作为执行数据操作并在整个工作流程中编排这些数据管道的增量步骤。 ETL/ELT 工具通常有两个组件： 设计时间 （设计数据集成作业）和运行（执行数据集成作业）。

从部署的角度来看，它们一直被打包在一起，直到现在。远程引擎执行是革命性的，因为它解耦设计时和运行时，在运行数据集成作业的控制平面和数据平面之间创建分离。远程引擎表现为一个容器，可以在任何容器管理平台上运行，也可以在任何云容器服务上本地运行。远程执行引擎可以运行云到云、云到本地以及本地到云工作负载的数据集成作业。当您在客户管理的环境中、任何云（例如 VPC）、任何数据中心和任何地理位置中部署引擎（运行时）时，这使您能够及时管理设计。

这种创新的灵活性使数据集成作业能够通过客户管理的运行时最接近业务数据。它可以防止完全托管的设计时间接触该数据，从而提高安全性和性能，同时保留完全托管模型的应用程序效率优势。

远程引擎允许 ETL/ELT 作业设计一次并在任何地方运行。重申一下，远程引擎提供最终部署灵活性的能力具有复合优势：

用户通过执行数据所在的管道来减少数据移动。
用户降低出口成本。
用户最大限度地减少网络延迟。
因此，用户可以提高管道性能，同时确保数据安全和控制。

虽然该技术在多种业务用例中具有优势，但让我们来看看这三个：

1. 混合云数据集成

跨混合云环境集成数据时，传统数据集成解决方案通常面临延迟和可扩展性挑战。借助远程引擎，用户可以在任何地方运行数据管道，从本地和基于云的数据源提取数据，同时仍然保持高性能。这使组织能够利用云资源的可扩展性和成本效益，同时出于合规性或安全原因将敏感数据保留在本地。

使用 C酶 s设想: 考虑一家金融机构，该机构需要聚合来自本地数据库和基于云的 SaaS 应用程序的客户交易数据。通过远程运行时，他们可以在其内部部署 ETL/ELT 管道虚拟私有云（VPC）处理来自本地源的敏感数据，同时仍然访问和集成来自云的源的数据。这种混合方法有助于确保符合法规要求，同时利用云资源的可扩展性和敏捷性。

2. 多云数据编排和成本节约

组织越来越多地采用多云策略来避免供应商锁定并使用不同云提供商的一流服务。然而，由于入口和出口运营费用 (OpEx)，跨多个云编排数据管道可能非常复杂且昂贵。由于远程运行时引擎支持任何类型的容器或 Kubernetes，因此它允许用户在任何云平台上进行部署并具有理想的成本灵活性，从而简化了多云数据编排。

TETL（转换、提取、转换、加载）和 SQL Pushdown 等转换样式也可以与远程引擎运行时很好地协同作用，以利用源/目标资源并限制数据移动，从而进一步降低成本。通过多云数据策略，组织需要针对数据引力和数据局部性进行优化。在 TETL 中，转换最初在源数据库中执行，以便在执行传统 ETL 流程之前在本地处理尽可能多的数据。同样，ELT 的 SQL Pushdown 将转换推送到目标数据库，允许在目标数据库内或附近提取、加载数据，然后进行转换。这些方法通过利用集成模式和远程运行时引擎，增强管道性能和优化，同时为用户提供针对其用例设计管道的灵活性，从而最大限度地减少数据移动、延迟和出口费用。

使用 C酶 s设想: 假设一家零售公司使用 Amazon Web Services (AWS) 的组合来托管其电子商务平台，并使用 Google Cloud Platform (GCP) 来运行 AI/ML 工作负载。通过远程运行时，他们可以在 AWS 和 GCP 上部署 ETL/ELT 管道，从而实现跨多个云的无缝数据集成和编排。这确保了灵活性和互操作性，同时利用每个云提供商的独特功能。

3. 边缘计算数据处理

边缘计算正变得越来越普遍，尤其是在制造、医疗保健和物联网等行业。然而，传统的 ETL 部署通常是集中式的，这使得在生成数据的边缘处理数据变得具有挑战性。远程执行概念允许用户直接在边缘设备上或边缘计算环境中部署轻量级、容器化的 ETL/ELT 引擎，从而释放了边缘数据处理的潜力。

使用 C酶 s设想: 制造公司需要对从工厂车间的机器收集的传感器数据进行近乎实时的分析。通过远程引擎，他们可以在工厂内的边缘计算设备上部署运行时。这使他们能够在本地预处理和分析数据，减少延迟和带宽要求，同时仍然保持对云数据管道的集中控制和管理。

使用 DataStage-aaS Anywhere 释放远程引擎的力量

远程引擎提供终极的部署灵活性，使用户能够在数据所在的任何地方运行数据管道，从而帮助将企业的数据集成策略提升到一个新的水平。组织可以充分利用其数据的潜力，同时降低风险和成本。采用这种部署模型使开发人员能够设计一次数据管道并在任何地方运行它们，从而构建推动业务增长的弹性和敏捷的数据架构。用户可以从单一设计画布中受益，然后在不同的集成模式（ETL、带有 SQL 下推的 ELT 或 TETL）之间切换，无需任何手动管道重新配置，以最适合他们的用例。

国际商业机器公司® 数据阶段®-aaS 无处不在 通过使用远程引擎使客户受益，该引擎使任何技能水平的数据工程师都可以在任何云或本地环境中运行其数据管道。在数据日益孤立和人工智能技术快速发展的时代，优先考虑安全和可访问的数据基础非常重要。使用 DataStage-aaS Anywhere（由值得信赖的 IBM DataStage 团队构建的 NextGen 解决方案）在构建可信数据架构方面取得先机。

了解有关 DataStage-aas Anywhere 的更多信息

免费试用 IBM DataStage 即服务

本文是否有帮助？

是的不

数据与人工智能 (IA) 技术专家

IBM 数据集成产品营销经理