在一个 之前的博客,我们指出,以商业智能的高性能数据处理而闻名的仓库对于新数据和不断变化的工作负载来说可能很快就会变得昂贵。 我们还证明了由 Presto 等大数据引擎提供的查询和报告需要与 Spark 基础架构框架配合使用,以支持高级分析和复杂的企业数据决策。 为此,Presto 和 Spark 需要轻松地与现有和现代数据仓库基础设施一起工作。 现在,让我们谈谈为什么数据仓库优化是 Data Lakehouse 策略的关键价值。
数据仓库优化的价值
自一个多世纪前推出以来,汽油动力发动机基本保持不变。 它只是随着时间的推移进行了调整,以适应现代需求,例如污染控制、空调和动力转向。
同样,只要数据仓库存在,关系数据库就一直是数据仓库的基础。 关系数据库经过调整以适应新工作负载的需求,例如与结构化和半结构化数据相关的数据工程任务,以及构建机器学习模型。
回到这个类比,我们为汽车提供动力的方式发生了重大变化。 我们现在有汽油发动机、纯电动汽车 (BEV) 和混合动力汽车。 一个 2021 年 8 月福布斯文章 引用了能源部阿贡国家实验室 2021 年的一份出版物,指出“混合动力电动汽车(想想:普锐斯)在小型 SUV 类别中的每英里总驾驶成本 15 年最低,超过了 BEV”。
正如混合动力汽车帮助车主平衡初始购买价格和长期成本一样,企业正试图在其数据和分析生态系统的高性能和成本效益之间找到平衡点。 从本质上讲,他们希望在正确的环境中运行正确的工作负载,而不必过度复制数据集。
优化您的 Data Lakehouse 架构
幸运的是,由于云平台、开源和传统软件供应商的组合,IT 格局正在发生变化。 云对象存储的兴起推动了数据存储成本的下降。 开放数据文件格式已经发展到支持跨多个数据引擎(如 Presto、Spark 等)共享数据。 智能数据缓存正在提高数据湖基础设施的性能。
所有这些创新都被软件供应商采用并被他们的客户所接受。 那么,从实际的角度来看,这意味着什么呢? 企业可以做什么不同于他们今天已经在做的事情? 一些用例示例会有所帮助。 为了有效地使用原始数据,通常需要在数据仓库中对其进行管理。 半结构化数据需要重新格式化和转换才能加载到表中。 ML 流程会消耗大量容量来构建模型。
如今,在其数据仓库环境中运行这些工作负载的组织正在为没有增加额外价值或洞察力的工程任务支付高额运行费用。 只有这些数据驱动模型的输出才能让组织获得额外的价值。 如果组织能够以较低的运行速度执行这些工程任务 数据湖屋 在通过开放格式将转换后的数据提供给 lakehouse 和仓库时,它们可以通过低成本处理提供相同的输出值。
跨数据仓库和数据湖屋进行优化的好处
通过使用开放格式共享数据来优化数据仓库和数据湖库中的工作负载可以降低成本和复杂性。 这有助于组织推动其数据战略和分析投资获得更好的回报,同时还有助于提供更好的数据治理和安全性。
正如混合动力汽车可以让车主从他们的汽车投资中获得更大的价值一样,优化数据仓库和数据湖屋的工作负载将使组织能够从他们的数据分析生态系统中获得更大的价值。
了解如何优化数据仓库以使用 Data Lakehouse 策略扩展分析和人工智能 (AI) 工作负载。