VeloxCon 2024,首屈一指的开发者大会,致力于 迅速 开源项目,汇聚了行业领导者、工程师和爱好者,共同探索塑造数据管理未来的最新进展和协作努力。 VeloxCon 由 IBM® 与 Meta 合作主办,展示了 Velox 的最新创新,包括项目路线图、Prestissimo (Presto-on-Velox)、Gluten (Spark-on-Velox)、硬件加速等等。
Velox 概述
Velox 是由 Meta 构建和开源的统一执行引擎,旨在加速数据管理系统并简化其开发。 Velox 的最大优势之一是它整合和统一了数据管理系统,因此您无需不断重写引擎。 如今,Velox 正处于与多个数据系统集成的各个阶段,包括 Presto (Prestissimo)、Spark (Gluten)、PyTorch (TorchArrow) 和 Apache Arrow。 您可以阅读更多关于为什么内置 Velox 的信息 Meta 的工程博客。
IBM 的 Velox
Presto 是以下引擎 沃森数据,IBM 的开放数据 Lakehouse 平台。 去年,我们一直致力于在 IBM 努力推进 Velox for Presto(Prestissimo)。 Presto Java 工作线程正在被基于 Velox 的 C++ 进程所取代。 现在,我们有几位 Prestissimo 项目的提交者,并在我们致力于构建 Presto 2.0 时继续与 Meta 密切合作。
Prestissimo 的一些主要优势包括:
- 巨大的性能提升:查询处理可以用更小的集群来完成
- 无性能悬崖:无 Java 进程、JVM 或垃圾回收,因为内存仲裁提高了效率
- 更容易大规模构建和操作:Velox 为您提供跨数据引擎(如 Spark)的可重用和可扩展原语
今年,我们计划利用 Prestissimo 做更多事情,包括:
- 冰山读者
- 生产准备情况(使用 Prometheus 收集指标)
- 新 Velox 系统实施
- TPC-DS 基准测试运行
VeloxCon 2024
我们与 Meta 密切合作组织了 VeloxCon 2024,这是一次精彩的社区活动。 我们听到来自 Meta、IBM、Pinterest、英特尔、微软和其他公司的演讲者在两天充满活力的日子里分享了他们的工作成果以及他们对 Velox 的愿景。
第一天亮点
会议以 Meta 的会议拉开序幕,其中 Amit Purohit 重申了 Meta 对开源和社区合作的承诺。 Pedro Pedreira 与 Manos Karpathiotakis 和 Deblina Gupta 一起深入研究了数据管理中的可组合性概念,展示了 Velox 的多功能性及其与 Arrow 的一致性。
Meta 的 Amit Dutta 在 Meta 上探讨了 Prestissimo 的批处理效率,揭示了在优化数据处理工作流程方面取得的进步。 IBM 数据与人工智能软件副总裁 Remus Lazar 介绍了 Velox 在 IBM 的历程及其未来愿景。 IBM 的 Aditi Pandit 随后深入介绍了 Prestissimo 在 IBM 的集成,重点介绍了功能增强和未来计划。
下午的会议同样富有洞察力,Meta 的 Jimmy Lu 公布了 Velox 的最新优化和功能。 英特尔的 Binwei Yang 讨论了 Velox 与 Apache Gluten 项目的集成,强调了其全球影响。 来自 Pinterest 和 Microsoft 的工程师分享了他们使用 Velox 和 Gluten 解锁数据查询性能的经验,展示了切实的性能提升。
当天的会议结束于 Meta 的会议,由孟晓轩介绍了 Velox 的内存管理,并介绍了 Wei He 介绍的新的简单聚合函数界面。
第二天亮点
第二天,Velox 联合创始人 Orri Erling 发表了主题演讲。 他分享了对 Velox Wave 和加速器的见解,展示了其加速潜力。 NeuroBlade 的 Krishna Maheshwari 强调了他们与 Velox 社区的合作,介绍了 NeuroBlade 的 SPU(SQL 处理单元)及其对 Velox 计算速度和效率的变革性影响。
Rivos 的 Sergei Lewis 探索了将工作卸载到加速器以增强 Velox 管道性能的潜力。 来自 Voltron Data 的 William Malpica 和 Amin Aramoon 推出了Theseus,这是一个可组合、可扩展的分布式数据分析引擎,使用 Velox 作为 CPU 后端。
Meta 的 Yoav Helfman 推出了 Nimble,这是一种尖端的柱状文件格式,旨在增强数据存储和检索。 来自Meta的Pedro Pedreira和Sridhar Anumandla详细阐述了Velox的新技术治理模式,强调其在指导项目发展可持续性方面的重要性。
当天还包括来自 IBM 的 Deepak Majeti 的有关 Velox I/O 优化的会议、来自 ComputeAI 的 Vikram Joshi 的防止内存不足 (OOM) 终止的策略以及由 Deepak Majeti 进行的有关调试 Velox 应用程序的实践演示。
Velox 的下一步是什么
VeloxCon 2024 证明了 Velox 项目周围充满活力的生态系统,展示了突破性创新并促进了行业领导者和开发人员之间的合作。 此次会议为与会者提供了宝贵的见解、实践知识和交流机会,巩固了 Velox 作为数据管理生态系统中领先开源项目的地位。
如果您有兴趣了解更多信息并加入 Velox 社区,可以使用以下一些资源:
请继续关注 Velox 社区的更多更新和发展,我们将继续突破数据管理的界限并共同加速创新。
通过免费试用 watsonx.data 来尝试 Presto
本文是否有帮助?
是的不