
随着实时人工智能应用需求的增长,焦点转向推理基础设施。低延迟性能正在成为构建编码代理和基于语音的交互等应用程序的关键瓶颈,迫使人工智能开发人员超越传统的 GPU 密集型架构。
实时推理对于人工智能模型做出即时决策至关重要,从而推动自动驾驶和金融欺诈检测等实时应用的发展。
开放人工智能 与人工智能芯片制造商建立多年合作关系后,现在拥有先发优势 大脑 部署 750 兆瓦晶圆级人工智能系统进行推理。该部署将于 2026 年开始分多个阶段进行,其基础设施旨在为全球 OpenAI 客户提供服务。据统计,此次交易价值超过100亿美元 华尔街日报。
OpenAI 的 Sachin Katti 在一份声明中表示:“Cerebras 在我们的平台上添加了专用的低延迟推理解决方案。这意味着更快的响应、更自然的交互以及为更多人扩展实时人工智能的更坚实的基础。”
此次合作建立在 OpenAI 和 Cerebras 之间多年的合作之上,Sam Altman 是 Cerebras 的早期投资者之一。这笔交易正值 OpenAI 实现人工智能基础设施多元化的关键时刻。此前,苹果和谷歌出人意料地建立了合作伙伴关系,将谷歌的人工智能技术融入到 iOS 中,其中包括更新版的 Siri。
NVIDIA面临的压力
随着 AMD 和英特尔打造 GPU 的低成本替代品,以及谷歌和亚马逊等超大规模企业打造自己的 TPU,人工智能推理市场的竞争正在加剧。
在这种激烈的环境下,OpenAI 似乎已经挖到了金子。
Cerebras 声称其系统运行大型语言模型的速度比基于 GPU 的替代方案快 15 倍。该公司最新的芯片架构是 Wafer Scale Engine-3 (WSE-3),为其最新系统提供动力,例如 CS-3,这是一款晶圆级 AI 处理器,拥有约 4 万亿个晶体管和约 900,000 个 AI 优化核心。
根据 Cerebras 的说法,CS-3 系统比 NVIDIA 的 DGX B200 快 21 倍 布莱克威尔 GPU 的运行成本和功耗约为 GPU 的三分之一,支持对话式 AI、实时代码生成和推理任务等应用。
在独家对话中 目的 去年 10 月,Cerebras 联合创始人兼首席执行官安德鲁·费尔德曼 (Andrew Feldman) 表示,晶圆级计算是公司下一阶段增长的核心。 “这是计算机行业历史上最大的芯片,”他吹嘘道,并补充说,通过在单个芯片上保存更多的数据,Cerebras 可以更快地处理信息,更少地移动数据,消耗更少的电量,并在更短的时间内提供结果。
“当响应是实时的时,人工智能就会变得令人兴奋,”费尔德曼指出。 “没有人愿意等待 40 秒或四分钟才能得到答案。”
NVIDIA 也不是旁观者。最近,专门为人工智能推理打造专用硬件的美国公司 Groq 宣布与 NVIDIA 达成价值约 200 亿美元的非独家许可协议。作为交易的一部分,Groq 创始人 Jonathan Ross、总裁 Sunny Madra 和其他几名员工加入了公司,并带来了 Groq 的低延迟语言处理单元处理器。
推理经济学
除了速度之外,推理的经济性也是大型科技公司人工智能战略的核心。更快的推理可以减少计算时间、能源消耗和基础设施开销,从而降低每个代币的成本。
Silicon Data 首席执行官 Carmen Li 表示:“当利用率很高、流量可以深度批处理并且软件堆栈得到很好优化时,B200 级 GPU 可以具有成本效益。” 目的。
Li 补充道,许多交互式推理工作负载(例如聊天、代理和语音)具有突发性且对延迟敏感,这限制了批处理并导致效率低下。 “这些工作负载在批量大的系统上表现不佳,”她说。
批处理涉及将多个数据输入分组,将它们作为一个批次一起处理,以提高计算吞吐量。
Li 指出,晶圆级系统在这种情况下表现得更经济,因为它减少了对多 GPU 协调和互连开销的需求,将计算和内存带宽整合到单个系统中,并在必须满足严格的服务级别要求时提供更可预测的延迟。
Feldman 强调,GPU 对于合成数据生成等速度较慢、以吞吐量为导向的任务仍然有意义。但对于代理人工智能、实时推理和面向客户的应用程序来说,晶圆级具有决定性的优势。
摆脱 CUDA 锁定
放弃 GPU 的最大障碍之一是软件锁定,尤其是围绕 NVIDIA 并行计算平台 CUDA 的软件锁定。 Cerebras 声称它已经在很大程度上消除了这种摩擦。
“快速移动和脱节 CUDA 的方式是通过使用 API,”Feldman 说。 “大多数应用程序开发人员不希望与 CUDA 有任何关系。”
相反,开发人员只需更改几行代码即可连接到 Cerebras,就像连接到任何云 AI API 一样。
然而,Li 指出了软件限制,称晶圆级平台依赖于针对机器学习进行了狭隘优化的专门编程模型、编译器和 API。与 CUDA 生态系统相比,这限制了灵活性,并表明晶圆级将充当专门的推理层,而不是 GPU 的通用替代品。
李指出,对于适合其架构的工作负载来说,晶圆级推理可以更快、更节能,但制造良率仍然是一个关键变量。即使具有容错能力,晶圆级制造也很困难,而且如果良率推高成本,性能优势可能无法完全抵消更高的资本支出。
她补充说,晶圆级系统并不能消除分布式计算的成本。李指出:“一旦工作负载超过单个系统,或者当地理分布和高可用性很重要时,熟悉的扩展惩罚就会再次出现。”他补充说,该方法主要优化单节点延迟和效率,而不是大规模分布式推理。
Cerebras 的下一步是什么
据报道,Cerebras 正在洽谈融资 10 亿美元,估值约为 220 亿美元,几乎是之前估值的三倍。去年 9 月,该公司在超额认购的 G 轮融资中筹集了 11 亿美元,投后估值为 81 亿美元。
除了 OpenAI 之外,Cerebras 还与总部位于阿布扎比的人工智能组织 G42 合作。该公司于 2024 年 9 月秘密申请 IPO,但因美国外国投资委员会对其与 G42 的关系进行审查,于 2025 年 10 月撤回了申请。
除了 OpenAI 之外,Cerebras 的客户还包括 AWS、Meta、IBM、Mistral、Cognition 和 Hugging Face。
帖子 OpenAI 通往实时 AI 的 100 亿美元捷径内部 首先出现在 分析印度杂志。

