微软新的人工智能模型推动微软人工智能超越副驾驶

微软人工智能的推动力超出了大多数人的预期。一周内，公司推出了 新副驾驶升级 并介绍了内部构建的三个基础人工智能模型。这之所以引人注目，是因为微软不仅将人工智能功能分层到现有产品中。它正在构建更多背后的核心技术。

新型号， MAI 转录 1、MAI 语音 1 和 MAI 图像 2，涵盖语音到文本、文本到语音和图像生成。与此同时，微软正在更新 Copilot，以便用户可以比较不同模型的结果，并将多个模型合并到一个工作流程中。简而言之，微软正在为客户提供更大的灵活性，同时构建更多自己的人工智能基础。

微软新的人工智能模型是微软迄今为止最明确的内部推动

微软周四推出了三个内部构建的基础人工智能模型：MAI Transcribe 1、MAI Voice 1 和 MAI Image 2。它们可以通过 微软代工厂 和新的 麦游乐场，这为开发人员提供了一种直接的方法来测试和使用它们。

每个模型都专注于不同的任务。麦转录1 将语音变成文本。麦语音1 从文本创建语音。麦图像 2 根据提示生成图像。这些是对公司最有用的人工智能工作，因为它们适合会议、客户支持、媒体创建和办公软件。

这是最重要的部分。 Microsoft 不再只是一家通过 Azure 和 Copilot 销售 AI 访问权限的公司。现在它也想构建更多的核心模型。

这让微软有更多的控制权 成本、速度和产品设计。 这也为该公司为那些希望从大规模人工智能支出中看到真正回报的投资者提供了更有力的答案。微软股价正面临自 2008 年金融危机以来最糟糕的季度，而最新的报道显示，该公司面临着证明人工智能可以成为真正的业务引擎的压力，而不仅仅是一个昂贵的承诺。

MAI Transcribe 1、语音 1 和图像 2 的实际用途

MAI Transcribe 1 是本次发布的主打产品。微软表示它提供了 跨 25 种语言的出色语音到文本准确性 并且已经在 Copilot 语音模式和 Microsoft Teams 中进行了测试。该公司还表示，它使用的 GPU 成本约为其他顶级模型的一半，这一点很重要，因为转录是公司每天大量使用的人工智能任务之一。

MAI Voice 1 是微软新的文本转语音模型。微软表示它可以生成 在单个 GPU 上，不到一秒即可播放 60 秒的音频。它还支持从 Foundry 中的短音频样本创建自定义语音，这使公司可以更轻松地构建品牌语音工具、支持系统和媒体产品。

MAI Image 2 是该公司更新的图像模型。微软表示，它在图像模型系列的 Arena.ai 排行榜上名列前三，现在在 Foundry 和 Copilot 上的运行速度比早期版本至少快两倍。微软也正在全面推广它 必应和 PowerPoint，这表明这些模型可以多快地传播到微软的日常产品中。

微软人工智能正在将这些模型与更大的商业计划联系起来

Mustafa Suleyman 已经明确了公司的方向。用他的话说，重点是对开发者、企业、消费者的产品价值，而不是抽象的空谈。他从实际商业角度看待超级智能，其目标是 提供创造价值的模型 为数百万依赖 Microsoft 软件的公司提供帮助。

这有助于解释为什么微软在 2026 年 3 月重组了其人工智能工作。该公司合并了 Copilot 品牌下的企业和消费者努力，而雅各布·安德烈欧 (Jacob Andreou) 在工程、增长、产品和设计方面承担了更大的运营角色。苏莱曼将更多的注意力转向了微软的前沿模型工作。

这很重要，因为新车型并不是孤立推出的。他们适合一个更大的计划，微软构建底层系统，将它们放入 为开发者代工，然后将它们整合到人们已经使用的产品中，例如 Teams、Copilot、Bing 和 PowerPoint。

简单来说，微软人工智能希望拥有更多从模型到产品再到付费客户的管道。

Copilot 也在发生变化，这与此次发布直接相关

在该型号发布前几天，微软添加了新的 Copilot 功能，让 多个人工智能模型在同一工作流程中工作。 开放人工智能的 GPT 创建响应并人择的克劳德对其准确性和质量进行了审查。微软还推出了 Council，让用户可以并排比较不同模型的答案。

微软还在其 Frontier 计划中将 Copilot Cowork 扩展到早期访问用户。该产品的目的是 支持更自主的AI工作，这是更广泛推动的一部分，旨在使 Copilot 更有用，并且相对于 Google Gemini 和基于 Claude 的工具等产品更具竞争力。

这就是故事变得更有趣的地方。微软同时做两件事。它仍然允许客户访问 来自合作伙伴的模型，但它也在建设自己的。这意味着微软人工智能可以充当平台和模型制造商，具体取决于客户的需求。

对于关注微软人工智能聊天机器人市场的读者来说，这表明随着时间的推移，Copilot 可能会越来越少地依赖于一种外部模型，并且变得更加灵活。 微软将自己的系统添加到其中。 这可能会改变企业将 Copilot 与其他人工智能助手进行比较的方式。

为什么这次发布对 OpenAI、谷歌和其他人工智能市场很重要

微软与 OpenAI 的合作关系仍然存在，预计将持续到 2032 年。同时，新条款赋予微软自由 追求自己的超级智能工作，这为更多独立模型开发打开了大门。

这意味着微软可以继续从 OpenAI 的工作中受益，同时还可以制定后备计划，并随着时间的推移制定更强大的内部替代方案。 这是一个实用的位置。如果微软能够自己建立强大的模型，它就能在成本、产品方向和长期独立性方面获得优势。

定价角度也很重要。微软称 MAI Voice 1 售价为 每 100 万个字符 22 美元，而 MAI Image 2 的定价为 每 100 万个文本输入令牌 5 美元 和 每 100 万个代币 33 美元 用于图像输出。微软希望这些产品比其他超大规模提供商更便宜。这给亚马逊、谷歌和在同一领域竞争的语音人工智能初创公司带来了压力。

结论

微软推出了三款新的AI模型，升级了Copilot，使其方向更容易理解。该公司希望继续提供对外部模型的访问，同时在全球范围内构建更多自己的技术。语音、语音、成像以及最终更大的模型类别。这为微软提供了更多选择、更多控制权以及更清晰的途径，将人工智能支出转化为人们付费购买的实际产品。

对于读者来说，最大的收获很简单。微软人工智能正在跨越 Copilot 本身成为主要标题的阶段。现在的故事包括幕后的模型、它们背后的成本，以及该公司与竞争对手进行更直接竞争的计划。 OpenAI、谷歌和其他主要人工智能公司。

常见问题解答

微软的新人工智能模型是什么？

微软的新 AI 模型是 MAI Transcribe 1、MAI Voice 1 和 MAI Image 2。它们专注于三个常见的 AI 任务：将语音转换为文本、将文本转换为口语音频以及根据提示创建图像。 Microsoft 通过 Microsoft Foundry 和 MAI Playground 发布了它们，以便开发人员可以立即开始使用它们。更重要的一点是，微软正在构建更多自己的核心人工智能技术，而不是仅仅依赖外部合作伙伴来开发其产品背后的系统。

为什么这些微软新的人工智能模型很重要？

它们很重要，因为它们表明微软正在试图控制更多的人工智能堆栈。其中包括产品设计、定价、基础设施成本，以及新功能到达 Copilot、Teams、Bing 和 PowerPoint 等工具的速度。它们也很重要，因为语音、语音和图像生成是具有明确业务需求的领域。微软没有追求抽象的主张，而是将精力投入到公司可以在会议、媒体工作、客户支持和日常软件中使用的人工智能产品上。

微软还在与 OpenAI 合作吗？

是的。微软仍在与 OpenAI 合作，苏莱曼表示，这种合作关系预计将持续到 2032 年。改变的是，微软现在也有更多的自由来追求自己的超级智能和模型开发。这意味着这种关系不再仅仅与使用 OpenAI 系统有关。微软可以继续向客户提供 OpenAI 模型，同时也构建自己的替代方案。对于微软来说，这在不结束对其云和人工智能业务仍然重要的合作伙伴关系的情况下创造了更多的独立性。

这对 Copilot 和 Microsoft AI 聊天机器人的故事有何影响？

它以两种方式影响副驾驶。首先，微软添加了新的 Copilot 功能，例如 Critique 和 Council，让用户可以比较或组合不同 AI 模型的输出。其次，新的 MAI 模型为微软提供了更多内部工具，随着时间的推移，它可以将其插入到产品中。对于关注微软人工智能聊天机器人市场的人们来说，这意味着 Copilot 可能会变得更加灵活，更少地依赖于一种模型源，并且更加适合准确性、速度和成本都很重要的业务任务。

微软现在是否正试图与谷歌和 OpenAI 直接竞争？

是的，比以前更直接了。微软仍然是外部人工智能模型的平台，但这些发布表明它也希望作为模型构建者受到认真对待。该公司瞄准转录、语音和图像生成等核心领域，其产品据称速度快、成本效益高且可供企业使用。这使得微软与 OpenAI、谷歌、亚马逊和专业人工智能初创公司展开更直接的竞争，特别是在开发人员已经投入真金白银的领域。