GPT-5.1 vs Gemini 3 Pro vs Claude Opus 4.5

2025 年的最后几个月已经成为人工智能世界的一个奇怪的节日。有史以来最强大的三个模型几乎连续出现。开放人工智能 GPT-5.1 位居第一，其次是 Google DeepMind 的 Gemini 3 Pro。最后，Anthropic 的 Claude Opus 4.5 为这个月画上了圆满的句号。

本季这些款式中最引人注目的转变是一个简单的想法。他们不再以直线思考。在较旧的系统中，模型会读取提示并以固定的速度回复响应。在新系统中，当任务需要时，模型会减慢速度。它会遍历一系列想法，检查错误和计划。

思维方式

每家公司都针对这种新行为采取了自己的方法。 GPT-5.1 自己决定是深入思考还是加快完成一项简单的任务。没有可供用户翻转的开关。模型读取房间。

双子座 3 专业版通过深度思考模式提供清晰的选择。研究人员可以打开它来解决复杂的问题。

近距离工作4.5 提供最多的控制。其工作量设置允许用户控制用于任务的令牌数量。这几乎就像调整亮度一样，只不过是为了智能。

这些选择共同为这三个公司如何展望未来定下了基调。 OpenAI 似乎想要速度和规模，Google 想要掌控媒体，而 Anthropic 想要在长时间的复杂任务中保持可靠性。

编码测试

GPT-5.1 还有第二个很重要的技巧。 Codex-Max 是其用于软件工作的专用版本，使用称为压缩的过程。它通过将旧日志和错误转换为压缩内存来保留工作的本质，从而保持长时间的编码会话干净。

这解决了以前系统速度变慢的问题。长循环常常使模型陷入混乱。 Codex-Max 在一整天的调试中保持警惕，而不会丢失上下文。结果不是记忆力变长，而是记忆力更敏锐。

Gemini 3 Pro走了一条不同的路。谷歌构建它是为了将文本、图像、音频和视频视为单个流的一部分。它不会将单独的视觉或音频模块固定在语言核心之上。一切都在统一的空间中处理。

这赋予了它一种不寻常的流动感。它可以理解音频中的语气，掌握长视频中的因果关系，并读取跨越一百万个标记的文档而不将它们分开。

Claude Opus 4.5 试图解决一个更安静但更顽固的问题。在长长的编码或研究链中，较旧的模型常常忘记为什么他们会提前几轮做出选择。 Opus 4.5 从一步到下一步都保持了自己的思维块完整无缺。这可以防止它重复相同的失败想法。

它的行为就像一个清楚地记得以前的尝试的人。它还带来了新鲜的技能。该模型可以以全分辨率放大屏幕的一小部分。它用它来捕捉其他模型错过的文档或界面中的微小细节。

开发商比较的 GPT-5.1、Gemini 3.0 和 Opus 4.5 跨越三个编码任务，看看它们在实际工作中的表现如何。这个想法很简单。让模型解决相同的问题，观察它们如何处理指令、混乱的遗留代码和不完整的系统。

第一个测试检查了及时的纪律。这些模型必须构建一个具有 10 项严格要求的 Python 速率限制器。双子座以一种非常字面的方式坚持剧本。 Opus 4.5 接近规范并产生更清晰的音符。 GPT-5.1 添加了未请求的检查和安全逻辑。

第二个测试向模型抛出了一个损坏的 TypeScript API，要求他们清理它并修复潜在的设计缺陷。 Opus 4.5 完成了全部 10 项改进。 GPT-5.1 取得了九个成绩，并标记了安全漏洞，例如缺少身份验证和不安全的数据库调用。 Gemini 管理了 8 个并编写了快速代码，但忽略了结构问题。

第三个测试评估了他们在扩展系统之前对系统的理解程度。鉴于通知模块尚未构建完成，模型必须首先解释布局，然后添加电子邮件支持。 Opus 4.5 提供了最完整的答案，并为每个事件提供了模板。

GPT-5.1花了更多的时间阅读系统，指出错误，绘制图表，然后添加更丰富的功能，如抄送、密件抄送和附件。双子座理解了简短的内容，但回答简短。

软件工作显示出截然不同的排名。

Claude Opus 4.5 在实际工程任务中摘得桂冠。在测试实际 GitHub 问题修复的基准测试中，它超越了 GPT-5.1 Codex-Max。两者在这个领域都优于双子座。虽然 Claude 优雅地处理了歧义，但 Codex-Max 却能在最长的会议中幸存下来。双子座在纯粹的算法难题上表现最好，但在混乱的存储库中失去了冷静。

关于基准

这三款车型在基准测试中展现出各自独特的个性。 Gemini 3 Pro 在科学推理方面处于领先地位，对物理、化学和生物学都有很强的掌握。它还在最艰难的新测试“人类最后的考试”中表现最佳。

该分数表明有能力在人类知识仍然不完整且不清楚的领域生成答案。 GPT-5.1 在这一类别中落后，而 Claude Opus 4.5 则介于两者之间。它在科学上有能力，但不占主导地位。

在数学方面，当允许调用外部工具时，双子座就达到了完美。 GPT-5.1 紧随其后。克劳德仍然可靠，但不那么引人注目。惊喜来自于视觉推理。 Gemini 和 Claude 在需要灵活思维的谜题上表现出了敏捷性，而 GPT-5.1 则难以跟上步伐。

底线：定价

价格再次改变了故事。 OpenAI 已将成本降低到几乎具有战略意义的程度。 GPT-5.1 大规模运行的成本低廉。这使得它非常适合公司和初创公司的大容量工作负载。 Gemini 每个令牌都很昂贵，但由于其巨大的上下文窗口，对于很长的文档来说很有价值。克劳德成本最高，但通过其“努力”设置提供了精细的控制。

围绕这些模型的人类体验带来了自己的色彩。社区论坛上的开发人员例如 Hacker News、Cursor 和 Reddit 描述 Claude Opus 4.5 是一种能够轻松理解意图的产品。它的表现就像一位细心的高级工程师。

双子座给人的感觉是聪明、心思缜密。它擅长规划大型系统，但在执行过程中可能会过于字面意思。

GPT-5.1 被描述为快速且易于使用。它可以快速解决小任务，但有时可以快速解决缓慢的问题。

大多数用户不会选择单一型号。他们将把它们结合起来：GPT-5.1 作为处理负载的可靠工作人员，Gemini 作为深度阅读者，Claude 作为细心的执行者。一种模式统治该领域的想法正在逐渐消失。现在这个领域看起来更像是一项团队运动。

GPT-5.1 vs Gemini 3 Pro vs Claude Opus 4.5

思维方式

编码测试

关于基准

底线：定价

长时间运行代理的上下文窗口管理：策略和权衡

瑞士银行 BancaStato 通过 Sygnum 和 Avaloq 推出比特币交易

手工制作的 ETH NFT“The Del Mundos”获得巨大关注

BitMine 98％的收入来自质押，因为长达十年的合同使提前退出变得复杂