DeepSeek 新模型重要的三个原因

就性能而言，V4 比 R1 有了巨大飞跃，这或许并不令人意外，而且它似乎是几乎所有最新大型 AI 模型的强大替代品。根据该公司分享的结果，在主要基准测试中，DeepSeek V4-Pro 与领先的闭源模型竞争，其性能与 Anthropic 的 Claude-Opus-4.6、OpenAI 的 GPT-5.4 和 Google 的 Gemini-3.1 的性能相当。与其他开源模型（例如阿里巴巴的 Qwen-3.5 或 Z.ai 的 GLM-5.1）相比，DeepSeek V4 在编码、数学和 STEM 问题上都超越了它们，使其成为有史以来发布的最强开源模型之一。

DeepSeek 还表示，V4-Pro 现在在代理编码任务基准测试中跻身最强开源模型之列，并且在衡量执行多步骤问题能力的其他测试中表现良好。根据该公司分享的基准测试结果，其写作能力和世界知识也处于领先地位。

在与该模型一起发布的技术报告中，DeepSeek 分享了对 85 名经验丰富的开发人员进行的内部调查的结果：超过 90% 的开发人员将 V4-Pro 列为编码任务的首选模型。

DeepSeek 表示，它针对 Claude Code、OpenClaw 和 CodeBuddy 等流行代理框架专门优化了 V4。

2. 它提供了一种提高内存效率的新方法。

V4 的关键创新之一是它的长上下文窗口——模型可以一次处理的文本量。两个版本都可以处理 100 万个代币，足以容纳所有三卷 指环王 和 霍比特人 合并。该公司表示，这种上下文窗口大小现在是所有 DeepSeek 服务的默认大小，并且与 Gemini 和 Claude 等模型的尖端版本提供的大小相匹配。

但重要的是要知道，不仅 DeepSeek 已经实现了这一飞跃，而且如何它确实这样做了。 V4 对公司以前的模型进行了重大的架构更改，尤其是在注意力机制方面，这是人工智能模型的一个功能，可以帮助他们理解提示的每个部分与其余部分的关系。随着提示文本变长，这些比较的成本变得越来越高，使得注意力成为长上下文模型的主要瓶颈之一。

DeepSeek 新模型重要的三个原因

2. 它提供了一种提高内存效率的新方法。

DeepSeek 新模型重要的三个原因

价值 1300 万美元的 FF 代币解锁并流入交易所：紧急抛售警告

出现大规模抛售信号

Crypto PAC 撤回对德克萨斯州 AG 参议院投标的支持 – BitRss