就性能而言,V4 比 R1 有了巨大飞跃,这或许并不令人意外,而且它似乎是几乎所有最新大型 AI 模型的强大替代品。根据该公司分享的结果,在主要基准测试中,DeepSeek V4-Pro 与领先的闭源模型竞争,其性能与 Anthropic 的 Claude-Opus-4.6、OpenAI 的 GPT-5.4 和 Google 的 Gemini-3.1 的性能相当。与其他开源模型(例如阿里巴巴的 Qwen-3.5 或 Z.ai 的 GLM-5.1)相比,DeepSeek V4 在编码、数学和 STEM 问题上都超越了它们,使其成为有史以来发布的最强开源模型之一。
DeepSeek 还表示,V4-Pro 现在在代理编码任务基准测试中跻身最强开源模型之列,并且在衡量执行多步骤问题能力的其他测试中表现良好。根据该公司分享的基准测试结果,其写作能力和世界知识也处于领先地位。
在与该模型一起发布的技术报告中,DeepSeek 分享了对 85 名经验丰富的开发人员进行的内部调查的结果:超过 90% 的开发人员将 V4-Pro 列为编码任务的首选模型。
DeepSeek 表示,它针对 Claude Code、OpenClaw 和 CodeBuddy 等流行代理框架专门优化了 V4。
2. 它提供了一种提高内存效率的新方法。
V4 的关键创新之一是它的长上下文窗口——模型可以一次处理的文本量。两个版本都可以处理 100 万个代币,足以容纳所有三卷 指环王 和 霍比特人 合并。该公司表示,这种上下文窗口大小现在是所有 DeepSeek 服务的默认大小,并且与 Gemini 和 Claude 等模型的尖端版本提供的大小相匹配。
但重要的是要知道,不仅 DeepSeek 已经实现了这一飞跃,而且 如何 它确实这样做了。 V4 对公司以前的模型进行了重大的架构更改,尤其是在注意力机制方面,这是人工智能模型的一个功能,可以帮助他们理解提示的每个部分与其余部分的关系。随着提示文本变长,这些比较的成本变得越来越高,使得注意力成为长上下文模型的主要瓶颈之一。

