🤖DeepSeek V4 发布快报:1M 上下文、Agent 能力与颠覆性定价
2026-4-24
| 2026-4-24
字数 2137阅读时长 6 分钟
type
Post
status
Published
date
Apr 24, 2026
slug
deepseek-v4-report
summary
DeepSeek 于 2026年4月24日发布 V4 预览版,双模型同步开源。V4-Pro(1.6T参数)与 V4-Flash(284B参数)均标配 1M 上下文窗口,CSA+HCA 混合注意力架构实现性能突破。Codeforces 编程竞赛 3206 分超越 GPT-5.4,API 定价低至 Claude 的 1/90。本文从性能、定价、架构、国产算力等维度全面解读 V4 发布。
tags
深度分析
category
技术
icon
password

DeepSeek V4 发布:1M 上下文成标配,价格低至 Claude 的 1/90

2026年4月24日,DeepSeek 正式发布 V4 系列模型预览版。这是继 V3 之后最大的一次版本迭代,也是 R1 之后最受社区期待的发布。V4 的核心策略可以概括为三个关键词:性能对标闭源旗舰、上下文直接拉满到 1M、价格打到行业地板价
更值得关注的是,V4 放弃了单一路线,转而采用 V4-Pro(旗舰)和 V4-Flash(轻量)双版本策略——类似 Anthropic 的 Opus/Sonnet 路线,用 Pro 打性能天花板,用 Flash 覆盖日常开发场景。

双版本策略:各有侧重

V4-Pro 采用 1.6T 总参数、49B 激活参数的 MoE 架构,预训练数据量 33T,配备 Non-Think 直出 / Think High 常规思考 / Think Max 最大深度思考三档推理强度,目标直指 GPT-5.4 Pro 和 Claude Opus 4.x。而 V4-Flash 是 284B 总参数、13B 激活参数的经济版本,主打低成本高性能。
但真正让社区意外的是:两个版本都标配 1M token 上下文窗口。在此之前,1M 级别上下文长期是 Google Gemini 的独占优势,行业主流还停留在 128K-256K。DeepSeek 直接把百万上下文从「高端选配」打成了「基础标配」。

性能实测:代码能力突出,Agent 场景亮眼

V4 在代码生成和工程能力方面表现尤为突出,多个权威基准测试中展现出与顶级闭源模型正面竞争的实力:
V4 Benchmark 对比图
V4 Benchmark 对比图
Codeforces 编程竞赛上,V4-Pro-Max 以 3206 分超越 GPT-5.4 的 3168。这意味着它在算法竞赛型代码生成上达到了人类顶尖选手水平。而在更贴近实际开发的 Apex Shortlist 全栈代码生成测试中,V4 达到 90.2%,领先 Claude Opus 4.6 的 85.9%。
不过,在解决真实软件工程问题(SWE-Verified)上,V4 的 80.6% 与 Claude Opus 4.6 的 80.8% 基本持平——这反映了两者的不同优化方向:DeepSeek 在算法竞赛型代码上更强,而 Claude 在真实场景的系统性工程能力上仍是标杆。Terminal Bench 命令行操作测试中,V4 的 67.9% 也与 GPT-5.4 的 68.5% 处于同一梯队。
V4 在 Agent 工作流 中的表现同样值得一提。Toolathlon 测试中 V4-Pro-Max 拿到 51.8%,超过 Claude Opus 4.6 的 47.2%。DeepSeek 表示已在内部用 V4 替换了 Claude 进行实际编码工作,工具调用格式从 JSON 切换为带特殊 token 的 XML 结构以降低转义错误,跨轮次推理痕迹也在长时间 Agent 任务中完整保留。

架构创新:1M 上下文的秘密

V4 能做到 1M 上下文而不牺牲推理速度,关键在于 CSA + HCA 混合注意力机制。CSA 解决「算什么」的问题——用轻量级索引器先对所有 token 对做粗筛,只精选出需要完整计算的部分;HCA 解决「存什么」的问题——在 MLA 基础上继续把 KV 向量压缩到低维潜空间,推理时再解压。
两个数字说明实际效果:在 1M token 场景下,V4-Pro 的单个 token 推理 FLOPs 仅为 V3.2 的 27%,KV Cache 占用仅为 10%。这意味着同等算力下能服务的长上下文并发量约为原来的 3-4 倍。
延续自 V3 的 Multi-Token Prediction 技术和 FP8 混合精度训练,让 V4-Flash 达到了 195M tokens/s 的推理速度。这也是 V4-Flash 能以 13B 激活参数的规模在多项测试中追平更大参数模型的原因。

定价:重新定义 AI 服务的价格基准

如果说性能是惊喜,那定价就是地震:
API 价格对比图
API 价格对比图
V4-Flash 每百万输出 token 仅 2 元,V4-Pro 为 24 元。横向对比,Claude Opus 4.7 约 180 元,GPT-5.4 Pro 约 216 元。
2 元/百万输出 token 是什么概念?一次中等规模的代码审查(约 2000 token 输出)成本不到半分钱。对于独立开发者来说,这意味着可以把日常编码任务放心交给 AI 而不用担心账单;对于创业团队来说,这意味着以传统 API 成本的零头接入顶级推理能力。
这个定价策略释放了一个明确的信号:DeepSeek 不是在和闭源模型比价格,而是在重新定义 AI 服务的价格基准。

国产算力:华为昇腾首次进入验证清单

技术报告第 3.1 节明确写道:「我们在英伟达 GPU 和华为昇腾 NPU 两个平台上均验证了细粒度 EP(专家并行)方案。」这是 DeepSeek 首次在正式技术文档中将华为昇腾与英伟达并列写入硬件验证清单。
更值得注意的是,V4 的 MoE 专家权重和稀疏注意力索引器采用 FP4 精度——恰好是华为昇腾 950PR 芯片的原生支持精度。官方透露,预计下半年昇腾 950 节点批量上市后,Pro 版价格会大幅下调。寒武纪也已基于 vLLM 完成 Day 0 适配,代码已开源到 GitHub。
在推理场景中,V4 采用 INT4/INT8 量化加国产芯片优化的组合方案,这意味着中国开发者可以在不依赖 Nvidia GPU 的情况下使用本地部署的 V4 模型进行推理。虽然训练环节仍然依赖 Nvidia Hopper 架构,但推理端的国产化已迈出实质性一步。

快速上手

通过 DeepSeek 官方 API 即可接入,同时支持 OpenAI ChatCompletions 和 Anthropic 两套接口标准:
采样参数建议:temperature = 1.0,top_p = 1.0(思考模式下)。如果要在 Claude Code 等 Agent 工具中使用,已原生适配,直接切换 endpoint 即可。开源权重同步上架 Hugging Face 和 ModelScope,MIT 许可证允许商业使用。
一句话推荐
  • 日常编码辅助、代码审查 → V4-Flash(够用,便宜,不心疼)
  • 复杂推理、长文分析、Agent 任务 → V4-Pro(性能对标旗舰,价格不到 1/7)
  • 全部接上 → 反正成本是闭源模型的零头
⚠️ 迁移提醒deepseek-chatdeepseek-reasoner 旧接口将于 2026年7月24日 停用,生产环境需在三个月内完成迁移,个人开发者只需改一个 model 参数。

对开发者的建议

DeepSeek V4 的发布,在多个维度上改写了开源模型的竞争格局。三个值得关注的趋势变化:
第一,开源模型在基准测试上正面对抗闭源旗舰已经成为现实。 尤其是在代码生成和数学推理领域,V4 已经做到与 GPT-5.4、Claude Opus 同台竞技。
第二,AI 服务的价格基准在快速下移。 V4-Flash 2 元的定价不是简单的低价策略,而是在证明「足够好且极便宜」是一条可行的产品路线。未来半年,可以预期闭源模型也会跟进降价。
第三,国产 AI 芯片生态正在形成。 虽然训练环节仍然依赖 Nvidia,但推理侧的国产化替代已经在真实产品中得到验证。
如果你是独立开发者或中小团队,现在可能是时候认真考虑将工作流中的部分任务迁移到 V4 上了——不是因为它是「最好的」,而是因为它是「足够好且便宜到可以放心用」的那个选项。
  • 深度分析
  • 使用AI工具提升日常工作效率的实践与经验Anthropic Mythos:AI 安全领域的新范式与行业变革
    Loading...