DeepSeek V4 发布快报：1M 上下文、Agent 能力与颠覆性定价

type

Post

status

Published

date

Apr 24, 2026

slug

deepseek-v4-report

summary

DeepSeek 于 2026年4月24日发布 V4 预览版，双模型同步开源。V4-Pro（1.6T参数）与 V4-Flash（284B参数）均标配 1M 上下文窗口，CSA+HCA 混合注意力架构实现性能突破。Codeforces 编程竞赛 3206 分超越 GPT-5.4，API 定价低至 Claude 的 1/90。本文从性能、定价、架构、国产算力等维度全面解读 V4 发布。

DeepSeek V4 发布：1M 上下文成标配，价格低至 Claude 的 1/90

2026年4月24日，DeepSeek 正式发布 V4 系列模型预览版。这是继 V3 之后最大的一次版本迭代，也是 R1 之后最受社区期待的发布。V4 的核心策略可以概括为三个关键词：性能对标闭源旗舰、上下文直接拉满到 1M、价格打到行业地板价。

更值得关注的是，V4 放弃了单一路线，转而采用 V4-Pro（旗舰）和 V4-Flash（轻量）双版本策略——类似 Anthropic 的 Opus/Sonnet 路线，用 Pro 打性能天花板，用 Flash 覆盖日常开发场景。

双版本策略：各有侧重

V4-Pro 采用 1.6T 总参数、49B 激活参数的 MoE 架构，预训练数据量 33T，配备 Non-Think 直出 / Think High 常规思考 / Think Max 最大深度思考三档推理强度，目标直指 GPT-5.4 Pro 和 Claude Opus 4.x。而 V4-Flash 是 284B 总参数、13B 激活参数的经济版本，主打低成本高性能。

但真正让社区意外的是：两个版本都标配 1M token 上下文窗口。在此之前，1M 级别上下文长期是 Google Gemini 的独占优势，行业主流还停留在 128K-256K。DeepSeek 直接把百万上下文从「高端选配」打成了「基础标配」。

性能实测：代码能力突出，Agent 场景亮眼

V4 在代码生成和工程能力方面表现尤为突出，多个权威基准测试中展现出与顶级闭源模型正面竞争的实力：

在 Codeforces 编程竞赛上，V4-Pro-Max 以 3206 分超越 GPT-5.4 的 3168。这意味着它在算法竞赛型代码生成上达到了人类顶尖选手水平。而在更贴近实际开发的 Apex Shortlist 全栈代码生成测试中，V4 达到 90.2%，领先 Claude Opus 4.6 的 85.9%。

不过，在解决真实软件工程问题（SWE-Verified）上，V4 的 80.6% 与 Claude Opus 4.6 的 80.8% 基本持平——这反映了两者的不同优化方向：DeepSeek 在算法竞赛型代码上更强，而 Claude 在真实场景的系统性工程能力上仍是标杆。Terminal Bench 命令行操作测试中，V4 的 67.9% 也与 GPT-5.4 的 68.5% 处于同一梯队。

V4 在 Agent 工作流 中的表现同样值得一提。Toolathlon 测试中 V4-Pro-Max 拿到 51.8%，超过 Claude Opus 4.6 的 47.2%。DeepSeek 表示已在内部用 V4 替换了 Claude 进行实际编码工作，工具调用格式从 JSON 切换为带特殊 token 的 XML 结构以降低转义错误，跨轮次推理痕迹也在长时间 Agent 任务中完整保留。

架构创新：1M 上下文的秘密

V4 能做到 1M 上下文而不牺牲推理速度，关键在于 CSA + HCA 混合注意力机制。CSA 解决「算什么」的问题——用轻量级索引器先对所有 token 对做粗筛，只精选出需要完整计算的部分；HCA 解决「存什么」的问题——在 MLA 基础上继续把 KV 向量压缩到低维潜空间，推理时再解压。

两个数字说明实际效果：在 1M token 场景下，V4-Pro 的单个 token 推理 FLOPs 仅为 V3.2 的 27%，KV Cache 占用仅为 10%。这意味着同等算力下能服务的长上下文并发量约为原来的 3-4 倍。

延续自 V3 的 Multi-Token Prediction 技术和 FP8 混合精度训练，让 V4-Flash 达到了 195M tokens/s 的推理速度。这也是 V4-Flash 能以 13B 激活参数的规模在多项测试中追平更大参数模型的原因。

定价：重新定义 AI 服务的价格基准

如果说性能是惊喜，那定价就是地震：

V4-Flash 每百万输出 token 仅 2 元，V4-Pro 为 24 元。横向对比，Claude Opus 4.7 约 180 元，GPT-5.4 Pro 约 216 元。

2 元/百万输出 token 是什么概念？一次中等规模的代码审查（约 2000 token 输出）成本不到半分钱。对于独立开发者来说，这意味着可以把日常编码任务放心交给 AI 而不用担心账单；对于创业团队来说，这意味着以传统 API 成本的零头接入顶级推理能力。

这个定价策略释放了一个明确的信号：DeepSeek 不是在和闭源模型比价格，而是在重新定义 AI 服务的价格基准。

国产算力：华为昇腾首次进入验证清单

技术报告第 3.1 节明确写道：「我们在英伟达 GPU 和华为昇腾 NPU 两个平台上均验证了细粒度 EP（专家并行）方案。」这是 DeepSeek 首次在正式技术文档中将华为昇腾与英伟达并列写入硬件验证清单。

更值得注意的是，V4 的 MoE 专家权重和稀疏注意力索引器采用 FP4 精度——恰好是华为昇腾 950PR 芯片的原生支持精度。官方透露，预计下半年昇腾 950 节点批量上市后，Pro 版价格会大幅下调。寒武纪也已基于 vLLM 完成 Day 0 适配，代码已开源到 GitHub。

在推理场景中，V4 采用 INT4/INT8 量化加国产芯片优化的组合方案，这意味着中国开发者可以在不依赖 Nvidia GPU 的情况下使用本地部署的 V4 模型进行推理。虽然训练环节仍然依赖 Nvidia Hopper 架构，但推理端的国产化已迈出实质性一步。

快速上手

通过 DeepSeek 官方 API 即可接入，同时支持 OpenAI ChatCompletions 和 Anthropic 两套接口标准：

采样参数建议：temperature = 1.0，top_p = 1.0（思考模式下）。如果要在 Claude Code 等 Agent 工具中使用，已原生适配，直接切换 endpoint 即可。开源权重同步上架 Hugging Face 和 ModelScope，MIT 许可证允许商业使用。

一句话推荐：

日常编码辅助、代码审查 → V4-Flash（够用，便宜，不心疼）

复杂推理、长文分析、Agent 任务 → V4-Pro（性能对标旗舰，价格不到 1/7）

全部接上 → 反正成本是闭源模型的零头

⚠️ 迁移提醒：deepseek-chat 和 deepseek-reasoner 旧接口将于 2026年7月24日 停用，生产环境需在三个月内完成迁移，个人开发者只需改一个 model 参数。

对开发者的建议

DeepSeek V4 的发布，在多个维度上改写了开源模型的竞争格局。三个值得关注的趋势变化：

第一，开源模型在基准测试上正面对抗闭源旗舰已经成为现实。 尤其是在代码生成和数学推理领域，V4 已经做到与 GPT-5.4、Claude Opus 同台竞技。

第二，AI 服务的价格基准在快速下移。 V4-Flash 2 元的定价不是简单的低价策略，而是在证明「足够好且极便宜」是一条可行的产品路线。未来半年，可以预期闭源模型也会跟进降价。

第三，国产 AI 芯片生态正在形成。 虽然训练环节仍然依赖 Nvidia，但推理侧的国产化替代已经在真实产品中得到验证。

如果你是独立开发者或中小团队，现在可能是时候认真考虑将工作流中的部分任务迁移到 V4 上了——不是因为它是「最好的」，而是因为它是「足够好且便宜到可以放心用」的那个选项。