Preview Version · 技术报告解读

迈向百万Token上下文
的高效智能

DeepSeek-V4 系列采用混合注意力架构（CSA + HCA），结合流形约束超连接（mHC）与 Muon 优化器，在百万 Token 上下文中实现了极致的推理效率与卓越性能。

体验 DeepSeek Chat 访问 API 平台

Token 上下文窗口

1.6T / 284B

Pro / Flash 总参数量

32T+

预训练 Token 数

27%

推理 FLOPs（相较 V3.2）

两个模型，覆盖不同场景

DeepSeek-V4 系列包含 Pro 与 Flash 两个版本，均原生支持百万 Token 上下文。

旗舰模型

DeepSeek-V4-Pro

重新定义开源模型的最强性能标杆

总参数 1.6T 激活参数 49B 层数 61 隐藏维度 7168 路由专家 384 上下文 1M Tokens

🚀 1M Token 场景下：仅需 V3.2 的 27% 推理 FLOPs 与 10% KV 缓存

高效模型

DeepSeek-V4-Flash

极致性价比，小参数大能力

总参数 284B 激活参数 13B 层数 43 隐藏维度 4096 路由专家 256 上下文 1M Tokens

⚡ 1M Token 场景下：仅需 V3.2 的 10% 推理 FLOPs 与 7% KV 缓存

核心架构创新

四大关键升级，突破超长上下文的效率瓶颈

🧩

混合注意力：CSA + HCA

Compressed Sparse Attention 与 Heavily Compressed Attention 交替使用，将 KV 缓存压缩至原来的约 2%（相较 BF16 GQA8 基线），大幅降低长上下文计算开销。

🔗

流形约束超连接（mHC）

将残差映射矩阵约束在双随机矩阵流形上，确保信号传播的数值稳定性，增强深层网络的训练稳定性与表达能力。

⚡

Muon 优化器

采用混合 Newton-Schulz 迭代进行正交化，结合 Nesterov 动量技巧，实现更快的收敛速度与更优的训练稳定性。

💾

FP4 量化感知训练

对 MoE 专家权重与索引器 QK 通路应用 FP4（MXFP4）量化，进一步降低推理阶段的显存占用与计算量。

推理效率革命

在百万 Token 上下文场景下，DeepSeek-V4 系列相较 V3.2 实现了数量级的效率提升。

📐 单 Token 推理 FLOPs（等效 FP8，1M Token 上下文）

V3.2

100%

V4-Pro

27%

V4-Flash

10%

* 数值越小代表效率越高（以 V3.2 为 100% 基准）

🗂️ KV 缓存大小（1M Token 上下文）

V3.2

100%

V4-Pro

10%

V4-Flash

* 数值越小代表缓存占用越低（以 V3.2 为 100% 基准）

基准性能一览

DeepSeek-V4-Pro-Max 模式在多项基准上达到开源模型新高度

基准测试	V4-Pro Max	V4-Flash Max	GPT-5.4	Gemini 3.1 Pro	Claude Opus 4.6
MMLU-Pro (EM)	87.5	86.2	87.5	91.0	89.1
GPQA Diamond (Pass@1)	90.1	88.1	93.0	94.3	91.3
HLE (Pass@1)	37.7	34.8	39.8	44.4	40.0
LiveCodeBench (Pass@1)	93.5	91.6	—	91.7	88.8
SimpleQA Verified (Pass@1)	57.9	34.1	45.3	75.6	46.2
SWE Verified (Resolved)	80.6	79.0	—	80.6	80.8
MRCR 1M (MMR)	83.5	78.7	—	76.3	92.9

* 数据来源：DeepSeek-V4 技术报告 Table 6 & Table 7（预览版）。加粗为该项最佳。

🚀 立即体验 DeepSeek-V4

在 DeepSeek Chat 中体验百万 Token 上下文的强大能力，或通过 API 平台集成到您的应用中。

体验 Chat API 平台