! 本文档为第三方技术分析页面,并非 DeepSeek 官方页面。内容基于公开技术报告整理,仅供参考。
Preview Version · 技术报告解读

迈向百万Token上下文
的高效智能

DeepSeek-V4 系列采用混合注意力架构(CSA + HCA), 结合流形约束超连接(mHC)与 Muon 优化器, 在百万 Token 上下文中实现了极致的推理效率与卓越性能。

1M
Token 上下文窗口
1.6T / 284B
Pro / Flash 总参数量
32T+
预训练 Token 数
27%
推理 FLOPs(相较 V3.2)

两个模型,覆盖不同场景

DeepSeek-V4 系列包含 Pro 与 Flash 两个版本,均原生支持百万 Token 上下文。

旗舰模型

DeepSeek-V4-Pro

重新定义开源模型的最强性能标杆

总参数 1.6T 激活参数 49B 层数 61 隐藏维度 7168 路由专家 384 上下文 1M Tokens
🚀 1M Token 场景下:仅需 V3.2 的 27% 推理 FLOPs 与 10% KV 缓存
高效模型

DeepSeek-V4-Flash

极致性价比,小参数大能力

总参数 284B 激活参数 13B 层数 43 隐藏维度 4096 路由专家 256 上下文 1M Tokens
⚡ 1M Token 场景下:仅需 V3.2 的 10% 推理 FLOPs 与 7% KV 缓存

核心架构创新

四大关键升级,突破超长上下文的效率瓶颈

🧩

混合注意力:CSA + HCA

Compressed Sparse Attention 与 Heavily Compressed Attention 交替使用,将 KV 缓存压缩至原来的约 2%(相较 BF16 GQA8 基线),大幅降低长上下文计算开销。

🔗

流形约束超连接(mHC)

将残差映射矩阵约束在双随机矩阵流形上,确保信号传播的数值稳定性,增强深层网络的训练稳定性与表达能力。

Muon 优化器

采用混合 Newton-Schulz 迭代进行正交化,结合 Nesterov 动量技巧,实现更快的收敛速度与更优的训练稳定性。

💾

FP4 量化感知训练

对 MoE 专家权重与索引器 QK 通路应用 FP4(MXFP4)量化,进一步降低推理阶段的显存占用与计算量。

推理效率革命

在百万 Token 上下文场景下,DeepSeek-V4 系列相较 V3.2 实现了数量级的效率提升。

📐 单 Token 推理 FLOPs(等效 FP8,1M Token 上下文)
V3.2
100%
V4-Pro
27%
V4-Flash
10%

* 数值越小代表效率越高(以 V3.2 为 100% 基准)

🗂️ KV 缓存大小(1M Token 上下文)
V3.2
100%
V4-Pro
10%
V4-Flash
7%

* 数值越小代表缓存占用越低(以 V3.2 为 100% 基准)

基准性能一览

DeepSeek-V4-Pro-Max 模式在多项基准上达到开源模型新高度

基准测试 V4-Pro Max V4-Flash Max GPT-5.4 Gemini 3.1 Pro Claude Opus 4.6
MMLU-Pro (EM) 87.5 86.2 87.5 91.0 89.1
GPQA Diamond (Pass@1) 90.1 88.1 93.0 94.3 91.3
HLE (Pass@1) 37.7 34.8 39.8 44.4 40.0
LiveCodeBench (Pass@1) 93.5 91.6 91.7 88.8
SimpleQA Verified (Pass@1) 57.9 34.1 45.3 75.6 46.2
SWE Verified (Resolved) 80.6 79.0 80.6 80.8
MRCR 1M (MMR) 83.5 78.7 76.3 92.9

* 数据来源:DeepSeek-V4 技术报告 Table 6 & Table 7(预览版)。加粗为该项最佳。

🚀 立即体验 DeepSeek-V4

在 DeepSeek Chat 中体验百万 Token 上下文的强大能力,或通过 API 平台集成到您的应用中。