DeepSeek V3.2

deepseekdeepseek/deepseek-v3.2

模型规格

发布日期（V3.2 正式版）	2025-12-02（arXiv 技术报告）arxiv.org ↗	已核实
V3.2-Exp 发布	2025 年 9 月（实验版，DSA 首次亮相）api-docs.deepseek.com ↗	已核实
架构	671B 总参数 / 37B 激活的 MoE；MLA（多头潜在注意力）+ DSA（DeepSeek 稀疏注意力）；RoPE；多 token 预测训练目标arxiv.org ↗	已核实
预训练 token 量（V3 主干）	14.8 万亿github.com ↗	已核实
训练数据截止	未公开披露	未知

Benchmark	Score	Source
MMLU (EM, Chat) 出自 V3 README——V3.2 公开基准与 V3.1-Terminus 同档，V3 基线在误差范围内仍适用。	88.5	github.com ↗
HumanEval-Mul (Pass@1, Chat)	82.6	github.com ↗
MATH-500 (EM, Chat)	90.2	github.com ↗
GSM8K (8-shot EM, Base)	89.3	github.com ↗
GPQA-Diamond (Pass@1, Chat)	59.1	github.com ↗
LiveCodeBench (Pass@1-COT)	40.5	github.com ↗
AIME 2024 (Pass@1)	39.2	github.com ↗
GPT-5 comparison (qualitative) 据 V3.2 技术报告：扩大后训练算力后，V3.2 整体表现与 GPT-5 相当；高算力的 Speciale 变体在推理上超过 GPT-5，并在 2025 年 IMO / IOI / ICPC / CMO 上取得金牌成绩。	Comparable to GPT-5; Speciale variant exceeds GPT-5	arxiv.org ↗

事实档案 — 本页每条断言可在此回溯来源

来源	URL	采集于
发布日期（V3.2 正式版）	arxiv.org ↗	2026-05-22	已核实
V3.2-Exp 发布	api-docs.deepseek.com ↗	2026-05-22	已核实
架构	arxiv.org ↗	2026-05-22	已核实
预训练 token 量（V3 主干）	github.com ↗	2026-05-22	已核实
训练数据截止	—	—	未知
许可——代码	github.com ↗	2026-05-22	已核实
许可——权重	github.com ↗	2026-05-22	已核实
支持的推理后端	github.com ↗	2026-05-22	已核实
后继版本	—	—	已核实
MMLU (EM, Chat)	github.com ↗	2026-05-22	待核实
HumanEval-Mul (Pass@1, Chat)	github.com ↗	2026-05-22	待核实
MATH-500 (EM, Chat)	github.com ↗	2026-05-22	待核实
GSM8K (8-shot EM, Base)	github.com ↗	2026-05-22	待核实
GPQA-Diamond (Pass@1, Chat)	github.com ↗	2026-05-22	待核实
LiveCodeBench (Pass@1-COT)	github.com ↗	2026-05-22	待核实
AIME 2024 (Pass@1)	github.com ↗	2026-05-22	待核实
GPT-5 comparison (qualitative)	arxiv.org ↗	2026-05-22	待核实
DeepSeek 发布 V3.2 技术报告：与 V3.2-Exp 同架构，扩大后训练后整体对标 GPT-5	arxiv.org/abs/2512.02556 ↗	2026-05-22	已核实
DeepSeek 发布 V3.2-Exp：首次引入稀疏注意力（DSA），API 价格下降超 50%	api-docs.deepseek.com ↗	2026-05-22	已核实
V3.2 和 V3.2-Exp 有什么区别？	arxiv.org ↗	2026-05-22	待核实
什么是 DeepSeek Sparse Attention（DSA）？	arxiv.org ↗	2026-05-22	待核实
DeepSeek V3.2 可以自托管吗？	github.com ↗	2026-05-22	待核实