返回模型列表

DeepSeek V3.2

deepseekdeepseek/deepseek-v3.2

模型规格

发布日期(V3.2 正式版)2025-12-02(arXiv 技术报告)arxiv.org已核实
V3.2-Exp 发布2025 年 9 月(实验版,DSA 首次亮相)api-docs.deepseek.com已核实
架构671B 总参数 / 37B 激活的 MoE;MLA(多头潜在注意力)+ DSA(DeepSeek 稀疏注意力);RoPE;多 token 预测训练目标arxiv.org已核实
预训练 token 量(V3 主干)14.8 万亿github.com已核实
训练数据截止未公开披露未知

基准成绩

BenchmarkDistributionScoreSource
MMLU (EM, Chat)
出自 V3 README——V3.2 公开基准与 V3.1-Terminus 同档,V3 基线在误差范围内仍适用。
88.5github.com
HumanEval-Mul (Pass@1, Chat)
82.6github.com
MATH-500 (EM, Chat)
90.2github.com
GSM8K (8-shot EM, Base)
89.3github.com
GPQA-Diamond (Pass@1, Chat)
59.1github.com
LiveCodeBench (Pass@1-COT)
40.5github.com
AIME 2024 (Pass@1)
39.2github.com
GPT-5 comparison (qualitative)
据 V3.2 技术报告:扩大后训练算力后,V3.2 整体表现与 GPT-5 相当;高算力的 Speciale 变体在推理上超过 GPT-5,并在 2025 年 IMO / IOI / ICPC / CMO 上取得金牌成绩。
Comparable to GPT-5; Speciale variant exceeds GPT-5arxiv.org
事实档案 — 本页每条断言可在此回溯来源
来源URL采集于
发布日期(V3.2 正式版)arxiv.org2026-05-22已核实
V3.2-Exp 发布api-docs.deepseek.com2026-05-22已核实
架构arxiv.org2026-05-22已核实
预训练 token 量(V3 主干)github.com2026-05-22已核实
训练数据截止未知
许可——代码github.com2026-05-22已核实
许可——权重github.com2026-05-22已核实
支持的推理后端github.com2026-05-22已核实
后继版本已核实
MMLU (EM, Chat)github.com2026-05-22待核实
HumanEval-Mul (Pass@1, Chat)github.com2026-05-22待核实
MATH-500 (EM, Chat)github.com2026-05-22待核实
GSM8K (8-shot EM, Base)github.com2026-05-22待核实
GPQA-Diamond (Pass@1, Chat)github.com2026-05-22待核实
LiveCodeBench (Pass@1-COT)github.com2026-05-22待核实
AIME 2024 (Pass@1)github.com2026-05-22待核实
GPT-5 comparison (qualitative)arxiv.org2026-05-22待核实
DeepSeek 发布 V3.2 技术报告:与 V3.2-Exp 同架构,扩大后训练后整体对标 GPT-5arxiv.org/abs/2512.025562026-05-22已核实
DeepSeek 发布 V3.2-Exp:首次引入稀疏注意力(DSA),API 价格下降超 50%api-docs.deepseek.com2026-05-22已核实
V3.2 和 V3.2-Exp 有什么区别?arxiv.org2026-05-22待核实
什么是 DeepSeek Sparse Attention(DSA)?arxiv.org2026-05-22待核实
DeepSeek V3.2 可以自托管吗?github.com2026-05-22待核实
客服支持