DeepSeek V3.2

deepseekdeepseek/deepseek-v3.2

DeepSeek V3.2 (685B total, 37B active MoE) harmonizes high computational efficiency with superior reasoning and agent performance. Features DeepSeek Sparse Attention for long-context efficiency and a scalable reinforcement learning framework. Excels at long-context reasoning, tool-using agents, function calling, JSON output, and FIM.

Hugging Face 模型主页 ↗DeepSeek-V3.2 技术报告（arXiv） ↗DeepSeek-V3.2-Exp 官方发布 ↗GitHub — DeepSeek-V3.2-Exp ↗

DeepSeek-V3.2 是 DeepSeek-V3 家族的开源版演进，分两阶段发布：2025 年 9 月推出实验性的 V3.2-Exp，随后是 2025 年 12 月 2 日 arXiv 2512.02556 技术报告对应的完整版 V3.2。延续 671B 总参数 / 37B 激活的 MoE 主干，新增 DeepSeek Sparse Attention（DSA）——细粒度稀疏注意力机制，可在保持与 V3.1-Terminus 同等基准成绩的同时大幅降低长上下文推理成本。

对 TheRouter 路由层用户，V3.2 是开源档位的「质价比之王」。DeepSeek 称 DSA 架构在 V3.2-Exp 发布时相比 V3.1 实现了超过 50% 的 API 成本下降。代码采用 MIT 许可、权重采用宽松的 Model License，二者均允许商用。推理可在 SGLang、vLLM、LMDeploy、TensorRT-LLM、LightLLM、DeepSeek-Infer 上以 FP8/BF16 在 NVIDIA 与 AMD GPU 上运行，亦可通过 MindIE 在华为 Ascend NPU 上运行——意味着自托管 fallback 路径在工程上真实可行，不只是名义存在。

适合使用

• 对成本敏感的推理任务——DeepSeek V3.2 在 MMLU、MATH、HumanEval 上接近闭源前沿模型，价格只是其零头
• 可以真正受益于 DSA 长上下文降本的任务——整库分析、长文摘要、大文档上的 CoT 推理
• 「自托管 + 托管」双轨——同样的权重和 tokenizer，故障演练或合规要求下平滑切换
• 需要可靠 JSON / function-calling 但又不愿付旗舰价的工具型 agent

不适合使用

• 原生视觉或多模态输入——V3.2 是纯文本进/纯文本出；图像输入请路由 Claude Opus 4.7 或 Amazon Nova 2 Lite
• 超出常规对话的深度推理——这块 DeepSeek 有 V3.2-Speciale（不支持工具调用、token 用量更高）；并不总是合适的路由目标
• 对已可用 V4 的关键生产路径——DeepSeek 于 2026 年 4 月发布 V4，支持 100 万 token 上下文与 Compressed Sparse Attention；新项目应优先评估 V4

上下文长度

128K

最大输出

33K

输入价格每百万 tokens

$0.960每百万 Tokens

输出价格每百万 tokens

$2.88每百万 Tokens

模态能力

文本→文本

价格明细

类型	费率
输入	$0.960 每百万 Tokens
输出	$2.88 每百万 Tokens

支持参数

temperaturemax_tokenstop_ptoolstool_choiceresponse_formatstop

模型规格

发布日期（V3.2 正式版）	2025-12-02（arXiv 技术报告）arxiv.org ↗	已核实
V3.2-Exp 发布	2025 年 9 月（实验版，DSA 首次亮相）api-docs.deepseek.com ↗	已核实
架构	671B 总参数 / 37B 激活的 MoE；MLA（多头潜在注意力）+ DSA（DeepSeek 稀疏注意力）；RoPE；多 token 预测训练目标arxiv.org ↗	已核实
预训练 token 量（V3 主干）	14.8 万亿github.com ↗	已核实
训练数据截止	未公开披露	未知
许可——代码	MITgithub.com ↗	已核实
许可——权重	DeepSeek Model License（允许商用）github.com ↗	已核实
支持的推理后端	SGLang、vLLM v0.6.6+、LMDeploy、TensorRT-LLM、LightLLM、DeepSeek-Infer Demo；支持 FP8 与 BF16；NVIDIA 与 AMD GPU；通过 MindIE 支持华为昇腾 NPUgithub.com ↗	已核实
后继版本	DeepSeek-V4（2026 年 4 月 24 日）——100 万 token 上下文、Compressed Sparse Attention（CSA）、原生 agent 工具	已核实

基准成绩

查看完整基准 →

Benchmark	Score	Source
MMLU (EM, Chat) 出自 V3 README——V3.2 公开基准与 V3.1-Terminus 同档，V3 基线在误差范围内仍适用。	88.5	github.com ↗
HumanEval-Mul (Pass@1, Chat)	82.6	github.com ↗
MATH-500 (EM, Chat)	90.2	github.com ↗
GSM8K (8-shot EM, Base)	89.3	github.com ↗
GPQA-Diamond (Pass@1, Chat)	59.1	github.com ↗

API 使用示例

所有新集成都应使用下方示例中的全球端点 api.therouter.ai；旧中国加速端点已下线。

cURL

curl https://api.therouter.ai/v1/chat/completions   -H "Content-Type: application/json"   -H "Authorization: Bearer $THE_ROUTER_API_KEY"   -d '{
    "model": "deepseek/deepseek-v3.2",
    "messages": [
      {"role": "user", "content": "Summarize the key points from this input."}
    ]
  }'

API 使用指南

完整 API 参考 →

Chat 调用

通过 TheRouter 的 OpenAI 兼容接口做标准对话。TheRouter 在上游统一处理 tool-calling 与 response_format，客户端代码可在 DeepSeek、Anthropic、OpenAI 之间保持可移植。

cURL

curl https://api.therouter.ai/v1/chat/completions \
  -H "Authorization: Bearer $THEROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v3.2",
    "messages": [{"role": "user", "content": "Prove that the sum of two odd integers is even."}]
  }'

deepseek 其他模型

deepseek/deepseek-v3.2-exp实验版 V3.2——同样的 DSA 架构，训练配置与 V3.1-Terminus 对齐，专门用于隔离 DSA 影响的消融实验。deepseek/deepseek-v3.1-terminusDSA 之前的 V3.1 终态版——V3.2 公开对比的基线。deepseek/deepseek-r1DeepSeek 用强化学习训练的推理模型——设计取向不同；做重 CoT 任务时可改路由这里而非 V3.2-Speciale。deepseek/deepseek-v4-flash下一代——100 万 token 上下文、CSA 注意力、原生 agent 工具，价格在 flash 档。新项目值得优先评估。

动态与变更

2025-12-02

DeepSeek 发布 V3.2 技术报告：与 V3.2-Exp 同架构，扩大后训练后整体对标 GPT-5

DeepSeek 在 arXiv 2512.02556 发布完整 V3.2。论文确认 V3.2 与 9 月的 V3.2-Exp 架构完全一致，区别在于后训练算力——足以让 V3.2 在所报告基准上达到 GPT-5 同档水平。另发布 Speciale 变体，在推理上超过 GPT-5，并在 2025 年 IMO / IOI / ICPC / CMO 取得金牌级成绩；但它不支持工具调用、token 用量更高，更像研究目标，不是通用路由对象。

TheRouter 二创arxiv.org/abs/2512.02556 ↗

2025-09-29

DeepSeek 发布 V3.2-Exp：首次引入稀疏注意力（DSA），API 价格下降超 50%

DeepSeek 将 V3.2-Exp 作为实验性版本发布，用 V3.1-Terminus 训练配置对照来验证 DSA 注意力机制。DSA 基于 MLA 构建——由 lightning indexer 与每 query token 的细粒度选择机制组成——在公开基准上无可观测质量下降的同时显著降低长上下文注意力成本。DeepSeek 因此在发布时把托管 API 价格降低了 50% 以上。

TheRouter 二创api-docs.deepseek.com ↗

常见问题

V3.2 和 V3.2-Exp 有什么区别？

架构完全相同（V3.2 论文有明确说明）。V3.2-Exp 于 2025 年 9 月先发布，作为对 DSA 的实验性验证，训练配置与 V3.1-Terminus 对齐以隔离注意力机制效果。完整版 V3.2（2025 年 12 月）保留同样模型，但扩大了后训练算力，使其在所报告基准上达到 GPT-5 同档水平。

arxiv.org ↗

什么是 DeepSeek Sparse Attention（DSA）？

DSA 是基于 MLA（多头潜在注意力）构建的细粒度稀疏注意力机制。包含两部分：lightning indexer 对每个先前 token 与当前 query 的相关性打分，以及细粒度选择机制决定 query 实际关注哪些 token。目的在于把长上下文注意力的 O(L²) 成本降下来，同时在公开基准上无可观测质量损失——DeepSeek 在 V3.2-Exp 发布时凭此把 API 价格下调超过 50%。

arxiv.org ↗

DeepSeek V3.2 可以自托管吗？

可以。权重以 DeepSeek Model License（允许商用）发布，代码以 MIT 许可发布。SGLang、vLLM、LMDeploy、TensorRT-LLM、LightLLM、DeepSeek-Infer 都提供 FP8 与 BF16 参考推理配方，覆盖 NVIDIA 与 AMD GPU；华为昇腾 NPU 通过 MindIE 支持。多数团队的实际起点是 SGLang + FP8，张量并行度按模型卡建议设置。

github.com ↗

应该用 V3.2 还是等 V4？

DeepSeek-V4 已于 2026 年 4 月 24 日发布，带来 100 万 token 上下文、新的 Compressed Sparse Attention（CSA）变体与原生 agent 工具——新项目应在默认选 V3.2 之前先评估 V4（v4-flash 重成本，v4-pro 重质量）。当你需要开源自托管 fallback、或 V4 价格对工作负载不划算时，V3.2 仍然是合适的选择。

V3.2 接受图像输入吗？

不接受。V3.2 是纯文本进/纯文本出。图像输入请改路由 Claude Opus 4.7 或 Amazon Nova 2 Lite；图像输出请路由专门的图像生成模型。

事实档案 — 本页每条断言可在此回溯来源

来源	URL	采集于
发布日期（V3.2 正式版）	arxiv.org ↗	2026-05-22	已核实
V3.2-Exp 发布	api-docs.deepseek.com ↗	2026-05-22	已核实
架构	arxiv.org ↗	2026-05-22	已核实
预训练 token 量（V3 主干）	github.com ↗	2026-05-22	已核实
训练数据截止	—	—	未知
许可——代码	github.com ↗	2026-05-22	已核实
许可——权重	github.com ↗	2026-05-22	已核实
支持的推理后端	github.com ↗	2026-05-22	已核实
后继版本	—	—	已核实
MMLU (EM, Chat)	github.com ↗	2026-05-22	待核实
HumanEval-Mul (Pass@1, Chat)	github.com ↗	2026-05-22	待核实
MATH-500 (EM, Chat)	github.com ↗	2026-05-22	待核实
GSM8K (8-shot EM, Base)	github.com ↗	2026-05-22	待核实
GPQA-Diamond (Pass@1, Chat)	github.com ↗	2026-05-22	待核实
LiveCodeBench (Pass@1-COT)	github.com ↗	2026-05-22	待核实
AIME 2024 (Pass@1)	github.com ↗	2026-05-22	待核实
GPT-5 comparison (qualitative)	arxiv.org ↗	2026-05-22	待核实
DeepSeek 发布 V3.2 技术报告：与 V3.2-Exp 同架构，扩大后训练后整体对标 GPT-5	arxiv.org/abs/2512.02556 ↗	2026-05-22	已核实
DeepSeek 发布 V3.2-Exp：首次引入稀疏注意力（DSA），API 价格下降超 50%	api-docs.deepseek.com ↗	2026-05-22	已核实
V3.2 和 V3.2-Exp 有什么区别？	arxiv.org ↗	2026-05-22	待核实
什么是 DeepSeek Sparse Attention（DSA）？	arxiv.org ↗	2026-05-22	待核实
DeepSeek V3.2 可以自托管吗？	github.com ↗	2026-05-22	待核实