返回模型列表

DeepSeek V3.2

deepseekdeepseek/deepseek-v3.2

DeepSeek V3.2 (685B total, 37B active MoE) harmonizes high computational efficiency with superior reasoning and agent performance. Features DeepSeek Sparse Attention for long-context efficiency and a scalable reinforcement learning framework. Excels at long-context reasoning, tool-using agents, function calling, JSON output, and FIM.

DeepSeek-V3.2 是 DeepSeek-V3 家族的开源版演进,分两阶段发布:2025 年 9 月推出实验性的 V3.2-Exp,随后是 2025 年 12 月 2 日 arXiv 2512.02556 技术报告对应的完整版 V3.2。延续 671B 总参数 / 37B 激活的 MoE 主干,新增 DeepSeek Sparse Attention(DSA)——细粒度稀疏注意力机制,可在保持与 V3.1-Terminus 同等基准成绩的同时大幅降低长上下文推理成本。

对 TheRouter 路由层用户,V3.2 是开源档位的「质价比之王」。DeepSeek 称 DSA 架构在 V3.2-Exp 发布时相比 V3.1 实现了超过 50% 的 API 成本下降。代码采用 MIT 许可、权重采用宽松的 Model License,二者均允许商用。推理可在 SGLang、vLLM、LMDeploy、TensorRT-LLM、LightLLM、DeepSeek-Infer 上以 FP8/BF16 在 NVIDIA 与 AMD GPU 上运行,亦可通过 MindIE 在华为 Ascend NPU 上运行——意味着自托管 fallback 路径在工程上真实可行,不只是名义存在。

适合使用
  • 对成本敏感的推理任务——DeepSeek V3.2 在 MMLU、MATH、HumanEval 上接近闭源前沿模型,价格只是其零头
  • 可以真正受益于 DSA 长上下文降本的任务——整库分析、长文摘要、大文档上的 CoT 推理
  • 「自托管 + 托管」双轨——同样的权重和 tokenizer,故障演练或合规要求下平滑切换
  • 需要可靠 JSON / function-calling 但又不愿付旗舰价的工具型 agent
不适合使用
  • 原生视觉或多模态输入——V3.2 是纯文本进/纯文本出;图像输入请路由 Claude Opus 4.7 或 Amazon Nova 2 Lite
  • 超出常规对话的深度推理——这块 DeepSeek 有 V3.2-Speciale(不支持工具调用、token 用量更高);并不总是合适的路由目标
  • 对已可用 V4 的关键生产路径——DeepSeek 于 2026 年 4 月发布 V4,支持 100 万 token 上下文与 Compressed Sparse Attention;新项目应优先评估 V4
上下文长度
128K
最大输出
33K
输入价格每百万 tokens
$0.960每百万 Tokens
输出价格每百万 tokens
$2.88每百万 Tokens

模态能力

文本文本

价格明细

类型费率
输入$0.960 每百万 Tokens
输出$2.88 每百万 Tokens

支持参数

temperaturemax_tokenstop_ptoolstool_choiceresponse_formatstop

模型规格

发布日期(V3.2 正式版)2025-12-02(arXiv 技术报告)arxiv.org已核实
V3.2-Exp 发布2025 年 9 月(实验版,DSA 首次亮相)api-docs.deepseek.com已核实
架构671B 总参数 / 37B 激活的 MoE;MLA(多头潜在注意力)+ DSA(DeepSeek 稀疏注意力);RoPE;多 token 预测训练目标arxiv.org已核实
预训练 token 量(V3 主干)14.8 万亿github.com已核实
训练数据截止未公开披露未知
许可——代码MITgithub.com已核实
许可——权重DeepSeek Model License(允许商用)github.com已核实
支持的推理后端SGLang、vLLM v0.6.6+、LMDeploy、TensorRT-LLM、LightLLM、DeepSeek-Infer Demo;支持 FP8 与 BF16;NVIDIA 与 AMD GPU;通过 MindIE 支持华为昇腾 NPUgithub.com已核实
后继版本DeepSeek-V4(2026 年 4 月 24 日)——100 万 token 上下文、Compressed Sparse Attention(CSA)、原生 agent 工具已核实
BenchmarkDistributionScoreSource
MMLU (EM, Chat)
出自 V3 README——V3.2 公开基准与 V3.1-Terminus 同档,V3 基线在误差范围内仍适用。
88.5github.com
HumanEval-Mul (Pass@1, Chat)
82.6github.com
MATH-500 (EM, Chat)
90.2github.com
GSM8K (8-shot EM, Base)
89.3github.com
GPQA-Diamond (Pass@1, Chat)
59.1github.com

API 使用示例

所有新集成都应使用下方示例中的全球端点 api.therouter.ai;旧中国加速端点已下线。

cURL
curl https://api.therouter.ai/v1/chat/completions   -H "Content-Type: application/json"   -H "Authorization: Bearer $THE_ROUTER_API_KEY"   -d '{
    "model": "deepseek/deepseek-v3.2",
    "messages": [
      {"role": "user", "content": "Summarize the key points from this input."}
    ]
  }'

API 使用指南

完整 API 参考 →

Chat 调用

通过 TheRouter 的 OpenAI 兼容接口做标准对话。TheRouter 在上游统一处理 tool-calling 与 response_format,客户端代码可在 DeepSeek、Anthropic、OpenAI 之间保持可移植。

cURL
curl https://api.therouter.ai/v1/chat/completions \
  -H "Authorization: Bearer $THEROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v3.2",
    "messages": [{"role": "user", "content": "Prove that the sum of two odd integers is even."}]
  }'

deepseek 其他模型

同类模型

跨供应商的相似能力档位

动态与变更

2025-12-02

DeepSeek 发布 V3.2 技术报告:与 V3.2-Exp 同架构,扩大后训练后整体对标 GPT-5

DeepSeek 在 arXiv 2512.02556 发布完整 V3.2。论文确认 V3.2 与 9 月的 V3.2-Exp 架构完全一致,区别在于后训练算力——足以让 V3.2 在所报告基准上达到 GPT-5 同档水平。另发布 Speciale 变体,在推理上超过 GPT-5,并在 2025 年 IMO / IOI / ICPC / CMO 取得金牌级成绩;但它不支持工具调用、token 用量更高,更像研究目标,不是通用路由对象。

2025-09-29

DeepSeek 发布 V3.2-Exp:首次引入稀疏注意力(DSA),API 价格下降超 50%

DeepSeek 将 V3.2-Exp 作为实验性版本发布,用 V3.1-Terminus 训练配置对照来验证 DSA 注意力机制。DSA 基于 MLA 构建——由 lightning indexer 与每 query token 的细粒度选择机制组成——在公开基准上无可观测质量下降的同时显著降低长上下文注意力成本。DeepSeek 因此在发布时把托管 API 价格降低了 50% 以上。

常见问题

V3.2 和 V3.2-Exp 有什么区别?

架构完全相同(V3.2 论文有明确说明)。V3.2-Exp 于 2025 年 9 月先发布,作为对 DSA 的实验性验证,训练配置与 V3.1-Terminus 对齐以隔离注意力机制效果。完整版 V3.2(2025 年 12 月)保留同样模型,但扩大了后训练算力,使其在所报告基准上达到 GPT-5 同档水平。

什么是 DeepSeek Sparse Attention(DSA)?

DSA 是基于 MLA(多头潜在注意力)构建的细粒度稀疏注意力机制。包含两部分:lightning indexer 对每个先前 token 与当前 query 的相关性打分,以及细粒度选择机制决定 query 实际关注哪些 token。目的在于把长上下文注意力的 O(L²) 成本降下来,同时在公开基准上无可观测质量损失——DeepSeek 在 V3.2-Exp 发布时凭此把 API 价格下调超过 50%。

DeepSeek V3.2 可以自托管吗?

可以。权重以 DeepSeek Model License(允许商用)发布,代码以 MIT 许可发布。SGLang、vLLM、LMDeploy、TensorRT-LLM、LightLLM、DeepSeek-Infer 都提供 FP8 与 BF16 参考推理配方,覆盖 NVIDIA 与 AMD GPU;华为昇腾 NPU 通过 MindIE 支持。多数团队的实际起点是 SGLang + FP8,张量并行度按模型卡建议设置。

应该用 V3.2 还是等 V4?

DeepSeek-V4 已于 2026 年 4 月 24 日发布,带来 100 万 token 上下文、新的 Compressed Sparse Attention(CSA)变体与原生 agent 工具——新项目应在默认选 V3.2 之前先评估 V4(v4-flash 重成本,v4-pro 重质量)。当你需要开源自托管 fallback、或 V4 价格对工作负载不划算时,V3.2 仍然是合适的选择。

V3.2 接受图像输入吗?

不接受。V3.2 是纯文本进/纯文本出。图像输入请改路由 Claude Opus 4.7 或 Amazon Nova 2 Lite;图像输出请路由专门的图像生成模型。

事实档案 — 本页每条断言可在此回溯来源
来源URL采集于
发布日期(V3.2 正式版)arxiv.org2026-05-22已核实
V3.2-Exp 发布api-docs.deepseek.com2026-05-22已核实
架构arxiv.org2026-05-22已核实
预训练 token 量(V3 主干)github.com2026-05-22已核实
训练数据截止未知
许可——代码github.com2026-05-22已核实
许可——权重github.com2026-05-22已核实
支持的推理后端github.com2026-05-22已核实
后继版本已核实
MMLU (EM, Chat)github.com2026-05-22待核实
HumanEval-Mul (Pass@1, Chat)github.com2026-05-22待核实
MATH-500 (EM, Chat)github.com2026-05-22待核实
GSM8K (8-shot EM, Base)github.com2026-05-22待核实
GPQA-Diamond (Pass@1, Chat)github.com2026-05-22待核实
LiveCodeBench (Pass@1-COT)github.com2026-05-22待核实
AIME 2024 (Pass@1)github.com2026-05-22待核实
GPT-5 comparison (qualitative)arxiv.org2026-05-22待核实
DeepSeek 发布 V3.2 技术报告:与 V3.2-Exp 同架构,扩大后训练后整体对标 GPT-5arxiv.org/abs/2512.025562026-05-22已核实
DeepSeek 发布 V3.2-Exp:首次引入稀疏注意力(DSA),API 价格下降超 50%api-docs.deepseek.com2026-05-22已核实
V3.2 和 V3.2-Exp 有什么区别?arxiv.org2026-05-22待核实
什么是 DeepSeek Sparse Attention(DSA)?arxiv.org2026-05-22待核实
DeepSeek V3.2 可以自托管吗?github.com2026-05-22待核实
客服支持