Назад к моделям

DeepSeek V3.2

deepseekdeepseek/deepseek-v3.2

Характеристики

Дата релиза (V3.2 полная)2025-12-02 (тех. отчёт на arXiv)arxiv.orgпроверено
Релиз V3.2-ExpСентябрь 2025 (эксперимент, дебют DSA)api-docs.deepseek.comпроверено
АрхитектураMoE 671B / активных 37B; MLA (Multi-Head Latent Attention) + DSA (DeepSeek Sparse Attention); RoPE; цель обучения с предсказанием нескольких токеновarxiv.orgпроверено
Токены претрейна (бэкбон V3)14,8 триллионаgithub.comпроверено
Дата отсечения данныхНе раскрытонеизвестно

Бенчмарки

BenchmarkDistributionScoreSource
MMLU (EM, Chat)
Из README V3 — бенчмарки V3.2 сообщаются на уровне V3.1-Terminus, поэтому базовая цифра V3 остаётся в пределах шума.
88.5github.com
HumanEval-Mul (Pass@1, Chat)
82.6github.com
MATH-500 (EM, Chat)
90.2github.com
GSM8K (8-shot EM, Base)
89.3github.com
GPQA-Diamond (Pass@1, Chat)
59.1github.com
LiveCodeBench (Pass@1-COT)
40.5github.com
AIME 2024 (Pass@1)
39.2github.com
GPT-5 comparison (qualitative)
Из тех. отчёта V3.2: с масштабированным post-training V3.2 сопоставим с GPT-5; высокопроизводительная вариация Speciale превосходит GPT-5 в reasoning и взяла золото на IMO / IOI / ICPC / CMO 2025.
Comparable to GPT-5; Speciale variant exceeds GPT-5arxiv.org
Реестр фактов — каждая утверждаемая величина имеет источник
источникURLполучено
Дата релиза (V3.2 полная)arxiv.org2026-05-22проверено
Релиз V3.2-Expapi-docs.deepseek.com2026-05-22проверено
Архитектураarxiv.org2026-05-22проверено
Токены претрейна (бэкбон V3)github.com2026-05-22проверено
Дата отсечения данныхнеизвестно
Лицензия — кодgithub.com2026-05-22проверено
Лицензия — весаgithub.com2026-05-22проверено
Поддерживаемые backend инференсаgithub.com2026-05-22проверено
Преемникпроверено
MMLU (EM, Chat)github.com2026-05-22к проверке
HumanEval-Mul (Pass@1, Chat)github.com2026-05-22к проверке
MATH-500 (EM, Chat)github.com2026-05-22к проверке
GSM8K (8-shot EM, Base)github.com2026-05-22к проверке
GPQA-Diamond (Pass@1, Chat)github.com2026-05-22к проверке
LiveCodeBench (Pass@1-COT)github.com2026-05-22к проверке
AIME 2024 (Pass@1)github.com2026-05-22к проверке
GPT-5 comparison (qualitative)arxiv.org2026-05-22к проверке
DeepSeek публикует тех. отчёт V3.2 — та же архитектура DSA, что и в V3.2-Exp, масштабированный post-training выводит её на уровень GPT-5arxiv.org/abs/2512.025562026-05-22проверено
DeepSeek запускает V3.2-Exp — дебют sparse attention (DSA), цена API падает более чем на 50%api-docs.deepseek.com2026-05-22проверено
Чем V3.2 отличается от V3.2-Exp?arxiv.org2026-05-22к проверке
Что такое DeepSeek Sparse Attention (DSA)?arxiv.org2026-05-22к проверке
Можно ли запускать DeepSeek V3.2 на своём железе?github.com2026-05-22к проверке
Поддержка