Назад к моделям

DeepSeek V3.2

deepseekdeepseek/deepseek-v3.2

DeepSeek V3.2 (685B total, 37B active MoE) harmonizes high computational efficiency with superior reasoning and agent performance. Features DeepSeek Sparse Attention for long-context efficiency and a scalable reinforcement learning framework. Excels at long-context reasoning, tool-using agents, function calling, JSON output, and FIM.

DeepSeek-V3.2 — open-weight развитие семейства DeepSeek-V3, выпущенное в два этапа: экспериментальный V3.2-Exp в сентябре 2025 года, затем полный V3.2 с техническим отчётом arXiv 2512.02556 от 2 декабря 2025 года. Сохраняется MoE-бэкбон 671B параметров / 37B активных, но добавлен DeepSeek Sparse Attention (DSA) — мелкозернистый механизм разрежённого внимания, который снижает стоимость инференса на длинном контексте, сохраняя качество на уровне V3.1-Terminus.

Для оператора TheRouter V3.2 — чемпион по соотношению цены и качества в open-weight-тире. DeepSeek сообщает, что архитектура DSA позволила снизить стоимость API более чем на 50% к моменту запуска V3.2-Exp по сравнению с V3.1. Код выпущен под MIT, веса — под мягкой Model License, обе допускают коммерческое использование. Инференс поддерживается в SGLang, vLLM, LMDeploy, TensorRT-LLM, LightLLM, DeepSeek-Infer в FP8/BF16 на NVIDIA и AMD GPU, а также на Huawei Ascend NPU через MindIE — то есть путь self-host fallback реально жизнеспособен, а не только формально объявлен.

Когда выбирать
  • Reasoning-задачи с жёсткими требованиями к цене — DeepSeek V3.2 близок к закрытым флагманам на MMLU, MATH, HumanEval, но стоит в разы меньше
  • Задачи с длинным контекстом, где низкая стоимость внимания DSA реально окупается — анализ репозитория, суммирование длинных текстов, CoT по большим документам
  • Self-host параллельно с хостингом — те же веса и токенизатор, плавный fallback при инцидентах или требованиях комплаенса
  • Агенты с инструментами, которым нужна надёжность JSON / function-calling без флагманской цены
Когда не выбирать
  • Нативный vision или мультимодальный ввод — V3.2 работает text-in / text-out; для изображений маршрутизируйте на Claude Opus 4.7 или Amazon Nova 2 Lite
  • Глубокий reasoning сверх обычного чата — для этого у DeepSeek есть V3.2-Speciale (без вызова инструментов, большее потребление токенов); не всегда подходящий target для маршрутизации
  • Критические продакшен-пути, где V4 уже жизнеспособен — DeepSeek выпустил V4 в апреле 2026 с контекстом 1M и Compressed Sparse Attention; новые проекты сначала оценивайте V4
Размер контекста
128K
Максимальный вывод
33K
Цена Входза 1M токенов
$0.960за 1 млн токенов
Цена Выходза 1M токенов
$2.88за 1 млн токенов

Модальности

ТекстТекст

Разбивка цен

ТипСтавка
Вход$0.960 за 1 млн токенов
Выход$2.88 за 1 млн токенов

Поддерживаемые параметры

temperaturemax_tokenstop_ptoolstool_choiceresponse_formatstop

Характеристики

Дата релиза (V3.2 полная)2025-12-02 (тех. отчёт на arXiv)arxiv.orgпроверено
Релиз V3.2-ExpСентябрь 2025 (эксперимент, дебют DSA)api-docs.deepseek.comпроверено
АрхитектураMoE 671B / активных 37B; MLA (Multi-Head Latent Attention) + DSA (DeepSeek Sparse Attention); RoPE; цель обучения с предсказанием нескольких токеновarxiv.orgпроверено
Токены претрейна (бэкбон V3)14,8 триллионаgithub.comпроверено
Дата отсечения данныхНе раскрытонеизвестно
Лицензия — кодMITgithub.comпроверено
Лицензия — весаDeepSeek Model License (коммерческое использование разрешено)github.comпроверено
Поддерживаемые backend инференсаSGLang, vLLM v0.6.6+, LMDeploy, TensorRT-LLM, LightLLM, DeepSeek-Infer Demo; FP8 + BF16; NVIDIA + AMD GPU; Huawei Ascend NPU через MindIEgithub.comпроверено
ПреемникDeepSeek-V4 (24 апреля 2026) — контекст 1M, Compressed Sparse Attention (CSA), нативный агентский тулингпроверено
BenchmarkDistributionScoreSource
MMLU (EM, Chat)
Из README V3 — бенчмарки V3.2 сообщаются на уровне V3.1-Terminus, поэтому базовая цифра V3 остаётся в пределах шума.
88.5github.com
HumanEval-Mul (Pass@1, Chat)
82.6github.com
MATH-500 (EM, Chat)
90.2github.com
GSM8K (8-shot EM, Base)
89.3github.com
GPQA-Diamond (Pass@1, Chat)
59.1github.com

Примеры API

Для новых интеграций используйте глобальный endpoint api.therouter.ai из примеров ниже; старый China accelerated endpoint выведен из эксплуатации.

cURL
curl https://api.therouter.ai/v1/chat/completions   -H "Content-Type: application/json"   -H "Authorization: Bearer $THE_ROUTER_API_KEY"   -d '{
    "model": "deepseek/deepseek-v3.2",
    "messages": [
      {"role": "user", "content": "Summarize the key points from this input."}
    ]
  }'

Chat completion

Стандартный chat через OpenAI-совместимую поверхность TheRouter. TheRouter нормализует tool-calling и response_format поверх провайдера — клиентский код остаётся переносимым между DeepSeek, Anthropic и OpenAI.

cURL
curl https://api.therouter.ai/v1/chat/completions \
  -H "Authorization: Bearer $THEROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v3.2",
    "messages": [{"role": "user", "content": "Prove that the sum of two odd integers is even."}]
  }'

Ещё от deepseek

Похожие модели

Аналоги в других провайдерах

Новости и изменения

2025-12-02

DeepSeek публикует тех. отчёт V3.2 — та же архитектура DSA, что и в V3.2-Exp, масштабированный post-training выводит её на уровень GPT-5

DeepSeek выпустил полный V3.2 в arXiv 2512.02556. Статья подтверждает, что V3.2 использует ту же архитектуру, что и сентябрьский V3.2-Exp; разница — в post-training-бюджете, которого хватает, чтобы V3.2 встал в один ряд с GPT-5 по заявленному набору бенчмарков. Отдельная Speciale-вариация превосходит GPT-5 в reasoning, с золотом на IMO / IOI / ICPC / CMO 2025, но без вызова инструментов и с большим расходом токенов — это скорее исследовательская цель, чем универсальный пункт маршрутизации.

переработано TheRouterarxiv.org/abs/2512.02556
2025-09-29

DeepSeek запускает V3.2-Exp — дебют sparse attention (DSA), цена API падает более чем на 50%

DeepSeek выпустил V3.2-Exp как экспериментальный релиз, чтобы валидировать механизм DSA на известной базовой настройке обучения (V3.1-Terminus). DSA — это мелкозернистое sparse attention поверх MLA: lightning indexer и механизм выбора токенов под каждый запрос. Стоимость внимания на длинном контексте падает без заметной потери качества на публичных бенчмарках. Полученной эффективностью DeepSeek воспользовался, снизив цену хостед-API более чем на 50% к запуску.

переработано TheRouterapi-docs.deepseek.com

Частые вопросы

Чем V3.2 отличается от V3.2-Exp?

Архитектура одинаковая (это прямо сказано в статье V3.2). V3.2-Exp вышла раньше, в сентябре 2025, как экспериментальная валидация DSA с обучением, выровненным под V3.1-Terminus, чтобы изолировать эффект механизма. Полный V3.2 (декабрь 2025) использует ту же модель, но с увеличенным post-training-бюджетом, что выводит её на уровень GPT-5 по заявленным бенчмаркам.

Что такое DeepSeek Sparse Attention (DSA)?

DSA — это мелкозернистое sparse attention поверх MLA (Multi-Head Latent Attention). Два компонента: lightning indexer оценивает релевантность каждого предыдущего токена текущему запросу, и механизм fine-grained selection решает, на какие токены запрос реально обращает внимание. Цель — снизить O(L²) стоимость внимания на длинном контексте без заметной потери качества на публичных бенчмарках; благодаря этому DeepSeek снизил цену API более чем на 50% к запуску V3.2-Exp.

Можно ли запускать DeepSeek V3.2 на своём железе?

Да. Веса опубликованы под DeepSeek Model License (коммерческое использование разрешено), код — под MIT. Эталонные рецепты инференса есть для SGLang, vLLM, LMDeploy, TensorRT-LLM, LightLLM, DeepSeek-Infer в FP8 и BF16 на NVIDIA и AMD GPU. Huawei Ascend NPU работает через MindIE. Для большинства команд практичный старт — SGLang на FP8 с тензорным параллелизмом по рекомендациям из карточки модели.

Использовать V3.2 или подождать V4?

DeepSeek-V4 вышел 24 апреля 2026 года с контекстом 1M, новой Compressed Sparse Attention (CSA) и нативным агентским тулингом — для новых проектов сначала оцените V4 (v4-flash по стоимости, v4-pro по качеству), прежде чем по умолчанию ставить V3.2. V3.2 остаётся правильным выбором, когда нужен open-weight self-host fallback или когда цена V4 не оправдана нагрузкой.

Принимает ли V3.2 изображения?

Нет. V3.2 работает text-in / text-out. Для изображений на входе маршрутизируйте на Claude Opus 4.7 или Amazon Nova 2 Lite; для генерации изображений используйте отдельную модель.

Реестр фактов — каждая утверждаемая величина имеет источник
источникURLполучено
Дата релиза (V3.2 полная)arxiv.org2026-05-22проверено
Релиз V3.2-Expapi-docs.deepseek.com2026-05-22проверено
Архитектураarxiv.org2026-05-22проверено
Токены претрейна (бэкбон V3)github.com2026-05-22проверено
Дата отсечения данныхнеизвестно
Лицензия — кодgithub.com2026-05-22проверено
Лицензия — весаgithub.com2026-05-22проверено
Поддерживаемые backend инференсаgithub.com2026-05-22проверено
Преемникпроверено
MMLU (EM, Chat)github.com2026-05-22к проверке
HumanEval-Mul (Pass@1, Chat)github.com2026-05-22к проверке
MATH-500 (EM, Chat)github.com2026-05-22к проверке
GSM8K (8-shot EM, Base)github.com2026-05-22к проверке
GPQA-Diamond (Pass@1, Chat)github.com2026-05-22к проверке
LiveCodeBench (Pass@1-COT)github.com2026-05-22к проверке
AIME 2024 (Pass@1)github.com2026-05-22к проверке
GPT-5 comparison (qualitative)arxiv.org2026-05-22к проверке
DeepSeek публикует тех. отчёт V3.2 — та же архитектура DSA, что и в V3.2-Exp, масштабированный post-training выводит её на уровень GPT-5arxiv.org/abs/2512.025562026-05-22проверено
DeepSeek запускает V3.2-Exp — дебют sparse attention (DSA), цена API падает более чем на 50%api-docs.deepseek.com2026-05-22проверено
Чем V3.2 отличается от V3.2-Exp?arxiv.org2026-05-22к проверке
Что такое DeepSeek Sparse Attention (DSA)?arxiv.org2026-05-22к проверке
Можно ли запускать DeepSeek V3.2 на своём железе?github.com2026-05-22к проверке
Поддержка