DeepSeek V3.2

deepseekdeepseek/deepseek-v3.2

DeepSeek V3.2 (685B total, 37B active MoE) harmonizes high computational efficiency with superior reasoning and agent performance. Features DeepSeek Sparse Attention for long-context efficiency and a scalable reinforcement learning framework. Excels at long-context reasoning, tool-using agents, function calling, JSON output, and FIM.

Карточка модели на Hugging Face ↗Технический отчёт DeepSeek-V3.2 (arXiv) ↗Анонс DeepSeek-V3.2-Exp ↗GitHub — DeepSeek-V3.2-Exp ↗

DeepSeek-V3.2 — open-weight развитие семейства DeepSeek-V3, выпущенное в два этапа: экспериментальный V3.2-Exp в сентябре 2025 года, затем полный V3.2 с техническим отчётом arXiv 2512.02556 от 2 декабря 2025 года. Сохраняется MoE-бэкбон 671B параметров / 37B активных, но добавлен DeepSeek Sparse Attention (DSA) — мелкозернистый механизм разрежённого внимания, который снижает стоимость инференса на длинном контексте, сохраняя качество на уровне V3.1-Terminus.

Для оператора TheRouter V3.2 — чемпион по соотношению цены и качества в open-weight-тире. DeepSeek сообщает, что архитектура DSA позволила снизить стоимость API более чем на 50% к моменту запуска V3.2-Exp по сравнению с V3.1. Код выпущен под MIT, веса — под мягкой Model License, обе допускают коммерческое использование. Инференс поддерживается в SGLang, vLLM, LMDeploy, TensorRT-LLM, LightLLM, DeepSeek-Infer в FP8/BF16 на NVIDIA и AMD GPU, а также на Huawei Ascend NPU через MindIE — то есть путь self-host fallback реально жизнеспособен, а не только формально объявлен.

Когда выбирать

• Reasoning-задачи с жёсткими требованиями к цене — DeepSeek V3.2 близок к закрытым флагманам на MMLU, MATH, HumanEval, но стоит в разы меньше
• Задачи с длинным контекстом, где низкая стоимость внимания DSA реально окупается — анализ репозитория, суммирование длинных текстов, CoT по большим документам
• Self-host параллельно с хостингом — те же веса и токенизатор, плавный fallback при инцидентах или требованиях комплаенса
• Агенты с инструментами, которым нужна надёжность JSON / function-calling без флагманской цены

Когда не выбирать

• Нативный vision или мультимодальный ввод — V3.2 работает text-in / text-out; для изображений маршрутизируйте на Claude Opus 4.7 или Amazon Nova 2 Lite
• Глубокий reasoning сверх обычного чата — для этого у DeepSeek есть V3.2-Speciale (без вызова инструментов, большее потребление токенов); не всегда подходящий target для маршрутизации
• Критические продакшен-пути, где V4 уже жизнеспособен — DeepSeek выпустил V4 в апреле 2026 с контекстом 1M и Compressed Sparse Attention; новые проекты сначала оценивайте V4

Размер контекста

128K

Максимальный вывод

33K

Цена Входза 1M токенов

$0.960за 1 млн токенов

Цена Выходза 1M токенов

$2.88за 1 млн токенов

Модальности

Текст→Текст

Разбивка цен

Тип	Ставка
Вход	$0.960 за 1 млн токенов
Выход	$2.88 за 1 млн токенов

Поддерживаемые параметры

temperaturemax_tokenstop_ptoolstool_choiceresponse_formatstop

Характеристики

Дата релиза (V3.2 полная)	2025-12-02 (тех. отчёт на arXiv)arxiv.org ↗	проверено
Релиз V3.2-Exp	Сентябрь 2025 (эксперимент, дебют DSA)api-docs.deepseek.com ↗	проверено
Архитектура	MoE 671B / активных 37B; MLA (Multi-Head Latent Attention) + DSA (DeepSeek Sparse Attention); RoPE; цель обучения с предсказанием нескольких токеновarxiv.org ↗	проверено
Токены претрейна (бэкбон V3)	14,8 триллионаgithub.com ↗	проверено
Дата отсечения данных	Не раскрыто	неизвестно
Лицензия — код	MITgithub.com ↗	проверено
Лицензия — веса	DeepSeek Model License (коммерческое использование разрешено)github.com ↗	проверено
Поддерживаемые backend инференса	SGLang, vLLM v0.6.6+, LMDeploy, TensorRT-LLM, LightLLM, DeepSeek-Infer Demo; FP8 + BF16; NVIDIA + AMD GPU; Huawei Ascend NPU через MindIEgithub.com ↗	проверено
Преемник	DeepSeek-V4 (24 апреля 2026) — контекст 1M, Compressed Sparse Attention (CSA), нативный агентский тулинг	проверено

Бенчмарки

Все бенчмарки →

Benchmark	Score	Source
MMLU (EM, Chat) Из README V3 — бенчмарки V3.2 сообщаются на уровне V3.1-Terminus, поэтому базовая цифра V3 остаётся в пределах шума.	88.5	github.com ↗
HumanEval-Mul (Pass@1, Chat)	82.6	github.com ↗
MATH-500 (EM, Chat)	90.2	github.com ↗
GSM8K (8-shot EM, Base)	89.3	github.com ↗
GPQA-Diamond (Pass@1, Chat)	59.1	github.com ↗

Примеры API

Для новых интеграций используйте глобальный endpoint api.therouter.ai из примеров ниже; старый China accelerated endpoint выведен из эксплуатации.

cURL

curl https://api.therouter.ai/v1/chat/completions   -H "Content-Type: application/json"   -H "Authorization: Bearer $THE_ROUTER_API_KEY"   -d '{
    "model": "deepseek/deepseek-v3.2",
    "messages": [
      {"role": "user", "content": "Summarize the key points from this input."}
    ]
  }'

Гид по API

Полный API-справочник →

Chat completion

Стандартный chat через OpenAI-совместимую поверхность TheRouter. TheRouter нормализует tool-calling и response_format поверх провайдера — клиентский код остаётся переносимым между DeepSeek, Anthropic и OpenAI.

cURL

curl https://api.therouter.ai/v1/chat/completions \
  -H "Authorization: Bearer $THEROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek/deepseek-v3.2",
    "messages": [{"role": "user", "content": "Prove that the sum of two odd integers is even."}]
  }'

Ещё от deepseek

deepseek/deepseek-v3.2-expЭкспериментальный V3.2 — та же архитектура DSA, обучение выровнено с V3.1-Terminus, чтобы изолировать эффект DSA. Удобно для абляций.deepseek/deepseek-v3.1-terminusФинальный чекпойнт V3.1 до DSA — каноничная база для сравнения V3.2.deepseek/deepseek-r1Reasoning-модель DeepSeek с RL — иной дизайн; для задач с тяжёлым CoT маршрутизируйте сюда вместо V3.2-Speciale.deepseek/deepseek-v4-flashСледующее поколение — контекст 1M, CSA-внимание, нативный агентский тулинг по flash-цене. Для новых проектов стоит оценить первым.

Новости и изменения

2025-12-02

DeepSeek публикует тех. отчёт V3.2 — та же архитектура DSA, что и в V3.2-Exp, масштабированный post-training выводит её на уровень GPT-5

DeepSeek выпустил полный V3.2 в arXiv 2512.02556. Статья подтверждает, что V3.2 использует ту же архитектуру, что и сентябрьский V3.2-Exp; разница — в post-training-бюджете, которого хватает, чтобы V3.2 встал в один ряд с GPT-5 по заявленному набору бенчмарков. Отдельная Speciale-вариация превосходит GPT-5 в reasoning, с золотом на IMO / IOI / ICPC / CMO 2025, но без вызова инструментов и с большим расходом токенов — это скорее исследовательская цель, чем универсальный пункт маршрутизации.

переработано TheRouterarxiv.org/abs/2512.02556 ↗

2025-09-29

DeepSeek запускает V3.2-Exp — дебют sparse attention (DSA), цена API падает более чем на 50%

DeepSeek выпустил V3.2-Exp как экспериментальный релиз, чтобы валидировать механизм DSA на известной базовой настройке обучения (V3.1-Terminus). DSA — это мелкозернистое sparse attention поверх MLA: lightning indexer и механизм выбора токенов под каждый запрос. Стоимость внимания на длинном контексте падает без заметной потери качества на публичных бенчмарках. Полученной эффективностью DeepSeek воспользовался, снизив цену хостед-API более чем на 50% к запуску.

переработано TheRouterapi-docs.deepseek.com ↗

Частые вопросы

Чем V3.2 отличается от V3.2-Exp?

Архитектура одинаковая (это прямо сказано в статье V3.2). V3.2-Exp вышла раньше, в сентябре 2025, как экспериментальная валидация DSA с обучением, выровненным под V3.1-Terminus, чтобы изолировать эффект механизма. Полный V3.2 (декабрь 2025) использует ту же модель, но с увеличенным post-training-бюджетом, что выводит её на уровень GPT-5 по заявленным бенчмаркам.

arxiv.org ↗

Что такое DeepSeek Sparse Attention (DSA)?

DSA — это мелкозернистое sparse attention поверх MLA (Multi-Head Latent Attention). Два компонента: lightning indexer оценивает релевантность каждого предыдущего токена текущему запросу, и механизм fine-grained selection решает, на какие токены запрос реально обращает внимание. Цель — снизить O(L²) стоимость внимания на длинном контексте без заметной потери качества на публичных бенчмарках; благодаря этому DeepSeek снизил цену API более чем на 50% к запуску V3.2-Exp.

arxiv.org ↗

Можно ли запускать DeepSeek V3.2 на своём железе?

Да. Веса опубликованы под DeepSeek Model License (коммерческое использование разрешено), код — под MIT. Эталонные рецепты инференса есть для SGLang, vLLM, LMDeploy, TensorRT-LLM, LightLLM, DeepSeek-Infer в FP8 и BF16 на NVIDIA и AMD GPU. Huawei Ascend NPU работает через MindIE. Для большинства команд практичный старт — SGLang на FP8 с тензорным параллелизмом по рекомендациям из карточки модели.

github.com ↗

Использовать V3.2 или подождать V4?

DeepSeek-V4 вышел 24 апреля 2026 года с контекстом 1M, новой Compressed Sparse Attention (CSA) и нативным агентским тулингом — для новых проектов сначала оцените V4 (v4-flash по стоимости, v4-pro по качеству), прежде чем по умолчанию ставить V3.2. V3.2 остаётся правильным выбором, когда нужен open-weight self-host fallback или когда цена V4 не оправдана нагрузкой.

Принимает ли V3.2 изображения?

Нет. V3.2 работает text-in / text-out. Для изображений на входе маршрутизируйте на Claude Opus 4.7 или Amazon Nova 2 Lite; для генерации изображений используйте отдельную модель.

Реестр фактов — каждая утверждаемая величина имеет источник

источник	URL	получено
Дата релиза (V3.2 полная)	arxiv.org ↗	2026-05-22	проверено
Релиз V3.2-Exp	api-docs.deepseek.com ↗	2026-05-22	проверено
Архитектура	arxiv.org ↗	2026-05-22	проверено
Токены претрейна (бэкбон V3)	github.com ↗	2026-05-22	проверено
Дата отсечения данных	—	—	неизвестно
Лицензия — код	github.com ↗	2026-05-22	проверено
Лицензия — веса	github.com ↗	2026-05-22	проверено
Поддерживаемые backend инференса	github.com ↗	2026-05-22	проверено
Преемник	—	—	проверено
MMLU (EM, Chat)	github.com ↗	2026-05-22	к проверке
HumanEval-Mul (Pass@1, Chat)	github.com ↗	2026-05-22	к проверке
MATH-500 (EM, Chat)	github.com ↗	2026-05-22	к проверке
GSM8K (8-shot EM, Base)	github.com ↗	2026-05-22	к проверке
GPQA-Diamond (Pass@1, Chat)	github.com ↗	2026-05-22	к проверке
LiveCodeBench (Pass@1-COT)	github.com ↗	2026-05-22	к проверке
AIME 2024 (Pass@1)	github.com ↗	2026-05-22	к проверке
GPT-5 comparison (qualitative)	arxiv.org ↗	2026-05-22	к проверке
DeepSeek публикует тех. отчёт V3.2 — та же архитектура DSA, что и в V3.2-Exp, масштабированный post-training выводит её на уровень GPT-5	arxiv.org/abs/2512.02556 ↗	2026-05-22	проверено
DeepSeek запускает V3.2-Exp — дебют sparse attention (DSA), цена API падает более чем на 50%	api-docs.deepseek.com ↗	2026-05-22	проверено
Чем V3.2 отличается от V3.2-Exp?	arxiv.org ↗	2026-05-22	к проверке
Что такое DeepSeek Sparse Attention (DSA)?	arxiv.org ↗	2026-05-22	к проверке
Можно ли запускать DeepSeek V3.2 на своём железе?	github.com ↗	2026-05-22	к проверке