В последние годы рынок искусственного интеллекта стремительно меняется. Внимание сосредоточено на больших языковых моделях — GPT, Claude, Gemini, LLaMA. Однако в 2024 году особенно ярко засверкала звезда китайской компании DeepSeek, сумевшей предложить архитектурно и концептуально новое решение, при этом оставаясь максимально открытой для сообщества.
Как так вышло, что малоизвестный ранее проект теперь упоминается наравне с OpenAI и Google? Ответ — в технологических новшествах DeepSeek, благодаря которым им удалось достичь производительности уровня GPT-4 при существенно меньших затратах ресурсов. Разберёмся, какие именно решения лежат в основе этого прорыва.
- Multi-Head Latent Attention (MLA): эффективность без потерь
- Mixture-of-Experts (MoE): масштаб с умом
- Multi-Token Prediction (MTP): ускоренное обучение
- Алгоритмы и «железо»: проектирование в унисон
- GRPO: RLHF без избыточности
- Обучение без начальной разметки: от RL-Zero к самосовершенствованию
- Прозрачность: ставка на открытость
- Заключение
Multi-Head Latent Attention (MLA): эффективность без потерь
Одна из главных архитектурных инноваций DeepSeek — MLA, усовершенствованная форма многоголового внимания. Классический подход требует хранения ключей и значений (KV-кэшей) для каждого токена, что создаёт проблемы с масштабируемостью, особенно на длинных контекстах.
DeepSeek предложил другой путь — сжимать пары ключ-значение в компактные латентные векторы, тем самым значительно снижая нагрузку на память. При этом в отличие от MQA (multi-query attention) и GQA (grouped-query attention), MLA не теряет в точности.
Кроме того, разработчики переработали Rotary Position Embedding (RoPE), устранив конфликты между MLA и позиционным кодированием. Они разделили вычисления на семантические и позиционные компоненты, благодаря чему MLA стабильно работает даже на длинных последовательностях.

Итог: экономия памяти и увеличение скорости без ущерба качеству — то, чего не смогли добиться конкуренты в закрытых системах.
Mixture-of-Experts (MoE): масштаб с умом
Механизм Mixture-of-Experts (MoE) давно используется в языковых моделях, включая GPT-4 и Gemini. Однако DeepSeek применяет его гораздо тоньше.
Во-первых, они ввели мелкозернистое разбиение экспертов — вместо крупной специализации, каждый эксперт отвечает за узкий сегмент. Это повышает точность маршрутизации токенов и позволяет достигать лучшей специализации.
Во-вторых, внедрён общий эксперт, который содержит базовые знания и подключается ко всем запросам. Он снижает избыточность в отдельных экспертных слоях и стабилизирует поведение модели.
Дополнительно была реализована оптимизация распределения нагрузки между GPU, предотвращающая простои и неравномерную загрузку, которые часто возникают в крупных MoE-моделях.
Результат — улучшенная производительность и масштабируемость без излишнего роста вычислительных затрат.
Multi-Token Prediction (MTP): ускоренное обучение
Обучение языковых моделей традиционно ведётся по схеме “один токен за раз”. DeepSeek пошёл дальше, внедрив Multi-Token Prediction — предсказание сразу нескольких следующих токенов на каждом шаге.
Это позволяет извлекать больше информации из каждого обучающего примера, ускоряя обучение при том же объёме данных. DeepSeek утверждает, что этот подход позволил добиться значительного прироста в эффективности, особенно на ранних этапах тренировки.
Хотя концепция MTP известна в теории, именно DeepSeek смог масштабировать её на уровне GPT-класса модели.
Алгоритмы и «железо»: проектирование в унисон
Одним из ключевых факторов успеха DeepSeek стало совместное проектирование модели и инфраструктуры обучения. Разработчики не только продумывали архитектуру модели, но и адаптировали её под специфику распределённых GPU-систем.
Некоторые технические решения:
- Параллелизация через кастомные pipeline-стратегии.
- Использование формата FP8 — компромисс между скоростью и точностью.
- Прямое управление передачей данных между GPU, чтобы минимизировать задержки.
В результате им удалось обучить модель DeepSeek-VL-7B на 14.8 триллионах токенов всего за 2.8 миллиона H800 GPU-часов. Оценочная стоимость — около $5 млн, что значительно ниже затрат на аналогичные модели от OpenAI или Google.
GRPO: RLHF без избыточности
Обучение с подкреплением от человеческой обратной связи (RLHF) традиционно требует отдельной Value-модели, что делает процесс сложным и ресурсоёмким.
В DeepSeek разработали альтернативу — Group Relative Policy Optimization (GRPO). Вместо абсолютной оценки качества, GRPO использует относительное сравнение ответов в пределах группы. Победитель усиливается, проигравший ослабляется.
Этот подход:
- Устраняет необходимость в Value-модели.
- Позволяет обучать напрямую на «сырых» ответах.
- Снижает затраты и упрощает настройку обучения.
GRPO стал краеугольным камнем RL-обучения моделей DeepSeek-R1-Zero и R1.
Обучение без начальной разметки: от RL-Zero к самосовершенствованию
DeepSeek пошёл дальше, предложив обучение без Supervised Fine-Tuning. В модели DeepSeek-R1-Zero не использовалась аннотированная человеческая разметка — только RL и генерация пояснительных рассуждений.
Позже появился гибридный пайплайн DeepSeek-R1:
- SFT (стандартная фаза обучения на разметке).
- GRPO с reward-моделью, учитывающей логичность, читабельность и полезность ответа.
- Дообучение на отфильтрованных собственных генерациях (Self-Rewarded Training).
Такой подход позволяет модели не просто повторять человеческие ответы, а самостоятельно вырабатывать стратегию мышления, улучшая рассуждения и соответствие ожиданиям пользователя.
Прозрачность: ставка на открытость

В отличие от OpenAI, Anthropic и Google, DeepSeek делает открытыми:
- веса моделей,
- архитектурные особенности,
- подробности обучения,
- исследовательские статьи.
Это не просто жест доброй воли, а стратегическое решение. Оно стимулирует сообщество к проверке, улучшению и внедрению моделей DeepSeek. В условиях, когда закрытые ИИ-системы становятся всё более монолитными, открытые инициативы приобретают огромную ценность.
Заключение
DeepSeek показал, что инновации — это не всегда дорогие кластеры и гигантские корпорации. Иногда это комбинация здравого смысла, глубокой инженерии и открытого мышления.
Благодаря Multi-Head Latent Attention, продвинутому MoE, ускоренному обучению, GRPO и прозрачному подходу, компания сумела переписать правила игры на поле больших языковых моделей. И если они продолжат двигаться в том же духе, то будущее искусственного интеллекта может оказаться гораздо более открытым, чем мы привыкли думать.