Alibaba выпустила 8 новых ИИ-моделей с гибридным мышлением

Компания Alibaba представила Qwen3, новое поколение ИИ-моделей с открытым кодом. В семейство Qwen3 вошли восемь моделей, включая шесть плотных и две модели типа MoE (смесь экспертов). Все модели доступны на платформах Hugging Face и GitHub.

Размер моделей варьируется от 0,6 миллиарда до 235 миллиардов параметров. Qwen3 умеет переключаться между “режимом рассуждений” для сложных задач, таких как математика, программирование и логические выводы, и “режимом быстрого реагирования” для оперативных, универсальных ответов.

Разработчики, использующие Qwen3 через API, могут управлять длительностью “рассуждений” (до 38 тысяч токенов), что позволяет оптимизировать баланс между интеллектуальной производительностью и вычислительными затратами.

Новые модели обучены на огромном наборе данных в 36 триллионов токенов, что вдвое больше, чем у предшественника Qwen2.5, и демонстрируют прогресс в рассуждениях, следовании инструкциям, использовании инструментов и многоязыковых задачах.

Ключевые особенности включают поддержку 119 языков и диалектов с высокими показателями в переводе и многоязычном выполнении инструкций. Модели поддерживают протокол Model Context Protocol (MCP) и надежный вызов функций, превосходя другие модели с открытым исходным кодом в сложных задачах.

Как утверждает команда Qwen, они интегрировали режимы рассуждений и быстрого реагирования, предоставляя пользователям возможность контролировать “бюджет рассуждений” и адаптировать его к конкретным задачам.

Тестирование показывает, что крупнейшая модель Qwen3-235B-A22B немного опережает OpenAI o3-mini и Google Gemini 2.5 Pro на платформе Codeforces для программирования. Она также превосходит o3-mini в AIME и BFCL, математическом тесте и тесте для оценки способности модели “рассуждать”.

Появление таких моделей, как Qwen, усиливает конкуренцию с американскими лабораториями вроде OpenAI, стимулируя их к разработке более мощных ИИ-технологий. В ответ на это, американские политики вводят ограничения, направленные на то, чтобы ограничить доступ китайских ИИ-компаний к чипам, необходимым для обучения таких моделей.

Источник — https://mltimes.ai/