Alibaba выпустила Qwen3: новое семейство ИИ-моделей, конкурирующее с Google и OpenAI

Китайская технологическая компания Alibaba в понедельник выпустила Qwen3, семейство ИИ-моделей, которые, по ее словам, могут сравниться с лучшими моделями, доступными от Google и OpenAI, а в некоторых случаях и превзойти их, пишет УНН со ссылкой на TechCrunch.

Детали

Большинство моделей доступны или скоро будут доступны для скачивания по "открытой" лицензии на платформе разработки ИИ Hugging Face и GitHub. Они варьируются в размере от 0,6 млрд параметров до 235 млрд параметров. Параметры приблизительно соответствуют навыкам решения проблем модели, а модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров.

Наращивание серий моделей китайского происхождения, таких как Qwen, увеличило давление на американские лаборатории, такие как OpenAI, с целью предоставления более эффективных ИИ-технологий. Они также побудили политиков ввести ограничения, направленные на ограничение возможности китайских ИИ-компаний получать чипы, необходимые для обучения моделей.

По словам Alibaba, модели Qwen3 являются "гибридными" моделями - им может понадобиться время, чтобы "рассуждать" над сложными проблемами или быстро отвечать на более простые запросы. Рассуждения позволяют моделям эффективно проверять факты, подобно таким моделям, как o3 от OpenAI, но за счет более высокой задержки.

"Мы бесшовно интегрировали режимы мышления и немышления, предлагая пользователям гибкость в управлении бюджетом мышления, - написала команда Qwen в сообщении в блоге. - Эта конструкция позволяет пользователям с большей легкостью настраивать бюджеты для конкретных задач".

Некоторые модели также используют архитектуру смеси экспертов (MoE), которая может быть более эффективной с точки зрения вычислений для ответов на запросы. MoE разбивает задачи на подзадачи и делегирует их более мелким специализированным "экспертным" моделям.

Модели Qwen3 поддерживают 119 языков, заявила Alibaba, и были обучены на наборе данных почти из 36 триллионов токенов. Токены - это необработанные биты данных, которые обрабатывает модель; 1 миллион токенов эквивалентен примерно 750 000 слов. Компания заявила, что Qwen3 обучался на сочетании учебников, "пар вопросов и ответов", фрагментов кода, данных, сгенерированных ИИ, и многом другом.

Эти улучшения, наряду с другими, значительно повысили возможности Qwen3, по сравнению с его предшественником Qwen2, заявила Alibaba. Ни одна из моделей Qwen3, похоже, не на голову выше последних топовых моделей, таких как o3 и o4-mini от OpenAI, но они демонстрируют высокие результаты, отмечает выжание.

На Codeforces, платформе для соревнований по программированию, самая большая модель Qwen3 – Qwen-3-235B-A22B – лишь немного превосходит o3-mini от OpenAI и Gemini 2.5 Pro от Google. Qwen-3-235B-A22B также превосходит o3-mini в последней версии AIME, сложного математического теста, и BFCL, теста для оценки способности модели "рассуждать" о проблемах.

Самая большая публичная модель Qwen3, Qwen3-32B, все еще конкурирует с рядом собственных и открытых ИИ-моделей, включая R1 китайской ИИ-лаборатории DeepSeek. Qwen3-32B превосходит модель o1 от OpenAI в нескольких тестах, включая бенчмарк кодирования LiveCodeBench.

Alibaba заявила, что Qwen3 "превосходит" возможности вызова инструментов, а также соблюдение инструкций и копирование определенных форматов данных. Кроме моделей для скачивания, Qwen3 доступна у облачных провайдеров, включая Fireworks AI и Hyperbolic.

Тухин Шривастава, сооснователь и генеральный директор облачного хостинга AI Baseten, сказал, что Qwen3 - это еще одна точка в тренде открытых моделей, идущих в ногу с закрытыми системами, такими как OpenAI.

"США удваивают ставки на ограничение продаж чипов в Китай и закупок из Китая, но такие модели, как Qwen 3, которые являются современными и открытыми [...], несомненно, будут использоваться внутри страны", - сказал он TechCrunch.

Источник: ИА UNN.

Главные новости дня

Новости партнеров