Что там опять 04.06.2026

Google представил открытую ИИ-модель Gemma 4 12B

Она способна распознавать речь, различать говорящих и анализировать видео.

Google представил открытую ИИ-модель Gemma 4 12B

Компания Google анонсировала новую открытую мультимодальную модель Gemma 4 12B, обладающую 12 миллиардами параметров.

Согласно информации, опубликованной в блоге Google, ключевым преимуществом этой модели является её способность работать непосредственно на пользовательских устройствах, таких как ноутбуки с 16 ГБ оперативной или унифицированной памяти, без необходимости подключения к облачным сервисам. Gemma 4 12B занимает промежуточное положение в линейке Gemma 4, находясь между упрощённой версией E4B и более мощной моделью 26B с архитектурой Mixture of Experts.

Одной из основных технических особенностей Gemma 4 12B является отказ от отдельных модулей-энкодеров для обработки изображений и звука. В традиционных мультимодальных моделях данные сначала преобразуются в формат, понятный нейросети, с помощью отдельного кодировщика, после чего передаются в основную модель. В новой модели изображения и звук поступают напрямую в языковую часть: для изображений используется компактный модуль встраивания, а звуковой сигнал проецируется в то же пространство, что и текст. Это позволяет сократить задержки, уменьшить требования к памяти и упростить работу с различными типами данных.

Несмотря на свои компактные размеры, модель демонстрирует результаты, сопоставимые с более крупной версией 26B. Например, в тесте MMLU Pro она показывает 77,2 %, а в GPQA Diamond — 78,8 %. Gemma 4 12B стала первой моделью среднего уровня в семействе Gemma, которая нативно поддерживает обработку звука. Она способна распознавать речь, различать говорящих и анализировать видео.

Gemma 4 12B распространяется по открытой лицензии Apache 2.0 и доступна на таких популярных платформах, как Hugging Face, Kaggle, Ollama, LM Studio и Google AI Edge. По данным Google, семейство моделей Gemma 4 уже скачано более 150 миллионов раз. Основная цель этого релиза — предоставить возможность использования продвинутого ИИ для обработки текста, изображений, звука и видео на локальных устройствах, что особенно важно для ситуаций, требующих высокого уровня конфиденциальности, таких как медицина, финансы и работа с внутренними документами компаний.

Источник: блог Google

Google представил открытую ИИ-модель Gemma 4 12B

Читайте также по теме: