Google улучшил аудио-функции моделей Gemini
Компания Google представила бета-версию функции перевода в реальном времени, доступной через наушники. Новая технология позволяет пользователям слышать переведённую речь непосредственно в наушниках, при этом сохраняя уникальные особенности голоса говорящего. Помимо этого, Google интегрировала расширенные возможности Gemini в Google Translate, а также расширила инструменты для изучения языков в приложении.
По словам вице-президента Google по управлению продуктами Роуз Яо, новая функция превращает любые наушники в устройство для однонаправленного перевода в реальном времени. «Независимо от того, ведёте ли вы беседу на другом языке, слушаете речь или смотрите телешоу или фильм на иностранном языке, теперь вы можете просто надеть наушники, открыть приложение Translate, выбрать "Live translate" и услышать перевод на предпочитаемом языке в режиме реального времени», – отметила она.
Бета-версия функции уже доступна в приложении Translate на Android в США, Мексике и Индии. Технология работает с любыми наушниками и поддерживает более 70 языков. Google планирует расширить эту возможность на iOS и другие страны к 2026 году.
Интеграция Gemini в Google Translate обеспечит более точные и естественные переводы текста. Особое внимание уделено переводу фраз с нюансами, такими как сленг, идиомы и местные выражения. Например, идиома "stealing my thunder" («перехватить инициативу») будет переведена с учётом контекста, а не буквального значения каждого слова.
Google также расширила инструменты для изучения языков, добавив поддержку почти 20 новых стран, включая Германию, Индию, Швецию и Тайвань. Теперь те, кто изучает английский язык, смогут практиковать немецкий, а пользователи, говорящие на бенгальском, китайском (упрощённом), голландском, немецком, хинди, итальянском, румынском и шведском, смогут практиковать английский.
А также Google сообщил о внедрении ряда улучшений в голосового помощника Gemini, что сделает взаимодействие с искусственным интеллектом более интуитивным и эффективным. Основные цели обновлений – повышение способности модели справляться с комплексными задачами, точное следование инструкциям пользователя и ведение связных диалогов.
В рамках обновления инженеры Google сосредоточились на трёх ключевых аспектах Gemini 2.5 Flash Native Audio. Во-первых, была улучшена надёжность вызова внешних функций, что позволило Gemini точнее определять моменты, когда необходимо получить актуальную информацию в процессе диалога, интегрируя её в аудиоответ без нарушения естественного темпа разговора. Во-вторых, уровень соблюдения инструкций разработчиков вырос с 84 до 90 %, что способствует более эффективному выполнению сложных команд и повышению последовательности результатов. Также была улучшена способность модели извлекать контекст из предыдущих частей беседы, что способствует формированию более логичных и связных диалогов, как сообщает Android Authority.
Кроме того, Джош Вудворд, вице-президент подразделения Google Labs, занимающегося Gemini и AI Studio, объявил о двух дополнительных улучшениях. Теперь функция Gemini Live не будет прерывать пользователя, даже если он делает длительную паузу в речи. Также появилась возможность отключать микрофон во время ответа ИИ, чтобы избежать случайного прерывания.