YandexART 2.5 обогнала другие нейросети для генерации изображений

А исследователи из Яндекса рассказали о нейросети, способной распознавать голосовые команды даже в условиях шума.

YandexART 2.5 обогнала другие нейросети для генерации изображений

YandexART 2.5, разработанная в России, продемонстрировала впечатляющие результаты в сравнении с зарубежными аналогами. Она обошла по качеству генерации изображений Recraft V3, Ideogram v3.0 и Imagen 3.0 от Google.

На площадке «Арена Text‑to‑Image моделей» состоялся первый раунд тестирования, в ходе которого пользователи оценивали изображения, созданные разными моделями. YandexART 2.5 заняла первое и третье места, опередив конкурентов.

Важно отметить, что в процессе тестирования пользователи не знали, какая модель создала изображения, что позволило получить объективный рейтинг, основанный на реальных предпочтениях пользователей.

Исследователи из Яндекса рассказали о нейросети, способной распознавать голосовые команды даже в условиях шума

Эта технология уже используется в устройствах Яндекса, и теперь разработчики со всего мира смогут её использовать.

Статья была принята для публикации на крупнейшей международной конференции по речевым технологиям Interspeech, которая пройдёт в этом году в Нидерландах. На конференции также будут представлены работы от Microsoft, Google DeepMind, Google AR и других технологических компаний и научных центров.

Технология, описанная в научной работе, уже применяется в умных колонках и ТВ-станциях Яндекса и показала свою эффективность. Благодаря ей устройства с Алисой могут распознавать команды, произнесённые на фоне различных шумов, таких как музыка, звук текущей воды, вечеринка или стройка за окном. Например, пользователю не нужно выключать пылесос или повышать голос, чтобы быть услышанным.

Эта разработка позволит компаниям ускорить создание своих собственных ассистентов и устройств с голосовым управлением, а также снизить количество ложных срабатываний. В свою очередь, пользователи получат продукты с удобным голосовым управлением.

Обычно в умных устройствах и ассистентах используются алгоритмы эхоподавления, которые помогают распознавать голос на фоне музыки. Алгоритмы шумоподавления помогают уменьшить другие фоновые звуки, но они также ухудшают и человеческую речь. Для решения этой проблемы Яндекс разработал нейросетевой attention-механизм, который получает на вход два сигнала: с шумоподавлением и эхоподавлением. В каждый момент времени нейросеть выбирает наиболее чёткий сигнал, что позволяет распознавать команды на фоне различных звуков.

Теги: