Google анонсировал новую эру голосового поиска

Всё благодаря новой модели, которая использует речь непосредственно в качестве входных данных для поиска и ранжирования.

Google анонсировал новую эру голосового поиска

Google объявил о значительном обновлении своей поисковой системы, открывающей новые горизонты в обработке и ранжировании голосовых запросов. С помощью новой модели ИИ, основанной на речи, процесс поиска и ранжирования станет еще более эффективным, полностью исключив этап преобразования голоса в текст.

Предыдущая система, известная как Cascade ASR, преобразовывала голосовой запрос в текст, а затем применяла стандартные методы ранжирования. Однако этот подход имел существенный недостаток: очень часто возникали ошибки. В процессе преобразования аудио в текст некоторые контекстные детали могли теряться, что приводило к ошибкам в результатах.

Новая модель использует речь непосредственно в качестве входных данных для поиска и ранжирования, что значительно повышает точность и надежность результатов. Она также позволяет сохранить больше контекстной информации, что значительно улучшает качество поиска.

Новая система получила название Speech-to-Retrieval (S2R). Эта система была обучена на обширных наборах данных, содержащих пары аудиозапросов и соответствующих документов. Благодаря такому обучению она способна обрабатывать устные поисковые запросы без необходимости их преобразования в текст и сопоставлять их с подходящими документами.

В основе системы лежат две нейронные сети:

  1. Аудиокодер — первая из них преобразует устные запросы в векторное представление их значения.
  2. Кодер документов — вторая нейронная сеть, которая представляет письменную информацию в том же векторном формате.

Оба кодера обучаются сопоставлять устные запросы и текстовые документы в едином семантическом пространстве. Это означает, что связанные аудио и текстовые документы располагаются рядом друг с другом в соответствии с их семантическим сходством.

Теги: