Google анонсировал новую эру голосового поиска
Google объявил о значительном обновлении своей поисковой системы, открывающей новые горизонты в обработке и ранжировании голосовых запросов. С помощью новой модели ИИ, основанной на речи, процесс поиска и ранжирования станет еще более эффективным, полностью исключив этап преобразования голоса в текст.
Предыдущая система, известная как Cascade ASR, преобразовывала голосовой запрос в текст, а затем применяла стандартные методы ранжирования. Однако этот подход имел существенный недостаток: очень часто возникали ошибки. В процессе преобразования аудио в текст некоторые контекстные детали могли теряться, что приводило к ошибкам в результатах.
Новая модель использует речь непосредственно в качестве входных данных для поиска и ранжирования, что значительно повышает точность и надежность результатов. Она также позволяет сохранить больше контекстной информации, что значительно улучшает качество поиска.
Новая система получила название Speech-to-Retrieval (S2R). Эта система была обучена на обширных наборах данных, содержащих пары аудиозапросов и соответствующих документов. Благодаря такому обучению она способна обрабатывать устные поисковые запросы без необходимости их преобразования в текст и сопоставлять их с подходящими документами.
В основе системы лежат две нейронные сети:
- Аудиокодер — первая из них преобразует устные запросы в векторное представление их значения.
- Кодер документов — вторая нейронная сеть, которая представляет письменную информацию в том же векторном формате.
Оба кодера обучаются сопоставлять устные запросы и текстовые документы в едином семантическом пространстве. Это означает, что связанные аудио и текстовые документы располагаются рядом друг с другом в соответствии с их семантическим сходством.