Российские ИТ-специалисты разработали инновационный нейросетевой алгоритм, позволяющий виртуальным ассистентам и умным устройствам точнее распознавать голосовые команды даже в условиях сильного шума.
Этот передовой метод уже успешно применяется в продукте компании "Яндекс", обеспечивая высокую надежность работы голосовых помощников при различных погодных и бытовых условиях.
Ранее не существовало универсального решения, которое бы одинаково хорошо функционировало и в лабораторных условиях, и в реальности. Новая технология позволяет ускорить развитие голосовых интерфейсов, повысить их точность и сделать умные устройства более удобными и надежными.
Алгоритм использует системы эхоподавления и шумоподавления для устранения посторонних звуков, таких как музыка или бытовой шум, при сохранении качества голосовых команд. Однако такие системы зачастую ухудшают качество речи, что мешает распознаванию команд.
Разработчики из "Яндекса" создали нейросетевой механизм внимания, который одновременно обрабатывает два сигнала: с эхоподавлением и шумоподавлением. В каждый момент времени нейросеть выбирает наиболее четкий сигнал, что способствует более точному распознаванию команд как в лабораторных условиях, так и в домашней обстановке.
Обучение алгоритма проходило на наборах данных с семью микрофонами, включая записи, сделанные в домашних условиях и в специализированных лабораториях. Тестирование показало превосходство нового метода по сравнению с существующими системами, а также его способность эффективно работать на устройствах с ограниченными ресурсами.
Данная разработка уже применяется в умных колонках и телевизионных приставках "Яндекса", что позволяет управлять гаджетами даже при громкой музыке, шуме воды или работающем пылесосе. Раскрытие этой технологии ускорит создание новых голосовых ассистентов и устройств, обладающих повышенной точностью распознавания команд.