Очки с эхолокатором научили читать по губам речь хозяина
Они распознают слова с 95-процентной точностью с помощью нейросети
Американские инженеры разработали очки, способные распознавать речь по движению губ пользователя. Для этого в оправу очков встроены два миниатюрных эхолокатора, которые получают информацию о малейших движениях губ и кожи лица, а алгоритм машинного обучения предсказывает произнесенные слова и команды почти с человеческой точностью. Доклад по результатам работы представлен на конференции CHI’23.
Системы распознавания речи на основе мимики человека имеют большой потенциал практического применения. Они могут использоваться не только людьми с нарушениями речи, но и в тех случаях, когда говорить вслух становится невозможно, например, из-за сильного окружающего шума или в социально неприемлемых ситуациях.
Многие существующие технологии распознавания речи по мимике используют в качестве входных данных видеоизображение. Однако для этого необходимо, чтобы перед лицом пользователя постоянно находилась видеокамера, что может быть не всегда удобно и безопасно. Кроме того, в этом случае эффективность распознавания зависит от условий освещения.
Инженеры из Корнельского университета под руководством Чэня Чжана (Cheng Zhang) решили применить вместо видеокамер эхолокацию. Они создали технологию EchoSpeech, которая позволяет бесконтактным образом с помощью ультразвуковых волн отслеживать небольшие движения губ и кожи лица во время шепота. Разработанный прототип устройства представляет собой обычные очки, в нижней части оправы которых