Что кроется за понятием общения для робота, рассказали инженеры

Популярная механикаHi-Tech

Я слышу голоса: общительный массив для дружелюбного робота

Компания Promobot

Самая главная формула успеха – умение общаться с людьми, любил повторять небезызвестный Теодор Рузвельт. В случае робота эта формула принимает критическое значение, ведь без способности к общению робот превращается в обычный, пусть и высокотехнологичный механизм. Что кроется за понятием общения для робота, рассказали инженеры компании «Промобот» Валерий Титов и Владислав Сазонов. И как выяснилось, пара «микрофон-динамик» здесь устарела ещё в прошлом веке, а найти подходящую «голову» практически невозможно.

Для людей слышать и понимать речь собеседника - обыденное дело. Человек слышит, человек отвечает. Но когда речь заходит о том, чтобы нас услышал и понял не человек, а робот, начинаются проблемы. Общение с роботом может проходить в сложных условиях: множество источников шума, несколько одновременно говорящих с разных сторон людей. Обычные микрофоны могут реагировать даже на речь самого робота.

В своей жизни человек даже не замечает, насколько сложен процесс общения с технической точки зрения. Чтобы научить роботов «Промобота» общаться, нам пришлось найти идеальные уши, рот и главное - научить их правильно работать.

«Хонда» для российского робота

Для идеального слуха роботу требуется две вещи: хорошие уши и надежная голова, способная понять, что же уловили уши. Решением вполне может стать аппаратно-программный комплекс на базе микрофонного массива.

С набором микрофонов всё просто: на корпусе робота их можно разместить там, где требуется. С программным обеспечением всё значительно сложнее. Дело в том, что работая с ушами, голова должна как минимум:

  • вырезать в услышанном речь робота;
  • очистить звук от шума;
  • определить, есть ли в услышанном и очищенном речь;
  • определить источник речи;
  • сформировать луч (по английски эта процедура называется beamforming), чтобы усилить исходный звуковой сигнал от источника;
  • распознать речь в звуковой дорожке после всех манипуляций.

Как правило, последний шаг выносится за пределы зоны ответственности микрофонного массива.

2d8e8f77f8d368eb6c00e2cffae50b93.jpg

Готовых решений на мировом рынке оказалось не так много. Наиболее перспективной нам показалась совместная разработка Японского исследовательского института Хонды и Киотского университета под названием HARK (Honda research institute Japan Audition for Robots with Kyoto university).

fcbb8549de0635ab33b54e956020e205.jpg

HARK изначально проектировалась для роботов, работающих в антропоморфной среде, где требуется услышать и разобрать команды от человека. Это ПО с открытым кодом можно было связать с Robot Operating System (ROS), процесс обработки звука с микрофонов легко настраивался. Дополнительным преимуществом стала заявленная возможность одновременного определения нескольких источников звука. Казалось, это то, что нам нужно! Японцы настолько очаровали нас своей разработкой, что мы скоропостижно перестали искать альтернативу.

Смертельные миллиметры звука

Для первых тестов в 2014 году мы использовали микрофонный массив RASP LC на 8 микрофонах. Четыре располагались на центральной части груди корпуса робота, вокруг экрана; три - на верхней части груди, ближе к шее; и один - сзади по центру, у основания шеи. Уже после первого теста мы выявили две проблемы критического уровня: вибрация и сложность расчётов.

89dca29813daca49524d1349e942bcec.jpg

Дело в том, что робот сам по себе – это механизм с огромным количеством движущихся деталей. И каждое движение создавало так называемые наводки на микрофон – фоновый шум, требующий постоянного анализа.

Вторая проблема заключалась в обработке полученных аудиоданных. Разработчики HARK заложили два принципиально разных подхода аналитики аудиопотоков. Первый назван геометрическим и сводится к точному (до десятых долей миллиметра) описанию расположения микрофонов в пространстве с учетом их направлений. Второй, без специального названия, опирается на калибровочную модель. Её создают путем многократной записи через массив одной и той же записи с разных точек пространства вокруг массива.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что делать, если у кошки или собаки блохи: вот как от них избавиться Что делать, если у кошки или собаки блохи: вот как от них избавиться

Как заметить блох на питомце и что с ними делать?

Популярная механика
Бытовая магия: как привлечь удачу и деньги в дом? Бытовая магия: как привлечь удачу и деньги в дом?

Что нужно сделать, чтобы привлечь богатство и денежную удачу

VOICE
5 неожиданных технологий, которые изменили 3D-графику 5 неожиданных технологий, которые изменили 3D-графику

Какие технологии стояли у истоков современной 3D-графики

ТехИнсайдер
Пережил 70 бесполезных операций: история самой масштабной трансплантации лица Пережил 70 бесполезных операций: история самой масштабной трансплантации лица

Жизнь Патрика Хардисона, американского пожарного, изменилась в один миг

Cosmopolitan
«Королева небес»: Что известно о самолете за $400 миллионов, который Катар подарил Трампу «Королева небес»: Что известно о самолете за $400 миллионов, который Катар подарил Трампу

Как Америке катарцы подарили самолет.

Maxim
Конец фильма: Боузмен, Хьюстон, Ли и другие актеры, не дожившие до премьеры Конец фильма: Боузмен, Хьюстон, Ли и другие актеры, не дожившие до премьеры

Несколько актеров, которые не смогли увидеть результат своих трудов

Cosmopolitan
Успеть за пятнадцать минут Успеть за пятнадцать минут

Город — источник стресса. Можно ли это изменить?

AD
Как «богатый клоун» Моргенштерн окончательно порвал шоу-биз шутовской свадьбой Как «богатый клоун» Моргенштерн окончательно порвал шоу-биз шутовской свадьбой

За эпатажем и скандальностью Моргенштерна скрывается что-то большее

Cosmopolitan
Археологи обнаружили 36 погребений ацтеков в городе Тлателолько Археологи обнаружили 36 погребений ацтеков в городе Тлателолько

Находки свидетельствуют о повторном заселении города после испанского завоевания

N+1
Генетики выявили три предковые группы современных японцев Генетики выявили три предковые группы современных японцев

Ученые секвенировали 12 древних геномов

N+1
Что делать, если не получается достичь баланса между работой и личной жизнью Что делать, если не получается достичь баланса между работой и личной жизнью

Баланс между работой и личной жизнью – в вашем гардеробе

GQ
Некоторые мошенники перестали сами взламывать компании: им проще поделиться выкупом с сообщником «изнутри» Некоторые мошенники перестали сами взламывать компании: им проще поделиться выкупом с сообщником «изнутри»

Мошенники предлагают запустить вредоносное ПО на корпоративных серверах

VC.RU
Абьюз 80 уровня: девушка оказалась в инвалидной коляске из-за ревнивого бывшего Абьюз 80 уровня: девушка оказалась в инвалидной коляске из-за ревнивого бывшего

Парень сбросил девушке на спину бетонную плиту, а затем покончил с собой

Cosmopolitan
Самцов кальмаров заподозрили в заботе о потомстве Самцов кальмаров заподозрили в заботе о потомстве

Самцы кальмаров заинтересовались условиями, в которых будет расти их потомство

N+1
Маск, Цукерберг, Безос: кто обещал людям вечную жизнь Маск, Цукерберг, Безос: кто обещал людям вечную жизнь

Рассказываем, кто и как сегодня борется за бессмертие

РБК
Сюрреалистические леденцы Сюрреалистические леденцы

Творчество Сальвадора Дали украшает прилавки практически всех магазинов

Вокруг света
Как перестать быть вежливым и полюбить безумное порно Как перестать быть вежливым и полюбить безумное порно

О реконструкции непристойности в фильме Раду Жуде «Безумное кино для взрослых»

Weekend
Учат в школе: 9 фактов о подготовке водителей в разных странах мира Учат в школе: 9 фактов о подготовке водителей в разных странах мира

Подготовке водителей в разных странах мира

Вокруг света
Как выглядели бы постаревшие звезды в своих фильмах сейчас? (Немного грустная галерея) Как выглядели бы постаревшие звезды в своих фильмах сейчас? (Немного грустная галерея)

Ничто так не демонстрирует быстротечность времени, как современные лица звезд

Maxim
Неудачные свидания: мужчины о том, что помешало им продолжить отношения Неудачные свидания: мужчины о том, что помешало им продолжить отношения

Истории свиданий, которые перечеркнули надежду на будущее отношений

Psychologies
Зачем вам этот тиндер? А откуда вы знаете, что я там есть? Зачем вам этот тиндер? А откуда вы знаете, что я там есть?

О сомнительной пользе приложений для знакомств

GQ
Здоровый сон: фильмы, которые успокоят вас вечером Здоровый сон: фильмы, которые успокоят вас вечером

Фильмы, которые помогут согреться после трудного дня

GQ
Без маски. Игорь Свинаренко: «Тайна исповеди» Без маски. Игорь Свинаренко: «Тайна исповеди»

Новая книга журналиста Игоря Свинаренко рассказывает о XX веке.

СНОБ
Ситуация рода Ситуация рода

Психолог Ирина Млодик о новом отношении к зрелости и ее возможностях

Seasons of life
Чем заняться на Байкале: 6 активностей, которые стоит попробовать на Славном море Чем заняться на Байкале: 6 активностей, которые стоит попробовать на Славном море

Байкал ждет тебя в гости

Playboy
Почему надо есть шпинат, но делать это осторожно Почему надо есть шпинат, но делать это осторожно

Моряк Папай не зря любил шпинат: он не только вкусный, но и полезный

РБК
В корне проблемы В корне проблемы

Самые актуальные вопросы о красоте волос

Лиза
Учиться или играть? И то, и другое Учиться или играть? И то, и другое

«Учиться – скучно». Что может возразить школа на этот упрёк учеников?

Домашний Очаг
Жизнь в розовом цвете Жизнь в розовом цвете

Стиль французской классики на современный лад

SALON-Interior
Предсказать будущее на 8 секунд Предсказать будущее на 8 секунд

Российский дата-сайнтист решал важную задачу в индустрии автономного вождения

Популярная механика
Открыть в приложении