Что кроется за понятием общения для робота, рассказали инженеры

Популярная механикаHi-Tech

Я слышу голоса: общительный массив для дружелюбного робота

Компания Promobot

Самая главная формула успеха – умение общаться с людьми, любил повторять небезызвестный Теодор Рузвельт. В случае робота эта формула принимает критическое значение, ведь без способности к общению робот превращается в обычный, пусть и высокотехнологичный механизм. Что кроется за понятием общения для робота, рассказали инженеры компании «Промобот» Валерий Титов и Владислав Сазонов. И как выяснилось, пара «микрофон-динамик» здесь устарела ещё в прошлом веке, а найти подходящую «голову» практически невозможно.

Для людей слышать и понимать речь собеседника - обыденное дело. Человек слышит, человек отвечает. Но когда речь заходит о том, чтобы нас услышал и понял не человек, а робот, начинаются проблемы. Общение с роботом может проходить в сложных условиях: множество источников шума, несколько одновременно говорящих с разных сторон людей. Обычные микрофоны могут реагировать даже на речь самого робота.

В своей жизни человек даже не замечает, насколько сложен процесс общения с технической точки зрения. Чтобы научить роботов «Промобота» общаться, нам пришлось найти идеальные уши, рот и главное - научить их правильно работать.

«Хонда» для российского робота

Для идеального слуха роботу требуется две вещи: хорошие уши и надежная голова, способная понять, что же уловили уши. Решением вполне может стать аппаратно-программный комплекс на базе микрофонного массива.

С набором микрофонов всё просто: на корпусе робота их можно разместить там, где требуется. С программным обеспечением всё значительно сложнее. Дело в том, что работая с ушами, голова должна как минимум:

  • вырезать в услышанном речь робота;
  • очистить звук от шума;
  • определить, есть ли в услышанном и очищенном речь;
  • определить источник речи;
  • сформировать луч (по английски эта процедура называется beamforming), чтобы усилить исходный звуковой сигнал от источника;
  • распознать речь в звуковой дорожке после всех манипуляций.

Как правило, последний шаг выносится за пределы зоны ответственности микрофонного массива.

2d8e8f77f8d368eb6c00e2cffae50b93.jpg

Готовых решений на мировом рынке оказалось не так много. Наиболее перспективной нам показалась совместная разработка Японского исследовательского института Хонды и Киотского университета под названием HARK (Honda research institute Japan Audition for Robots with Kyoto university).

fcbb8549de0635ab33b54e956020e205.jpg

HARK изначально проектировалась для роботов, работающих в антропоморфной среде, где требуется услышать и разобрать команды от человека. Это ПО с открытым кодом можно было связать с Robot Operating System (ROS), процесс обработки звука с микрофонов легко настраивался. Дополнительным преимуществом стала заявленная возможность одновременного определения нескольких источников звука. Казалось, это то, что нам нужно! Японцы настолько очаровали нас своей разработкой, что мы скоропостижно перестали искать альтернативу.

Смертельные миллиметры звука

Для первых тестов в 2014 году мы использовали микрофонный массив RASP LC на 8 микрофонах. Четыре располагались на центральной части груди корпуса робота, вокруг экрана; три - на верхней части груди, ближе к шее; и один - сзади по центру, у основания шеи. Уже после первого теста мы выявили две проблемы критического уровня: вибрация и сложность расчётов.

89dca29813daca49524d1349e942bcec.jpg

Дело в том, что робот сам по себе – это механизм с огромным количеством движущихся деталей. И каждое движение создавало так называемые наводки на микрофон – фоновый шум, требующий постоянного анализа.

Вторая проблема заключалась в обработке полученных аудиоданных. Разработчики HARK заложили два принципиально разных подхода аналитики аудиопотоков. Первый назван геометрическим и сводится к точному (до десятых долей миллиметра) описанию расположения микрофонов в пространстве с учетом их направлений. Второй, без специального названия, опирается на калибровочную модель. Её создают путем многократной записи через массив одной и той же записи с разных точек пространства вокруг массива.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

8 способов обмануть свой мозг, когда вы на диете 8 способов обмануть свой мозг, когда вы на диете

Может ли ваш мозг саботировать ваши усилия по снижению веса?

Популярная механика
10 фильмов, изображающих Россию в самом неприглядном свете 10 фильмов, изображающих Россию в самом неприглядном свете

Фильмы про российскую действительность, от которой хочется схватиться за голову

Maxim
Динамически меняющая внешность маска поможет обмануть систему распознавания лиц Динамически меняющая внешность маска поможет обмануть систему распознавания лиц

Инженеры создали маску, способную изменять форму лица и цвет кожи

N+1
Почему электронному голосованию пока рано верить Почему электронному голосованию пока рано верить

Технология электронного голосования ненадежна

Forbes
Тишина в голове: может ли человек какое-то время вообще ни о чем не думать? Тишина в голове: может ли человек какое-то время вообще ни о чем не думать?

Можем ли мы добиться абсолютной ментальной тишины в голове?

ТехИнсайдер
Теория запаха Теория запаха

Зачем в парфюмерных лабораториях изучают влияние ароматов на мозг

Glamour
«Люси»: готовится к запуску первая миссия NASA по изучению троянских астероидов Юпитера «Люси»: готовится к запуску первая миссия NASA по изучению троянских астероидов Юпитера

Появилась возможность отправить космический корабль к троянским астроидам

Популярная механика
«Разжимая кулаки»: режиссер Кира Коваленко о победе в Каннах, Балагове и Сокурове «Разжимая кулаки»: режиссер Кира Коваленко о победе в Каннах, Балагове и Сокурове

Режиссер Кира Коваленко — о том, как снимать кино на языке, которого не знаешь

Forbes
Лучшее — детям Лучшее — детям

Кирилл Истомин оформил квартиру для своих друзей и их троих сыновей

AD
Не просто актриса: как голливудская звезда Хеди Ламарр изобрела технологию для Wi-Fi Не просто актриса: как голливудская звезда Хеди Ламарр изобрела технологию для Wi-Fi

Благодаря Хеди Ламарр появились Wi-Fi, Bluetooth и спутниковая связь

Forbes
Через Вселенную Через Вселенную

Посетить иные миры и звездные системы — что может быть увлекательнее!

Вокруг света
Умное и еще умнее. Кому на самом деле нужно электронное голосование Умное и еще умнее. Кому на самом деле нужно электронное голосование

Технический прогресс вдруг оказался против прогресса общественного

СНОБ
Паркет повсюду Паркет повсюду

Особенности деревянных полов для влажных помещений

Идеи Вашего Дома
С кем женщины категории MILF предпочитают заниматься сексом? С кем женщины категории MILF предпочитают заниматься сексом?

Почему «Пум» становится все больше и как мы к этому относимся?

Maxim
Потеря беременности: почему об этом нужно говорить Потеря беременности: почему об этом нужно говорить

Чтобы пережить горе потери беременности, нужно говорить о своих переживаниях

Psychologies
Не только «Ирония судьбы»: 10 фильмов Эльдара Рязанова, которые стоит посмотреть Не только «Ирония судьбы»: 10 фильмов Эльдара Рязанова, которые стоит посмотреть

Фильмы Эльдара Рязанова, которые ты обязательно должна посмотреть

Cosmopolitan
Чистая правда Чистая правда

А как работает и что вообще из себя представляет детокс-косметика?

Лиза
Предел функции Предел функции

Многоуровневый функциональный интерьер в духе конструктивистских ячеек XX века

AD
Кольцо просвещения: зачем России начинают строить крупнейшую рентгеновскую установку Кольцо просвещения: зачем России начинают строить крупнейшую рентгеновскую установку

СКИФ — источник рентгеновских лучей, обещает стать основой для новых открытий

Forbes
Почему талибы не откажутся от казней? Рассказывает боевик Почему талибы не откажутся от казней? Рассказывает боевик

Талибы возвращаются к одной из самых жестоких тактик прошлого

Maxim
Эти жуткие дырочки: что такое трипофобия и как ее лечить Эти жуткие дырочки: что такое трипофобия и как ее лечить

Почему мы боимся дырок и нужно ли из-за этого переживать

РБК
Перестаньте говорить детям эти 4 фразы, если хотите научить их самодисциплине — нейробиологи Перестаньте говорить детям эти 4 фразы, если хотите научить их самодисциплине — нейробиологи

Что нельзя говорить родителям, если они хотят воспитать в детях самодисциплину

Inc.
Анализ керамики позволил выяснить рацион питания древних жителей Латвии Анализ керамики позволил выяснить рацион питания древних жителей Латвии

Основными источниками пищи выступали пресноводная рыба, моллюски и свинина

N+1
Квантовая суперпозиция помогла измерить тонкое расщепление в ионах Квантовая суперпозиция помогла измерить тонкое расщепление в ионах

Физики продемонстрировали применимость метода спектроскопии с преобразованием

N+1
На лице написано На лице написано

Чем помогут косметологи, если нужно добиться внимания окружающих

Tatler
Могут ли существовать первичные черные дыры размером с атом Могут ли существовать первичные черные дыры размером с атом

Может ли темная материя являться скоплением первичных черных дыр

Популярная механика
Могучий БелАЗ-75710: грузоподъемность 450 тонн Могучий БелАЗ-75710: грузоподъемность 450 тонн

Осенью 2013 года легендарный БелАЗ в очередной раз заставил о себе говорить

Популярная механика
Кетоновая диета для женщин — меню на неделю Кетоновая диета для женщин — меню на неделю

Примерное меню кетоновой диеты на всю неделю для женщин

VOICE
Жизнь с гастритом: как правильно подобрать диету Жизнь с гастритом: как правильно подобрать диету

Какие виды диет существуют при гастрите и какой рацион выбрать при обострении

РБК
Спасательный круг Спасательный круг

Как справиться с потерей близкого человека и вернуться к нормальной жизни

Лиза
Открыть в приложении