Новый метод обучения поможет роботам исследовать неизвестный окружающий мир

ТехИнсайдерHi-Tech

Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу

Новый метод обучения с подкреплением, разработанный Tinkoff Research, поможет роботам исследовать неизвестный окружающий мир и не погибнуть при этом исследовании. Метод получил название SAC-RND (Soft Actor Critic — Random Network Distillation). Он работает в 20 раз быстрее и надежнее, чем аналогичные разработки других ИИ-компаний.

Владимир Губайловский

6163a12bd08659e6198670497e8dd18a_ce_1545x1030x515x0.jpg
Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу

Неизвестность — это всегда опасность. Исследование неизвестной среды требует в первую очередь точности и осторожности.

М

етод обучения с подкреплением, получивший название RND (random network distillation) разработали в 2018 году в компании OpenAI. Разработали, потому что встали в тупик. ИИ-агенты замечательно (или по крайней мере неплохо) играли во все игры Atari кроме одной — «Месть Монтесумы». В среднем человек набирает в эту игру 4700 очков, а ИИ-агенты, разработанные OpenAI, четко набирали 0. И было непонятно, почему такой отличный метод, как обучение с подкреплением в этом случае не работает.

И тогда инженеры OpenAI изменили стратегию вознаграждения (подкрепления). Они сказали ИИ-агенту: самая большая твоя награда — это новые знания. То есть, самая интересная ситуация та, которую трудно предсказать. Если ты не знаешь, что там за углом, стоит свернуть. 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Первопроходец в мире бодибилдинга и обладатель статуса «Мистер Вселенная»: история Микки Харгитея Первопроходец в мире бодибилдинга и обладатель статуса «Мистер Вселенная»: история Микки Харгитея

Как венгр Микки Харгитей бросил вызов американскому доминированию в бодибилдинге

ТехИнсайдер
Ещё раз о Вагнере… Ещё раз о Вагнере…

Творчество Вагнера у одних вызывает восторг, у других неприятие

Дилетант
Безопасность использования ИИ в банках: что важно знать Безопасность использования ИИ в банках: что важно знать

Как именно работает искусственный интеллект в финансовом секторе

Inc.
Дмитрий Леонтьев. Когда вернутся немцы Дмитрий Леонтьев. Когда вернутся немцы

Недавно один француз удивил меня скандалом, который разразился в его семье

4x4 Club
Как понять, что у девушки появился другой и как ее вернуть (+ что делать нельзя) Как понять, что у девушки появился другой и как ее вернуть (+ что делать нельзя)

Что делать, если ты любишь девушку и не согласен с вашим разрывом

Playboy
Мертвый язык Мертвый язык

«...мертвым он был в самом прямом смысле, речь шла о языке мертвых!»

Вокруг света
Самораскрытие: когда стоит и не стоит делиться с собеседником своим опытом и переживаниями Самораскрытие: когда стоит и не стоит делиться с собеседником своим опытом и переживаниями

Что такое самораскрытие и почему эта наклонность многих раздражает?

Psychologies
Как лесные пожары в Австралии влияют на климат Земли Как лесные пожары в Австралии влияют на климат Земли

О глобальных последствиях пожаров "черного лета" 2019-2020 годов

ТехИнсайдер
В райском саду В райском саду

Дизайнер оформила эту московскую квартиру в стиле современной классики

SALON-Interior
10 интересных фактов о сверхзвуковых пассажирских самолетах — Ту-144 и Concorde 10 интересных фактов о сверхзвуковых пассажирских самолетах — Ту-144 и Concorde

Почему же закончилась эпоха сверхзвуковых пассажирских самолетов?

Maxim
7 признаков, что на вас обиделись: некоторые из них вы бы и не заметили 7 признаков, что на вас обиделись: некоторые из них вы бы и не заметили

Мелкие обиды со временем способны накапливаться — особенно, если их не обсуждать

Psychologies
Лета больше не будет: почему наступает климатический кризис и как ИИ его приближает Лета больше не будет: почему наступает климатический кризис и как ИИ его приближает

Сколько воды уходит на каждую переписку с чат-ботом?

Forbes
Кто такая София Ричи и почему ее стиль обсуждают всем интернетом: 5 модных приемов новой it-girl Кто такая София Ричи и почему ее стиль обсуждают всем интернетом: 5 модных приемов новой it-girl

Чем так популярна София Ричи?

VOICE
«Любовь невозможна без боли»: зачем сталкиваться с фрустрацией в отношениях «Любовь невозможна без боли»: зачем сталкиваться с фрустрацией в отношениях

Мы все мечтаем о любви, но мало кто может ее вынести и сохранить. Почему?

Psychologies
Ученые установили, что биологические нейросети работают по математическому принципу свободной энергии Ученые установили, что биологические нейросети работают по математическому принципу свободной энергии

Самоорганизация нейронов в процессе обучения подчиняется математической теории

ТехИнсайдер
Имплант под воздействием тока вырабатывает инсулин. Предложен новый метод лечения диабета Имплант под воздействием тока вырабатывает инсулин. Предложен новый метод лечения диабета

Ученые создали искусственные человеческие клетки, способные вырабатывать инсулин

ТехИнсайдер
Полёт Орла Полёт Орла

Пресса вообще ничего не писала о высадке Наполеона Бонапарта — из-за цензуры

Дилетант
Зачем быкам кольцо в носу? Зачем быкам кольцо в носу?

Для чего же используется кольцо в носу у быков. Спойлер: не для красоты!

ТехИнсайдер
В мозге людей с избыточным весом изменен «центр управления аппетитом» В мозге людей с избыточным весом изменен «центр управления аппетитом»

У людей с ожирением меняется гипоталамус

ТехИнсайдер
Смесь бетона и углерода превращается в суперконденсатор: невероятно быстрая зарядка и огромная емкость накопления энергии Смесь бетона и углерода превращается в суперконденсатор: невероятно быстрая зарядка и огромная емкость накопления энергии

Полученный бетон самособирается в суперконденсатор, накапливающий заряд

ТехИнсайдер
Какого разоблачения боялся Пол Уокер? Тайные романы звезд, о которых стало известно только после их смерти Какого разоблачения боялся Пол Уокер? Тайные романы звезд, о которых стало известно только после их смерти

Секреты знаменитостей, ставшие достоянием общественности уже после их смерти

VOICE
Водителя четырежды ошибочно лишили прав. Он узнал об этом на «Госуслугах» Водителя четырежды ошибочно лишили прав. Он узнал об этом на «Госуслугах»

Водитель узнал, что уже четыре раза подряд лишен водительского удостоверения

РБК
Как государство присматривается к рынку игровых артефактов Как государство присматривается к рынку игровых артефактов

Росфинмониторинг и Минфин задумались о регулировании игровых валют

Forbes
«Потерянные цветы Элис Харт»: сериал о детских травмах, взрослении и лжи «Потерянные цветы Элис Харт»: сериал о детских травмах, взрослении и лжи

Почему, несмотря на медленный темп, этому сериалу стоит уделить время

Forbes
Мыши с ГМ-клетками послушали группу Queen и выработали инсулин Мыши с ГМ-клетками послушали группу Queen и выработали инсулин

Ученые внедрили механочувствительные рецепторы в клетки, вырабатывающие инсулин

N+1
Укус пчелы: как выглядит, чем опасен и как избежать Укус пчелы: как выглядит, чем опасен и как избежать

Укус пчелы — малоприятный опыт, а для некоторых — опасный. Как этого избежать?

РБК
Человек, убивший 300 детей, выйдет на свободу: как сложилась судьба колумбийского маньяка по прозвищу «Зверь» Человек, убивший 300 детей, выйдет на свободу: как сложилась судьба колумбийского маньяка по прозвищу «Зверь»

Самый кровавый маньяк в истории Колумбии Луис Гаравито орудовал в 1992-1999 гг.

ТехИнсайдер
7 фактов о счастье: размышления психотерапевта 7 фактов о счастье: размышления психотерапевта

Какие они — счастливые люди?

Psychologies
Изучаем Россию: куда отправиться в поисках новых впечатлений Изучаем Россию: куда отправиться в поисках новых впечатлений

Нетривиальные локаций России, где можно сблизиться с дикой природой и отдохнуть

СНОБ
Все по плану Все по плану

Каковы шансы на успех, если вы задумались об искусственном оплодотворении

Собака.ru
Открыть в приложении