Новый метод обучения поможет роботам исследовать неизвестный окружающий мир

ТехИнсайдерHi-Tech

Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу

Новый метод обучения с подкреплением, разработанный Tinkoff Research, поможет роботам исследовать неизвестный окружающий мир и не погибнуть при этом исследовании. Метод получил название SAC-RND (Soft Actor Critic — Random Network Distillation). Он работает в 20 раз быстрее и надежнее, чем аналогичные разработки других ИИ-компаний.

Владимир Губайловский

6163a12bd08659e6198670497e8dd18a_ce_1545x1030x515x0.jpg
Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу

Неизвестность — это всегда опасность. Исследование неизвестной среды требует в первую очередь точности и осторожности.

М

етод обучения с подкреплением, получивший название RND (random network distillation) разработали в 2018 году в компании OpenAI. Разработали, потому что встали в тупик. ИИ-агенты замечательно (или по крайней мере неплохо) играли во все игры Atari кроме одной — «Месть Монтесумы». В среднем человек набирает в эту игру 4700 очков, а ИИ-агенты, разработанные OpenAI, четко набирали 0. И было непонятно, почему такой отличный метод, как обучение с подкреплением в этом случае не работает.

И тогда инженеры OpenAI изменили стратегию вознаграждения (подкрепления). Они сказали ИИ-агенту: самая большая твоя награда — это новые знания. То есть, самая интересная ситуация та, которую трудно предсказать. Если ты не знаешь, что там за углом, стоит свернуть. 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Май 2025 стал одним из самых жарких за всю историю наблюдений Май 2025 стал одним из самых жарких за всю историю наблюдений

За последние 22 месяца средняя температура была на 1,5°C выше

ТехИнсайдер
Ученые назвали новый стандарт «пустоты»: абсолютный вакуум Ученые назвали новый стандарт «пустоты»: абсолютный вакуум

NIST утвердил процесс для нового способа достичь «подлинного ничто»

ТехИнсайдер
Какие ценности есть у ИИ? Ученые изучили Claude и рассказали интересные факты! Какие ценности есть у ИИ? Ученые изучили Claude и рассказали интересные факты!

Как ИИ выражает свои «принципы» в диалогах с людьми

ТехИнсайдер
Кто такой Михаил Елизаров — автор «Библиотекаря» и впечатляющих песен Кто такой Михаил Елизаров — автор «Библиотекаря» и впечатляющих песен

Кто такой Михаил Елизаров?

Правила жизни
Стесняюсь спросить: как распознать болезнь Альцгеймера? Стесняюсь спросить: как распознать болезнь Альцгеймера?

Альцгеймер: как распознать на ранних этапах и встречается ли он у молодых?

Правила жизни
Чего не стоит делать, если вы хотите произвести хорошее впечатление: 4 ошибки Чего не стоит делать, если вы хотите произвести хорошее впечатление: 4 ошибки

Чего следует избегать, если вы хотите произвести положительное впечатление

Psychologies
Карты, деньги, два стола: 15 лучших фильмов об азартных играх Карты, деньги, два стола: 15 лучших фильмов об азартных играх

Поп лучших фильмов про покер и другие карточные и азартные игры

Forbes
5 типов конфликтных людей — проверьте себя и близких 5 типов конфликтных людей — проверьте себя и близких

Как распознать конфликтного человека, чтобы избежать общения с ним?

Psychologies
По своему желанию По своему желанию

Самые надежные средства контрацепции, о которых ты, возможно, не знала

Лиза
Как стать успешным блогером и можно ли на этом заработать в 2023 году Как стать успешным блогером и можно ли на этом заработать в 2023 году

Когда можно выгодно вложиться в личный блог в 2023 году, а когда не стоит

РБК
Служебный роман, двое детей и измена: история брака Натали Портман и Бенжамена Мильпье Служебный роман, двое детей и измена: история брака Натали Портман и Бенжамена Мильпье

Как начиналась история любви Натали Портман и Бенжамена Мильпье

VOICE
Баня на полюсе Баня на полюсе

Сергей Беляев о том, как этим летом парил китайских туристов на Северном полюсе

Отдых в России
Художник Саша Шардак: Человек склонен романтизировать все новое и представлять приятное будущее Художник Саша Шардак: Человек склонен романтизировать все новое и представлять приятное будущее

Об эстетике оттепели, ностальгии по ушедшим временам и романтизации новизны

СНОБ
Ожирение ухудшает ассоциативное мышление у человека Ожирение ухудшает ассоциативное мышление у человека

У людей, страдающих ожирением, ухудшается ассоциативное мышление

ТехИнсайдер
А где кубики? А где кубики?

9 мифов о прессе, из-за которых он вряд ли станет идеальным

Лиза
А мы тут… мультики смотрим А мы тут… мультики смотрим

Герои статьи рассказали, какие мультфильмы больше всего впечатлили их в детстве

Лиза
Я не толстая! Я не толстая!

Порой лишние кило могут превратиться в серьезное заболевание

Лиза
Как одевались советские дети: 5 обязательных атрибутов Как одевались советские дети: 5 обязательных атрибутов

Давайте вспомним, какими были главные предметы гардероба ребенка в СССР

Psychologies
Семь фактов про радиоактивную воду с Фукусимы Семь фактов про радиоактивную воду с Фукусимы

Японцы сливают радиоактивную воду с Фукусимы прямо в Тихий океан. Опасно ли это?

Maxim
Секрет молодости на тарелке Секрет молодости на тарелке

Еда и напитки, которые замедляют старение

Лиза
Нейробиологи нашли механизм мозга, управляющий концентрацией внимания Нейробиологи нашли механизм мозга, управляющий концентрацией внимания

Основную роль в концентрации внимания играет скоординированная активность

ТехИнсайдер
Физики после 67 лет поисков поймали «демона»: безмассовую, нейтральную частицу Физики после 67 лет поисков поймали «демона»: безмассовую, нейтральную частицу

Группа исследователей обнаружила безмассовую нейтральную частицу

ТехИнсайдер
Гетеротрофные бактерии запомнили цикличность смены дня и ночи Гетеротрофные бактерии запомнили цикличность смены дня и ночи

Почвенные бактерии способны хранить информацию о смене дня и ночи

N+1
Дизайнерские дети и изучение эмбрионов: как наука сталкивается с этическими вопросами Дизайнерские дети и изучение эмбрионов: как наука сталкивается с этическими вопросами

Прогресс в репродуктологии — прогрессивное благо или этическое зло?

Forbes
Все по плану Все по плану

Каковы шансы на успех, если вы задумались об искусственном оплодотворении

Собака.ru
«Голубые» облигации: что это и как с их помощью спасают мировой океан «Голубые» облигации: что это и как с их помощью спасают мировой океан

Остановить уничтожение морской флоры и фауны призваны «голубые» облигации

Forbes
Ещё раз о Вагнере… Ещё раз о Вагнере…

Творчество Вагнера у одних вызывает восторг, у других неприятие

Дилетант
Что общего у медузы, кошки, змеи и космонавта? Математика Что общего у медузы, кошки, змеи и космонавта? Математика

Математикам удалось обнаружить алгоритм, описывающий класс природных движений

ТехИнсайдер
Почти как там Почти как там

Каких продуктов не хватает российским шеф-поварам, а без чего прожить можно?

Bones
Без FIFA, но с футболистками: чего ждать от нового футбольного симулятора Без FIFA, но с футболистками: чего ждать от нового футбольного симулятора

Почему Electronic Arts и FIFA разорвали отношения спустя 30 лет сотрудничества?

Forbes
Открыть в приложении