Новый метод обучения поможет роботам исследовать неизвестный окружающий мир

ТехИнсайдерHi-Tech

Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу

Новый метод обучения с подкреплением, разработанный Tinkoff Research, поможет роботам исследовать неизвестный окружающий мир и не погибнуть при этом исследовании. Метод получил название SAC-RND (Soft Actor Critic — Random Network Distillation). Он работает в 20 раз быстрее и надежнее, чем аналогичные разработки других ИИ-компаний.

Владимир Губайловский

6163a12bd08659e6198670497e8dd18a_ce_1545x1030x515x0.jpg
Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу

Неизвестность — это всегда опасность. Исследование неизвестной среды требует в первую очередь точности и осторожности.

М

етод обучения с подкреплением, получивший название RND (random network distillation) разработали в 2018 году в компании OpenAI. Разработали, потому что встали в тупик. ИИ-агенты замечательно (или по крайней мере неплохо) играли во все игры Atari кроме одной — «Месть Монтесумы». В среднем человек набирает в эту игру 4700 очков, а ИИ-агенты, разработанные OpenAI, четко набирали 0. И было непонятно, почему такой отличный метод, как обучение с подкреплением в этом случае не работает.

И тогда инженеры OpenAI изменили стратегию вознаграждения (подкрепления). Они сказали ИИ-агенту: самая большая твоя награда — это новые знания. То есть, самая интересная ситуация та, которую трудно предсказать. Если ты не знаешь, что там за углом, стоит свернуть. 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как научиться довольствоваться тем, что есть, и перестать сравнивать свою жизнь с чужими Как научиться довольствоваться тем, что есть, и перестать сравнивать свою жизнь с чужими

Как перестать вечно гнаться за идеалом?

ТехИнсайдер
Визуализация Набокова и NFT-дом: 10 музейных проектов на стыке искусства и технологий Визуализация Набокова и NFT-дом: 10 музейных проектов на стыке искусства и технологий

Соединение классического искусства с цифровыми технологиями — уже не новость

Forbes
Самые безопасные: 10 авиакомпаний мира, у которых не было авиакатастроф за всю историю их существования Самые безопасные: 10 авиакомпаний мира, у которых не было авиакатастроф за всю историю их существования

Какие авиакомпании безопаснее других за всю историю гражданской авиации

ТехИнсайдер
К себе жестко: возможны ли достижения без усилий? К себе жестко: возможны ли достижения без усилий?

Насколько бережной следует быть к самой себе, чтобы остаться продуктивной?

VOICE
Российский фармрынок переходит на дженерики: как изменится лекарственное обеспечение Российский фармрынок переходит на дженерики: как изменится лекарственное обеспечение

Дженерики становятся ключевым драйвером роста фармацевтического рынка

Inc.
Для осознанного восприятия необходимо сосредоточить внимание Для осознанного восприятия необходимо сосредоточить внимание

Нейробиологи исследовали процессы концентрации внимания

ТехИнсайдер
Пески фрекинга: как бывший нефтяной магнат осваивает в Техасе новые ресурсы Пески фрекинга: как бывший нефтяной магнат осваивает в Техасе новые ресурсы

Компания Бада Бригэма сделает его миллиардером, если не будет угрожать ящерице

Forbes
Посттравматический рост: как испытания стимулируют наше развитие. Глава книги «Пересобрать себя» Посттравматический рост: как испытания стимулируют наше развитие. Глава книги «Пересобрать себя»

Как поверить в себя, исследуя свое тело, разум и окружающий мир?

Правила жизни
Один на один Один на один

Как Игорь Шулинский совмещал работу с родительством и чему научился

Psychologies
Atomic Heart: эксклюзивный отрывок книги Atomic Heart: эксклюзивный отрывок книги

Узнайте «предысторию предприятия 3826»

Maxim
Поэты и писатели чаще других совершают самоубийство? Узнайте об «эффекте Сильвии Плат» Поэты и писатели чаще других совершают самоубийство? Узнайте об «эффекте Сильвии Плат»

Почему творческие люди чаще других совершают самоубийство?

ТехИнсайдер
Юрская рыба подавилась аммонитом Юрская рыба подавилась аммонитом

Немецкие палеонтологи описали окаменелость раннеюрской рыбы

N+1
«От вакансий руки опускаются»: как я полгода училась на тестировщика, а теперь не могу найти работу «От вакансий руки опускаются»: как я полгода училась на тестировщика, а теперь не могу найти работу

Легко ли сменить специальность?

VOICE
История сумасшествия: как менялась психиатрия — от античности до наших дней История сумасшествия: как менялась психиатрия — от античности до наших дней

Как изменялось отношение к психическим заболеваниям?

Psychologies
Михаэль Шумахер: биография от А до Я Михаэль Шумахер: биография от А до Я

Многочисленные триумфы и страшная трагедия — судьба Михаэля Шумахера

РБК
Digital на кухне Digital на кухне

Заменить шеф-повара искусственный интеллект пока не сможет

Bones
Какую обрядовую выпечку готовили на Руси к праздникам? Какую обрядовую выпечку готовили на Руси к праздникам?

Какую особую выпечку славяне пекли к праздникам?

Культура.РФ
Прекрасная страна. История эмиграции из-за политического преследования в Китае Прекрасная страна. История эмиграции из-за политического преследования в Китае

Книга о семье, которой пришлось переехать из-за политического преследования

СНОБ
Штрафы за селфи и громкую музыку на пляже: как страны борются с лишними туристами Штрафы за селфи и громкую музыку на пляже: как страны борются с лишними туристами

Какие ограничения вводят власти стран, чтобы справиться с потоком туристов

Forbes
Беспилотник научили парить почти без затрат энергии Беспилотник научили парить почти без затрат энергии

Система управления беспилотника находит оптимальные точки в воздушных потоках

N+1
Самцы партеногенетических палочников оказались бесплодными Самцы партеногенетических палочников оказались бесплодными

Мужские особи палочников бесплодны из-за нарушенного сперматогенеза

N+1
Почему люди меняют свои суждения о других? Узнайте неочевидный ответ ученых! Почему люди меняют свои суждения о других? Узнайте неочевидный ответ ученых!

Почему мы меньше обвиняем кого-то, если знаем, что человек страдал в детстве?

ТехИнсайдер
«Великий посад Москвы: подлинная история Китай-города» «Великий посад Москвы: подлинная история Китай-города»

Книга об одном из самых значимых исторических центров столицы

N+1
Как разруливать конфликты с партнером: разбор ситуации Как разруливать конфликты с партнером: разбор ситуации

Как можно поговорить обо всем на свете, не срываясь на крик и не ссорясь

Psychologies
10 вещей, которых вы не поймете, если не жили в коммуналке 10 вещей, которых вы не поймете, если не жили в коммуналке

10 самых странных вещей, с которыми приходилось сталкиваться в коммуналке

Psychologies
«Добывая «Биркин»: кто такой Майкл Тонелло и как он сделал себе имя на охоте за сумками Hermès «Добывая «Биркин»: кто такой Майкл Тонелло и как он сделал себе имя на охоте за сумками Hermès

Как Майкл Тонелло «хакнул» строгую систему вишлистов Hermès

Правила жизни
ИИ нашел неандертальский белок, который может стать источником новых антибиотиков ИИ нашел неандертальский белок, который может стать источником новых антибиотиков

«Воскрешенные» молекулы могут послужить источником новых лекарств

ТехИнсайдер
Чтение выходного дня: отрывок из книги «Тирания мух» Элайне Вилар Мадруги Чтение выходного дня: отрывок из книги «Тирания мух» Элайне Вилар Мадруги

Глава из жуткого, сотканного из детский страхов романа

Правила жизни
Берегись инфоцыган Берегись инфоцыган

Как выбрать онлайн-курсы, защититься от инфоцыган и не потерять деньги

Лиза
Сплетни или правдивые слухи: 5 неожиданных исторических фактов из гущи событий Российской империи Сплетни или правдивые слухи: 5 неожиданных исторических фактов из гущи событий Российской империи

Российская империя с XVIII и до начала XX века была полна слухов

ТехИнсайдер
Открыть в приложении