Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Наталья Царевская-Дякина: «Возможно, школ и вузов в привычном нам понимании когда-нибудь не станет» Наталья Царевская-Дякина: «Возможно, школ и вузов в привычном нам понимании когда-нибудь не станет»

Как будет меняться система образования и что такое концепция life-work learning

РБК
Скоро на экранах Скоро на экранах

Кем могли бы стать молодые актеры, если бы выбрали другую профессию?

Grazia
Корея против Кореи Корея против Кореи

Эту войну называют «забытой». В Советском Союзе о ней мало писали и говорили

Дилетант
«Поднебесная: 4000 лет китайской цивилизации» «Поднебесная: 4000 лет китайской цивилизации»

Как выглядели семь великих морских экспедиций начала XV века

N+1
Владимир Васильев: «Гонка технологических «вооружений» уже началась» Владимир Васильев: «Гонка технологических «вооружений» уже началась»

Владимир Васильев – о влиянии больших языковых моделей на будущее человека

РБК
Дорогой лапши Дорогой лапши

Китайская лапша давно свернула с Великого шелкового пути

Seasons of life
Зачем нужен дворник-беспилотник Зачем нужен дворник-беспилотник

Алексей Сивидов — о роботах, призванных победить дефицит рабочих рук в сфере ЖКХ

РБК
Дональд Трамп усложнил выдачу виз для граждан всех стран, включая Россию Дональд Трамп усложнил выдачу виз для граждан всех стран, включая Россию

Дональд Трамп хочет, чтобы в США приезжали только высококвалифицированные кадры

Ведомости
Mitsubishi L200 Siber Truck. Проверено Сибирью Mitsubishi L200 Siber Truck. Проверено Сибирью

Mitsubishi L200 в ярком камуфляже — проект сибирского технического центра STC

4x4 Club
Исследование: как пустынная пыль влияет на образование облаков и климат Исследование: как пустынная пыль влияет на образование облаков и климат

Как пустыни влияют на формирование облаков?

ТехИнсайдер
Как скопировать и вставить таблицу в Экселе Как скопировать и вставить таблицу в Экселе

Как скопировать таблицу в Эксель так, чтобы все осталось на своих местах

CHIP
Чертополох в золоте: как заработать на украшениях из листьев и растений Чертополох в золоте: как заработать на украшениях из листьев и растений

Как не просто сохранить, но и масштабировать хендмейд бизнес

Inc.
Завтра наступит сегодня Завтра наступит сегодня

Примеряемся к автомобилям из области фантастики

Moodboard
Место встречи, а не экскурсия Место встречи, а не экскурсия

Как сделать культуру и искусство доступными и понятными для широкой аудитории?

Монокль
Визит в страну чучхе: зачем ехать и как не нарушить правила Визит в страну чучхе: зачем ехать и как не нарушить правила

КНДР: невероятно замкнутая и одновременно чарующая страна

ФедералПресс
Львинохвостые макаки, или Вандеру Львинохвостые макаки, или Вандеру

Львинохвостые макаки – очень капризные и не желающие быть фотомоделями

Знание – сила
Начни с порога Начни с порога

Как выжать максимум из маленького коридора

Лиза
Тбилисские гости Тбилисские гости

«Наша жизнь состоит из моментов, когда ты встречаешься с друзьями»

Seasons of life
Астрономы нашли наиболее вероятного кандидата в беззвездное гало темной материи субгалактической массы Астрономы нашли наиболее вероятного кандидата в беззвездное гало темной материи субгалактической массы

Астрономы подтвердили статус Cloud-9 как кандидата в объекты типа RELHIC

N+1
Это-большечем-фильмы Это-большечем-фильмы

Почему иранский кинематограф внезапно стал так важен?

Seasons of life
Уплотнение экономического пространства Уплотнение экономического пространства

Почему нужно ускорять транспортное сообщение с Сибирью и Дальним Востоком

Деньги
Наша стратегия — помогать повышать прибыльность аграрного производства Наша стратегия — помогать повышать прибыльность аграрного производства

Гендиректор фирмы «Август» — о развитии и планах компании

Агроинвестор
День мира День мира

Наш проект «День мира» родился из истории, начавшейся почти сто лет назад

Seasons of life
Короткие ножки и большая уверенность в себе: 10 интересных фактов о таксах Короткие ножки и большая уверенность в себе: 10 интересных фактов о таксах

Длинное тело, короткие лапы, самодостаточность и прыткий ум — знакомьтесь, такса

ТехИнсайдер
Жизнь по референсам Жизнь по референсам

Что такое «пинтерест-синдром» и как не утонуть в одинаковой эстетике

Grazia
Как нетворкинг помогает в развитии бизнеса Как нетворкинг помогает в развитии бизнеса

Нетворкинг: что это такое и какую пользу он приносит развитию бизнеса?

Inc.
Москва — Дагестан Москва — Дагестан

У дагестанцев есть уникальное умение — перенимать новое и сохранять самость

Seasons of life
Корабль с игрушками Корабль с игрушками

Чем заняться в чартере? Вопрос на первый взгляд кажется риторическим

Y Magazine
Тут как тут Тут как тут

Дорога из Дербента в Махачкалу на страницах скетчбука

Seasons of life
Капля стройности Капля стройности

10 ответов на частые вопросы о связи воды и похудения

Лиза
Открыть в приложении