Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Александр Крайнов: «Нейросеть не заменит людей в общении, размышлении и умении договариваться» Александр Крайнов: «Нейросеть не заменит людей в общении, размышлении и умении договариваться»

Как нейросети повлияют на профессии и когда они станут привычным инструментом

РБК
9 хаков для уборки, которые не работают 9 хаков для уборки, которые не работают

Несколько мифов о наведении чистоты, о которых давно пора забыть

VOICE
Алексей Мартынцев: «Кибербезопасность — это процесс, а не результат» Алексей Мартынцев: «Кибербезопасность — это процесс, а не результат»

Кибератаки на российские предприятия становятся все более профессиональными

РБК
Студенты перестали мечтать о быстрых головокружительных карьерах Студенты перестали мечтать о быстрых головокружительных карьерах

У российских студентов скорректировались приоритеты при выборе места работы

Ведомости
Движение вокруг недвижимости Движение вокруг недвижимости

Как искусственный интеллект захватывает один из ключевых рынков

РБК
За мечтой — в кошелек? За мечтой — в кошелек?

«Анора» — философский фильм о мечтах и реальности

Монокль
«Замужняя невеста»: женитьба двести лет тому назад «Замужняя невеста»: женитьба двести лет тому назад

В Театре Моссовета — премьера спектакля Евгения Марчелли «Замужняя невеста»

Монокль
Как не попасть на «развод» в автосалоне. 6 уловок продавцов Как не попасть на «развод» в автосалоне. 6 уловок продавцов

Названы 6 самых хитрых приемов дилеров при продаже машин

РБК
Зачем Приштина усиливает давление на Белград Зачем Приштина усиливает давление на Белград

Приштина нацелена окончательно решить косовский вопрос в свою пользу

Эксперт
«У меня еще много незакрытых гештальтов» «У меня еще много незакрытых гештальтов»

Владимир Селиванов — о роли Вована в своей жизни и семейных ритуалах

OK!
Зрелые отношения: почему люди пенсионного возраста в России стали чаще жениться Зрелые отношения: почему люди пенсионного возраста в России стали чаще жениться

Какие факторы влияют на то, что в России пенсионеры предпочитают вступать в брак

Forbes
Иван Краско Иван Краско

Когда началась война, патриарху сцены Ивану Краско было 11...

Собака.ru
Мужчина, вы зачем? Чтобы злиться на обидчиков Мужчина, вы зачем? Чтобы злиться на обидчиков

Даже в самые темные времена впереди всегда есть свет

СНОБ
Куда исчезли зеркала на крыльях автомобилей: вас давно мучает этот вопрос, но спросить было не у кого Куда исчезли зеркала на крыльях автомобилей: вас давно мучает этот вопрос, но спросить было не у кого

Зачем с кузовов автомобилей убрали мини зеркала

ТехИнсайдер
МХАТ и война: отрывок из книги Софьи Пилявской МХАТ и война: отрывок из книги Софьи Пилявской

Отрывок из переиздания книги Софьи Пилявской — «Грустная книга»

СНОБ
Обзор «Нива Трэвел»: плюсы и минусы, комплектации, фото Обзор «Нива Трэвел»: плюсы и минусы, комплектации, фото

Культовый российский внедорожник в представлении не нуждается

РБК
Международная комиссия предложила пересмотреть определение ожирения Международная комиссия предложила пересмотреть определение ожирения

Ученые предложили разделить ожирение на две различные формы

N+1
Гингивит: десна болит Гингивит: десна болит

Что делать, если десны воспалились?

Лиза
Легонький пояс Легонький пояс

Где искать шедевры текстильной промышленной архитектуры царской России

Weekend
Кофе и нейросети: какую роль играет ИИ в привлечении зумеров при кадровом дефиците Кофе и нейросети: какую роль играет ИИ в привлечении зумеров при кадровом дефиците

Как в борьбе за таланты генеративный ИИ становится ключевым инструментом

Forbes
Детский стресс повлиял на метилирование ДНК в сперматозоидах у взрослых мужчин Детский стресс повлиял на метилирование ДНК в сперматозоидах у взрослых мужчин

В сперме у мужчин с тяжелым детством уровень метилирования ДНК ниже

N+1
Сразу две частные компании стартовали к Луне на одной ракете Сразу две частные компании стартовали к Луне на одной ракете

Две частные фирмы запустили аппараты на Луну в ракете SpaceX Falcon 9

ТехИнсайдер
История необычного гибрида спиреи: от сада XIX века до природных популяций История необычного гибрида спиреи: от сада XIX века до природных популяций

История гибрида, обнаруженного в природе спустя столетие после его создания

Наука и жизнь
Городское фэнтези в российской провинции: Елена Волынцева, Наталья Копейкина «Неваляшка» Городское фэнтези в российской провинции: Елена Волынцева, Наталья Копейкина «Неваляшка»

Отрывок из городского фэнтези в российской провинции «Неваляшки»

СНОБ
Нина Чусова. Секундная сцена в спектакле может сделать из него хит Нина Чусова. Секундная сцена в спектакле может сделать из него хит

Нина Чусова о своем уникальном пути и работе с самыми лучшими артистами страны

Караван историй
Нет вайба Нет вайба

Что делать, если пропало желание работать

Лиза
Легкое дыхание Легкое дыхание

Почему обычная простуда может перейти в бронхит или даже пневмонию

Лиза
Как Изабель Баррето возглавила экспедицию в эпоху Великих географических открытий Как Изабель Баррето возглавила экспедицию в эпоху Великих географических открытий

Как Изабель Баррето помогла вернуться домой заблудившейся экспедиции

Forbes
На вес золота: 10 неожиданных фактов об этом ценном металле На вес золота: 10 неожиданных фактов об этом ценном металле

Что вы знаете о золоте?

ТехИнсайдер
Повреждения на 30-тысячелетних зубах кроманьонцев объяснили пирсингом Повреждения на 30-тысячелетних зубах кроманьонцев объяснили пирсингом

Антрополог проанализировал повреждения на зубах древних людей

N+1
Открыть в приложении