Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Екатерина Борисова: «BIM — это больше чем проектирование» Екатерина Борисова: «BIM — это больше чем проектирование»

Как BIM-проектирование помогает избежать ошибок в документации и сократить сроки

РБК
Песни у костра в мегаполисе: как урбанистка создала бизнес на антистресс-хорах Песни у костра в мегаполисе: как урбанистка создала бизнес на антистресс-хорах

Как урбанистке Юлии Штокало пришла идея проводить классы по хоровому пению

Forbes
Стабильность в эпоху потрясений Стабильность в эпоху потрясений

Как российские и мировые компании пытаются быть устойчивыми

РБК
И твоя мама тоже И твоя мама тоже

«Все совпадения неслучайны»: первый сериал Альфонсо Куарона

Weekend
«Люди не смогут отличить, что реально, а что воображаемо» «Люди не смогут отличить, что реально, а что воображаемо»

Пять кратких историй успеха, достигнутого в том числе и выходцами из России

РБК
Одиночество вдвоем или семейное выгорание: как распознать и преодолеть кризис в отношениях Одиночество вдвоем или семейное выгорание: как распознать и преодолеть кризис в отношениях

Живете с партнером под одной крышей, но чувствуете себя одиноко?

VOICE
Один метр. Один килограмм. Одна гордость Один метр. Один килограмм. Одна гордость

Признание первенства Советов в космосе смешано с обидой, завистью и досадой

Монокль
Никита Мещерский: Как король полного привода отстал от конкурентов Никита Мещерский: Как король полного привода отстал от конкурентов

Audi Quattro — культовый полноприводный автомобиль

4x4 Club
Будущее где-то рядом с Эр-Риядом Будущее где-то рядом с Эр-Риядом

Сможет ли Саудовская Аравия превратиться в ведущую мировую державу?

Эксперт
«Все время чего-то не хватает для счастья»: как перестать гнаться за успехом и начать радоваться тому, что есть «Все время чего-то не хватает для счастья»: как перестать гнаться за успехом и начать радоваться тому, что есть

Как не потерять вкус к жизни в погоне за достижениями?

Psychologies
Мама-предприниматель: какой бизнес чаще выбирают женщины в России Мама-предприниматель: какой бизнес чаще выбирают женщины в России

Почему в современном мире женщинам не нужно выбирать между семьей и карьерой

Inc.
Этот всеми любимый напиток повышает риск развития деменции в 3 раза: лучше не злоупотреблять! Этот всеми любимый напиток повышает риск развития деменции в 3 раза: лучше не злоупотреблять!

У людей, употребляющих этот напиток ежедневно, наблюдается снижение памяти

ТехИнсайдер
Другой мир — другие традиции: как выдают замуж женщин в странах Африки Другой мир — другие традиции: как выдают замуж женщин в странах Африки

Чего ждут от жениха с невестой в странах Африки?

Psychologies
Чемодан без ручки Чемодан без ручки

Ситуации, в которых отношения обречены

Лиза
Север и Юг США: долгий путь к войне Север и Юг США: долгий путь к войне

Промышленная революция в Европе по-разному сказалась на южных и северных штатах

Наука и техника
Рудознатцы Рудознатцы

Как сейчас в России ищут золото

ТехИнсайдер
Бизнес на кончиках пальцев: как Ксения Рыкова развивает инклюзивный массажный салон Бизнес на кончиках пальцев: как Ксения Рыкова развивает инклюзивный массажный салон

Как в России реагируют на инклюзию в велнес-индустрии?

Forbes
Мембрана для извлечения водорода Мембрана для извлечения водорода

Мембрана из ванадиевого сплава — залог прогресс в водородной энергетике

ТехИнсайдер
Время тает Время тает

Ледники, которые стоит лично увидеть, пока они еще не покинули этот мир

Men Today
Вдохновитель проекта «Вектор» — о выборе профессии кондитера для ребенка Вдохновитель проекта «Вектор» — о выборе профессии кондитера для ребенка

Как превратить детское увлечение кулинарией в профессию?

РБК
Полный метр Полный метр

Уютно обустраиваем зоны для работы, отдыха и бьюти-экспериментов

VOICE
Внутри рубина лазерный луч может отбрасывать тень при облучении другим лазером Внутри рубина лазерный луч может отбрасывать тень при облучении другим лазером

Световые мечи из «Звездных войнов» — не просто фантастика

ТехИнсайдер
Янина Жеймо-Костричкина: «Вокруг «Золушки» плелись коварные интриги...» Янина Жеймо-Костричкина: «Вокруг «Золушки» плелись коварные интриги...»

«До последнего вздоха мама оставалась советской гражданкой»

Коллекция. Караван историй
Без желания нравиться и чувства долга: как навык говорить «нет» делает жизнь лучше Без желания нравиться и чувства долга: как навык говорить «нет» делает жизнь лучше

Как научиться отстаивать свои интересы и границы с коллегами и близкими

Forbes
Риски трампфляции Риски трампфляции

Поможет ли инфляция в борьбе с глобальным долгом

Деньги
Российский сорт в открытом и закрытом грунте Российский сорт в открытом и закрытом грунте

Сколько лет потребуется отечественной селекции для увеличения доли семян овощей

Агроинвестор
Тернистый путь электрокара: когда мир откажется от бензиновых двигателей Тернистый путь электрокара: когда мир откажется от бензиновых двигателей

Смогут ли торговые войны замедлить распространение электромобилей?

Forbes
7 трюков, которые надо знать, если ты хочешь накрасить ногти лаком с блестками 7 трюков, которые надо знать, если ты хочешь накрасить ногти лаком с блестками

Любишь блеск и гламур? Понимаем и одобряем!

VOICE
Вспомним Энтони Бурдена Вспомним Энтони Бурдена

Гастроэксперт Иван Глушков — о том, что и где есть и пить в Японии

RR Люкс.Личности.Бизнес.
Чистое место: как убираться в ванной и туалете правильно Чистое место: как убираться в ванной и туалете правильно

Лайфхаки по уборке ванной и туалета

Новый очаг
Открыть в приложении