Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Зимний пейзаж после боя Зимний пейзаж после боя

Весной 1938 года между СССР и Финляндией начались тайные переговоры

Дилетант
Эрдоган зажат между интересами США и Британии Эрдоган зажат между интересами США и Британии

Политический кризис в Турции может серьезно встряхнуть государство и регион

Монокль
«Люди не смогут отличить, что реально, а что воображаемо» «Люди не смогут отличить, что реально, а что воображаемо»

Пять кратких историй успеха, достигнутого в том числе и выходцами из России

РБК
Петр Ануров: Это волнующе и рискованно Петр Ануров: Это волнующе и рискованно

Как продюсер Петр Ануров выбирает проекты и собирает звёздные составы

Ведомости
Сквозные и критические: как изменилась стратегия развития технологий Сквозные и критические: как изменилась стратегия развития технологий

Сектор инноваций в России продолжает развиваться благодаря господдержке

РБК
Звезды манящие Звезды манящие

Ослепительная вспышка, которой уже некого слепить, миг неуловимый

Знание – сила
Манипуляция в отношениях: как эмоции делают нас жертвами Манипуляция в отношениях: как эмоции делают нас жертвами

Как наши эмоции делают нас жертвами манипуляции и что можно с этим сделать

Psychologies
«Важно знать и понимать своего посетителя» «Важно знать и понимать своего посетителя»

Роман Валериевич Ковриков о том, зачем сегодня идут в музей

Санкт-Петербургский университет
Ген перемен Ген перемен

Как биотехнологии преобразуют мир и кто за это заплатит

РБК
8 вещей, которые нашатырный спирт сделает идеально чистыми 8 вещей, которые нашатырный спирт сделает идеально чистыми

Аммиак — один из самых мощных и недорогих бытовых очистителей

VOICE
Русско-американские отношения в XIX веке. Часть 2 Русско-американские отношения в XIX веке. Часть 2

Какими были отношения США и России накануне войны между Севером и Югом

Наука и техника
Золотые гривы Золотые гривы

Как в Ивашкове появилось ранчо с золотогривыми лошадьми

Отдых в России
Лошади стали прекрасными бегунами из-за генетической ошибки Лошади стали прекрасными бегунами из-за генетической ошибки

Мутация, из-за которой лошади должны были вымереть, но стали отличными бегунами

ТехИнсайдер
Если села батарейка Если села батарейка

20 способов восстановиться за 15 минут

Лиза
«Сейчас период повышения внутренней эффективности» «Сейчас период повышения внутренней эффективности»

Дмитрий Фосман — о перспективах развития экспорта и работе по привлечению кадров

Агроинвестор
Аграрный PR как часть стратегии развития компании Аграрный PR как часть стратегии развития компании

Какие эффективные инструменты маркетинговых коммуникаций используют в 2025 году

Агроинвестор
Недоросли, скотинины, бригадиры и Стародум Недоросли, скотинины, бригадиры и Стародум

И спустя 200 лет пьесы Дениса Фонвизина остаются интересны и востребованы

Знание – сила
Бессвязные дороги Бессвязные дороги

Как обеспечить автодороги сотовой связью без переплат

Ведомости
Чудо-молекулы Чудо-молекулы

Зачем нашей коже нужны ниацинамид и эктоин

Лиза
Китайское рекламное чудо Китайское рекламное чудо

На какую рекламу тратят рекламный бюджет компании на российском рынке

Ведомости
Мария Мацель: «Теперь наконец я могу делать и что-то свое» Мария Мацель: «Теперь наконец я могу делать и что-то свое»

Актриса Мария Мацель — о том, как снимаются фильмы-сны

Ведомости
Новый поход ветеранов Троянской войны Новый поход ветеранов Троянской войны

Филистимляне и троянцы против египетских фараонов

Знание – сила
В Госдуму внесли законопроект о запрете выгула опасных собак пьяными людьми и детьми В Госдуму внесли законопроект о запрете выгула опасных собак пьяными людьми и детьми

Госдума хочет внести изменения в нормы об ответственном обращении с животными

Forbes
Кто же все-таки виноват Кто же все-таки виноват

«Переходный возраст» — сериал, который только вышел и уже самый обсуждаемый

Weekend
Арена на двоих Арена на двоих

Как исторически складывались отношения России и США

Эксперт
Система Юпитера: Ганимед и Каллисто Система Юпитера: Ганимед и Каллисто

Что делает Ганимед и Каллисто очень интересными космическими телами?

Наука и техника
Новости науки Новости науки

Обнаруженная в ранней Вселенной грандиозная галактика и другие новости науки

Знание – сила
Поставки по расписанию Поставки по расписанию

Что экспортировал СССР во время войны

Эксперт
Если все тряпки закончились: 5 предметов домашнего обихода, которыми можно вытирать пыль Если все тряпки закончились: 5 предметов домашнего обихода, которыми можно вытирать пыль

Чем, кроме тряпки, можно эффективно удалить пыль с любой поверхности

ТехИнсайдер
Как сохранить близость с детьми, даже когда они становятся взрослыми Как сохранить близость с детьми, даже когда они становятся взрослыми

Если вы хотите, чтобы ваши дети всегда доверяли вам, следуйте этим советам

Inc.
Открыть в приложении