Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Мобилизация-1914: эмоции россиян Мобилизация-1914: эмоции россиян

Кто определяет «национальные интересы»?

Дилетант
Стресс в наследство Стресс в наследство

Как на ребенка влияет стресс матери во время беременности?

Здоровье
Движение вокруг недвижимости Движение вокруг недвижимости

Как искусственный интеллект захватывает один из ключевых рынков

РБК
6 самых безумных предметов, которые когда-либо крали 6 самых безумных предметов, которые когда-либо крали

Некоторые из самых странных вещей, которые когда-либо были украдены

ТехИнсайдер
Александр Крайнов: «Нейросеть не заменит людей в общении, размышлении и умении договариваться» Александр Крайнов: «Нейросеть не заменит людей в общении, размышлении и умении договариваться»

Как нейросети повлияют на профессии и когда они станут привычным инструментом

РБК
Индивидуалистка из СССР: как Айн Рэнд боролась с коммунизмом и создавала бестселлеры Индивидуалистка из СССР: как Айн Рэнд боролась с коммунизмом и создавала бестселлеры

Как Айн Рэнд, дочь аптекаря из Петербурга, смогла покорить США

Forbes
Их не читали две тысячи лет Их не читали две тысячи лет

ИИ позволил начать чтение свитков, две тысячи лет остававшиеся недоступными

Дилетант
Hовые имена в моде Hовые имена в моде

Сверкающее вау: новейшие супергерои модной индустрии!

Собака.ru
Норма жизни: зачем министерству спорта 70 процентов занимающихся физкультурой Норма жизни: зачем министерству спорта 70 процентов занимающихся физкультурой

Что не так с методикой подсчетов спортивных граждан?

Forbes
«Открывается какой-то портал, и я абсолютно неуязвима и абсолютно счастлива»: интервью с Дианой Арбениной «Открывается какой-то портал, и я абсолютно неуязвима и абсолютно счастлива»: интервью с Дианой Арбениной

Диана Арбенина рассказала о непреодолимой силе сцены

Правила жизни
Арктическую Сибирь объединили собачьи упряжки Арктическую Сибирь объединили собачьи упряжки

Собачьи упряжки используют в Восточно-Сибирской Арктике уже 9 тысяч лет

Наука и жизнь
Напитки с плюсом Напитки с плюсом

Почему растет рынок функциональных продуктов

Агроинвестор
Пресноводные русалки Пресноводные русалки

Когда-то давно, 200 тысяч лет назад, в Евразии появился необыкновенный зверь

Знание – сила
Худеем на супах Худеем на супах

Надоело скидывать вес на салатах и гречке? Попробуй суповые диеты

Лиза
Стать девушке солдатом на войне… Стать девушке солдатом на войне…

Война глазами одной из 200 девушек комсомолок-добровольцев

Знание – сила
Секреты мастерства Секреты мастерства

Princess F58: свежая модель в линейке британской верфи

Y Magazine
Сага мужества и стойкости Сага мужества и стойкости

Четыре года схваток сплотили союзников сильнее, чем дипломатические трактаты

Монокль
Во II тысячелетии до нашей эры британское олово попало на Ближний Восток Во II тысячелетии до нашей эры британское олово попало на Ближний Восток

Во II тысячелетии до н. э олово поступало из Британии на Ближний Восток

N+1
Женщина на борту Женщина на борту

Женщины в море: против суеверий, морских богов и стереотипов

Y Magazine
Новые археологические памятники открыты на Кольском полуострове Новые археологические памятники открыты на Кольском полуострове

Уникальные находки древнескандинавской культуры гресбакен

Знание – сила
Физика современных блэкаутов Физика современных блэкаутов

С чем эксперты связывают энергетический сбой на Пиренейском полуострове

Монокль
О наследии Стефана Пермского О наследии Стефана Пермского

Кто может считаться первым исследователем истории и культуры коми народа?

Знание – сила
Что такое робот? Что такое робот?

Роботы вокруг нас: объясняем, как они работают и зачем нужны

Наука и техника
Цветок для смелых Цветок для смелых

Проект суперъяхты Lily разработали для верфи Oceanco в дизайн-бюро Vripack

Y Magazine
Франшиза: Что скрывается за этим словом? Франшиза: Что скрывается за этим словом?

Франшиза — идеальный рецепт успеха или сложная система с подводными камнями?

Наука и техника
Прохладная экономика Прохладная экономика

Слабая экономическая активность: аргумент в пользу смягчения монетарной политики

Ведомости
Эксперты: постоянная слежка в XXI веке может ухудшить работу мозга Эксперты: постоянная слежка в XXI веке может ухудшить работу мозга

Цифровая слежка не только меняет поведение, но и влияет на восприятие и внимание

ТехИнсайдер
Больше движений! Больше движений!

Нужно больше двигаться, а не искать отговорки, почему не можешь

Y Magazine
Андрей Кирсанов Андрей Кирсанов

Андрей Кирсанов по-настоящему круто умеет смотреть объективом в глаза

Собака.ru
Настоящая леди Настоящая леди

Правила поведения в общественных местах: что ты знаешь о приличиях

Лиза
Открыть в приложении