Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Александр Крайнов: «Нейросеть не заменит людей в общении, размышлении и умении договариваться» Александр Крайнов: «Нейросеть не заменит людей в общении, размышлении и умении договариваться»

Как нейросети повлияют на профессии и когда они станут привычным инструментом

РБК
Самые крупные землетрясения в истории СССР и России Самые крупные землетрясения в истории СССР и России

Землетрясения, которые лишили крова тысячи людей в СССР и России

Maxim
Робин из Локсли Робин из Локсли

О Робин Гуде сложены несколько десятков баллад

Дилетант
Переходи на зеленый Переходи на зеленый

Мода на экосексуальность и привычки, полезные для тебя и для природы

Лиза
Сергей Шумский: «У роботов не будет инстинкта власти, как у человека» Сергей Шумский: «У роботов не будет инстинкта власти, как у человека»

Минувший год имеет шансы войти в историю как время взрывного роста нейросетей

РБК
Искусственный интеллект, настоящие чувства. Почему люди заводят романы с чат-ботами Искусственный интеллект, настоящие чувства. Почему люди заводят романы с чат-ботами

Почему люди влюбляются в чат-ботов и какие опасности таят такие связи?

Inc.
Был ли аншлюс ГДР? Был ли аншлюс ГДР?

Читаем новый единый учебник всеобщей истории для 11 класса

Дилетант
Вера Васильева: «Я ничего специально не делаю, живу как хочется» Вера Васильева: «Я ничего специально не делаю, живу как хочется»

Ее взлет в кино был ярким и мощным, а годы в профессии — разными, трудными...

Караван историй
Синдром опустевшего гнезда, часть 2: как общаться со взрослыми детьми и найти себя Синдром опустевшего гнезда, часть 2: как общаться со взрослыми детьми и найти себя

Что делать внутри пустого гнезда, когда дети выросли? Жить в радость!

Psychologies
Инвесторы стали избирательнее и осторожнее Инвесторы стали избирательнее и осторожнее

Агробизнес продолжает планировать инвестиции в развитие

Агроинвестор
Самовыражение в наклейке Самовыражение в наклейке

Платёжные стикеры популярны, но теряют шансы на рост

Ведомости
Пробивной бизнес Пробивной бизнес

Почему пробив — основное правонарушение в области информационной безопасности?

Ведомости
От Трампа до Дидди: как именитые судебные художницы работали на громких процессах От Трампа до Дидди: как именитые судебные художницы работали на громких процессах

Судебные художницы: истоки профессии и самые известные процессы

Forbes
Уязвимое место: почему колени так часто травмируются Уязвимое место: почему колени так часто травмируются

Почему колени — такое болезненное и уязвимое место в теле человека?

ТехИнсайдер
Существует ли на самом деле свобода воли? Наука дает новый ответ на вечный вопрос Существует ли на самом деле свобода воли? Наука дает новый ответ на вечный вопрос

Мы привыкли считать, что делаем осознанный выбор, но так ли это на самом деле?

Inc.
9 причин есть авокадо постоянно 9 причин есть авокадо постоянно

Преимущества регулярного употребления авокадо для здоровья

ТехИнсайдер
Как вернуться в бизнес после банкротства Как вернуться в бизнес после банкротства

Как можно остаться «на плаву» после банкротства

Inc.
Бухенвальдская ведьма: история Ильзы Кох, одного из крупнейших монстров Холокоста Бухенвальдская ведьма: история Ильзы Кох, одного из крупнейших монстров Холокоста

Ильза Кох — одна из самых жестких представительниц гитлеровского режима

ТехИнсайдер
9 неожиданных фактов про еду 9 неожиданных фактов про еду

Факты про еду, которые точно удивят каждого!

Maxim
Показать то, что за кадром: как создаются экскурсии по действующему кинопарку Показать то, что за кадром: как создаются экскурсии по действующему кинопарку

Как организовать экскурсии по кинопарку, не мешая при этом съемочному процессу

Inc.
Круизы: новая глава Круизы: новая глава

Rei — проект 196‑метровой круизной яхты от конгломерата Viken Group

Y Magazine
Ценный дар Ценный дар

Как оформить дарственную на недвижимость, предусмотрев все риски

Лиза
Музыкальное образование может снизить возрастные когнитивные изменения Музыкальное образование может снизить возрастные когнитивные изменения

Как обучение музыке защищает мозг от одной из распространенных проблем старения

ТехИнсайдер
Уже не косметика, но еще не лекарство: чем опасна космецевтика Уже не косметика, но еще не лекарство: чем опасна космецевтика

Чем опасно бесконтрольное применение космецевтики?

Forbes
Делим заботы поровну Делим заботы поровну

Муж не помогает по дому: как исправить ситуацию без стресса

Лиза
Глубокий политэконом Глубокий политэконом

Как Адам Смит заложил основы современной экономической теории

Деньги
Китайцы распробовали российское вино Китайцы распробовали российское вино

Санкции — это новые точки роста

Эксперт
Что такое ксеноновые фары и можно ли их использовать в России Что такое ксеноновые фары и можно ли их использовать в России

Все о ксеноновых фарах: можно ли ставить, как выбрать, какие штрафы

РБК
Россия переключается на WiFi Россия переключается на WiFi

Почему подключение к домашнему WiFi требует теперь больше времени

Ведомости
Гелий Гелий

Известно, что каждый элемент имеет свой, только ему одному принадлежащий спектр

Наука и жизнь
Открыть в приложении