Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Подпоручик, маршал, палач, жертва Подпоручик, маршал, палач, жертва

Как самонадеянность привела Тухачевского к гибели

Дилетант
Актриса-фейерверк Актриса-фейерверк

Полина Максимова снимается в кино уже двадцать лет — с шестнадцати

OK!
«Люди не смогут отличить, что реально, а что воображаемо» «Люди не смогут отличить, что реально, а что воображаемо»

Пять кратких историй успеха, достигнутого в том числе и выходцами из России

РБК
Стресс на работе: как распознать и что делать Стресс на работе: как распознать и что делать

Основные факторы возникновения стресса на работе и его влияние на организм

Inc.
Наталья Царевская-Дякина: «Возможно, школ и вузов в привычном нам понимании когда-нибудь не станет» Наталья Царевская-Дякина: «Возможно, школ и вузов в привычном нам понимании когда-нибудь не станет»

Как будет меняться система образования и что такое концепция life-work learning

РБК
Регионы не оправдали кредиты Регионы не оправдали кредиты

Счетная палата усомнилась в эффективном использовании кредитов регионами

Ведомости
Все уровни беспилотности Все уровни беспилотности

Из пункта А в пункт Б выехал автомобиль — казалось бы, что может быть проще?

ТехИнсайдер
Простой шаг, который сделает еду, разогретую в микроволновке, по-настоящему вкусной Простой шаг, который сделает еду, разогретую в микроволновке, по-настоящему вкусной

Зачем менять уровень мощности СВЧ-печи?

VOICE
Профессор Эйнштейн. Распространённые ошибки его биографов Профессор Эйнштейн. Распространённые ошибки его биографов

Рассказывать о жизни Эйнштейна часто берутся люди, слабо знакомые с предметом

Наука и жизнь
В сосновом бору В сосновом бору

Настоящий гимн природе в интерьере загородного дома в пригороде Новосибирска

SALON-Interior
Цифровой «наставник»: почему бизнесу выгоднее обучать, а не увольнять сотрудников Цифровой «наставник»: почему бизнесу выгоднее обучать, а не увольнять сотрудников

Переквалификация превращается в главный инструмент устойчивости компаний

Forbes
Тысячи сомиков-шмелей вскарабкались по водопадам Тысячи сомиков-шмелей вскарабкались по водопадам

Почему южноамериканские сомики-шмели необычно ведут себя у водопадов

N+1
Дорогие мои старики Дорогие мои старики

Всадники метал-апокалипсиса, о которых стоит помнить

Weekend
Живот одобрит Живот одобрит

Чем питаться при синдроме раздраженного кишечника

Лиза
Как нас обманывает Disney: чем на самом деле заканчиваются популярные детские сказки Как нас обманывает Disney: чем на самом деле заканчиваются популярные детские сказки

Почти у каждой сказки, которую вы читали в детстве, есть версия 18+...

ТехИнсайдер
Что такое камера на полосу и что она фиксирует Что такое камера на полосу и что она фиксирует

О чем фраза «Впереди камера на полосу» из автомобильных навигаторов?

РБК
Облачный сервис Облачный сервис

Культурист Сергей Бойцов и его заоблачный достижения

Men Today
Красота функции Красота функции

Интерьер функционального дома для двух взрослых и двух детей

SALON-Interior
Сезонный дисконт Сезонный дисконт

Что может стать поводом для снижения ставки ЦБ?

Ведомости
Что наша жизнь — стрельба Что наша жизнь — стрельба

Случаи в истории кинематографа, когда пуля оказалась умной и настоящей

Weekend
Как долго человек может задерживать дыхание? Хорватский фридайвер побил все рекорды Как долго человек может задерживать дыхание? Хорватский фридайвер побил все рекорды

Те две минуты, на которые можно задержать дыхание под водой, — это предел?

ТехИнсайдер
«Покажи ручку!» 3 причины приучить себя подавать сигналы рукой «Покажи ручку!» 3 причины приучить себя подавать сигналы рукой

Несколько важных причин подавать сигналы рукой, когда едешь на велосипеде

ТехИнсайдер
Есть ли жизнь на Марсе? Есть ли жизнь на Марсе?

Пройдемся по имеющимся фактам в вопросе о жизни на Марсе

Наука и техника
Как бюджетно вывести пятна от солнцезащитного крема с одежды: простые способы Как бюджетно вывести пятна от солнцезащитного крема с одежды: простые способы

Несколько рабочих способов вернуть вещам чистый вид после пятен санскрина

ТехИнсайдер
Курс на Луну и выше Курс на Луну и выше

Анатолий Петрукович о приоритетах нового нацпроекта по развитию космоса

Монокль
Каннибалы 5600 лет назад съели в Атапуэрке 11 человек Каннибалы 5600 лет назад съели в Атапуэрке 11 человек

Ученые проанализировали многочисленные человеческие кости из пещеры Эль-Мирадор

N+1
Артем Кошман: «В карты меня научил играть дедушка» Артем Кошман: «В карты меня научил играть дедушка»

Артем Кошман рассказал о любви к Петербургу и отношении к азартным играм

Grazia
«Хотеть пять звезд, спа и три ресторана — это не стратегия». Президент Cosmos Hotel Group — об ошибках начинающих отельеров «Хотеть пять звезд, спа и три ресторана — это не стратегия». Президент Cosmos Hotel Group — об ошибках начинающих отельеров

Каких ошибок следует избегать отельеру и почему за малыми городами будущее?

Inc.
Тренд на тихий бренд Тренд на тихий бренд

Low profile publicity: почему крупный бизнес выбирает стратегию скромности?

Ведомости
Свиньи как свиньи Свиньи как свиньи

История «Скотного двора», главной сказки холодной войны, в вопросах и ответах

Weekend
Открыть в приложении