Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Александр Крайнов: «Нейросеть не заменит людей в общении, размышлении и умении договариваться» Александр Крайнов: «Нейросеть не заменит людей в общении, размышлении и умении договариваться»

Как нейросети повлияют на профессии и когда они станут привычным инструментом

РБК
Самый секретный агент Самый секретный агент

Из чего сделан мир Джеймса Бонда Яна Флеминга

Weekend
Владимир Васильев: «Гонка технологических «вооружений» уже началась» Владимир Васильев: «Гонка технологических «вооружений» уже началась»

Владимир Васильев – о влиянии больших языковых моделей на будущее человека

РБК
Самоубийство семьи бургомистра Самоубийство семьи бургомистра

«Кризис закончен. Орудия затихли. Кто знал, как нам стоит поступить?»

Дилетант
Корея против Кореи Корея против Кореи

Эту войну называют «забытой». В Советском Союзе о ней мало писали и говорили

Дилетант
Есть на что строить Есть на что строить

Зачем создавать отдельный механизм финансирования — инфраструктурные облигации?

Монокль
«Я записался в добровольческую армию» «Я записался в добровольческую армию»

Еврей-доброволец пишет письмо русским белогвардейцам в оккупированном Париже

Дилетант
Почему машина заводится и глохнет и что с этим делать Почему машина заводится и глохнет и что с этим делать

Что делать, если машина глохнет: причины, диагностика, куда смотреть

РБК
«Армяне не хотели придавать карабахскому вопросу статус межгосударственных территориальных претензий» «Армяне не хотели придавать карабахскому вопросу статус межгосударственных территориальных претензий»

Тридцать лет переговоров о судьбе Нагорного Карабаха в интервью с политологом

Монокль
Развод и утрата: как справиться с последствиями Развод и утрата: как справиться с последствиями

Как утрата влияет на наше психологическое состояние?

VOICE
Жаркое лето в Сибири Жаркое лето в Сибири

Природный отдых у города: почему стоит поехать в Новосибирск летом

Отдых в России
Ад и рай Чехова Ад и рай Чехова

Дом-музей Антона Чехова — как жил и творил великий писатель?

Отдых в России
Седан XPeng P7 сжег мосты консервативного дизайна: самый смелый рестайлинг в истории китайского автопрома Седан XPeng P7 сжег мосты консервативного дизайна: самый смелый рестайлинг в истории китайского автопрома

Готов ли рынок к седану, который выглядит как артефакт из будущего?

ТехИнсайдер
Нефтяная кубышка: за и против Нефтяная кубышка: за и против

Нужен ли России стратегический запас нефти?

Монокль
Правило рецидивиста Правило рецидивиста

Норма, именуемая сегодня «Правилом Миранды», существовала далеко не всегда

Дилетант
Переславская флотилия Переславская флотилия

Переславль-Залесский: город на Золотом кольце, где хочется остановиться

Отдых в России
На «зеленой» волне На «зеленой» волне

Какие экологические технологии внедряют отечественные аграрии

Агроинвестор
Он лгал и учил лгать Он лгал и учил лгать

«Мы не знаем страны, в которой живем». А знаем ли мы Юрия Андропова?

Дилетант
Катай на здоровье Катай на здоровье

Как укрепить мышцы кора и натренировать стабилизацию

ЖАРА Magazine
Письмо гонителю генетики Письмо гонителю генетики

Это письмо можно считать одним из живых документов «оттепели»

Дилетант
Уголь в цене Уголь в цене

Что происходит с ценами на уголь и что на них влияет

Ведомости
«В России гость за 150 рублей ждет вкус, как в Мельбурне, и сервис, как в Токио. И получает это» «В России гость за 150 рублей ждет вкус, как в Мельбурне, и сервис, как в Токио. И получает это»

Легко ли миллениалу делать кофейный бизнес в России

Монокль
Ядерный зонтик Франции никого не спасет Ядерный зонтик Франции никого не спасет

Из каких компонентов складывается французский ядерный потенциал

Монокль
«Любая цифровизация должна сопровождаться стратегией по кибербезопасности» «Любая цифровизация должна сопровождаться стратегией по кибербезопасности»

Почему одни компании видят отдачу от внедрения цифровых решений, а другие нет?

Ведомости
Денис Попов: «Наша миссия – создавать инновационное программное обеспечение для авиации» Денис Попов: «Наша миссия – создавать инновационное программное обеспечение для авиации»

О будущем авиатеха и перспективных разработках для авиационной отрасли

Ведомости
Хитовая история Хитовая история

Факты о песнях, которые в свое время возглавляли всевозможные чарты

ЖАРА Magazine
Наследие императора Наследие императора

Гатчина — для тех, кто хочет увидеть величие императорской России без туристов

Отдых в России
«Герофарм» продолжает экспансию на глобальный рынок «Герофарм» продолжает экспансию на глобальный рынок

Петр Родионов — о том, как вырос один из флагманов импортозамещения

Монокль
В нескольких минутах от третьей мировой В нескольких минутах от третьей мировой

Сбои в работе СПРН случались, но всегда вовремя вмешивался человеческий фактор

Дилетант
Попасть в настоящее кино Попасть в настоящее кино

Новый кинопарк «Москино» — центр съемок и место притяжения туристов

Отдых в России
Открыть в приложении