Градация деградации: ожидает ли генеративный искусственный интеллект вырождение
Ученые бьют тревогу: если обучать искусственный интеллект на текстах, написанных его же «коллегой», это может привести к краху нейросетей. Обучение на основе данных, полученных другим ИИ, приводит к коллапсу модели, которая неправильно воспринимает реальность. Интернет, таким образом, как мировой океан, уже заполняется «мусором», пишут в статье о своей работе исследователи из Великобритании и Канады. Forbes опросил российских специалистов по ИИ, насколько серьезна эта проблема и к чему она может привести.
Интернет наполняется ерундой
Спустя всего полгода после появления ChatGPT в широком доступе все больше людей применяют ИИ в создании и публикации контента. По данным McKinsey and Company, уже около 50% сотрудников по всему миру используют в своей работе подобные инструменты. Но что происходит по мере распространения контента, сгенерированного ИИ, по всему интернету, когда модели ИИ начинают обучаться на нем, а не на том, что создал человек?
Группа исследователей из Великобритании и Канады изучила эту проблему и недавно опубликовала статью о своей работе в журнале arXiv. То, что они обнаружили, вызывает тревогу для существующей технологии генеративного ИИ и ее будущего: использование контента, сгенерированного моделями, при обучении приводит к необратимым дефектам. Это, в свою очередь, приводит к коллапсу модели — «дегенеративному процессу, при котором со временем модели забывают истинное распределение исходных данных <...> этот процесс неизбежен даже для кейсов с почти идеальными условиями для долгосрочного обучения», пишут они.
«Со временем ошибки усугубляются и в конечном счете заставляют модели, которые учатся на сгенерированных данных, еще больше искажать реальность, — прокомментировал VentureBeat один из ведущих авторов статьи Илья Шумайлов. — Мы были удивлены, наблюдая, как быстро происходит разрушение модели: модели могут быстро забыть большую часть исходных данных, из которых они изначально извлекли уроки». Таким образом, производительность ИИ ухудшается, это приводит к большему количеству ошибок в ответах и создаваемом контенте и к гораздо меньшему разнообразию безошибочных ответов.
«Точно так же, как мы усыпали океаны пластиковым мусором и наполнили атмосферу углекислым газом, мы собираемся заполнить интернет ерундой, — продолжает другой соавтор исследования, профессор Кембриджского и Эдинбургского университетов Росс Андерсон. — Это затруднит обучение новых моделей, что даст преимущество тем, кто уже сделал это. Действительно, мы уже видим, как стартапы с искусственным интеллектом забивают интернет-архив обучающими данными».