Что такое «коллапс модели», чем он угрожает развитию ИИ и человека

Сегодня активно обсуждается так называемый «коллапс модели», явление при котором нейросеть деградирует и перестает работать. Но насколько реалистичны эти прогнозы и что вообще такое этот «коллапс модели»? С этим попробовал разобраться Аарон Дж. Сносвелл научный сотрудник по вопросам ИИ, Квинслендского технологического университета.

Владимир Губайловский

Когда модели изображений искусственного интеллекта обучаются на собственных результатах, они могут создавать искаженные изображения, изуродованные пальцы или странные узоры. Изображения, созданные Sina Alemohammad and others.

Обсуждавшийся еще 2023 году, но ставший популярным совсем недавно «коллапс модели» относится к гипотетическому сценарию, при котором будущие системы ИИ деградируют, потому что обучаются на данных генерируемых ИИ.

Современные системы ИИ строятся на основе машинного обучения. Программисты закладывают математическую структуру, но реальный «интеллект» появляется в результате обучения системы на определенных дата-сетах.

Это не любые данные. Современным генеративным системам ИИ нужны высококачественные данные, причем в большом количестве.

Сколько надо данных

«Чтобы обучить GPT-3, OpenAI понадобилось более 650 миллиардов английских слов текста — примерно в 200 раз больше, чем вся английская Википедия. Но для этого требовалось собрать почти в 100 раз больше исходных данных из интернета и 98% которых было затем отфильтровано и отброшено», — пишет Аарон Дж. Сносвелл со ссылкой на статью, размещенную на сервере arxiv.

Чтобы получить эти данные, крупные технологические компании, такие как OpenAI, Google, Meta (признана экстремистской организацией на территории РФ) и Nvidia, постоянно сканируют интернет, собирая терабайты контента, чтобы «накормить» машины. Но после появления в 2022 году широкодоступных и полезных систем генеративного ИИ люди все чаще загружают и делятся контентом, частично или полностью созданным ИИ.

В 2023 году исследователи начали задумываться о том, нельзя ли обойтись для обучения только данными, созданными ИИ, вместо данных, сгенерированных человеком.

Для этого есть огромные стимулы. Контент, созданный ИИ гораздо дешевле, чем данные, созданные человеком. Кроме того, его собирание не вызывает сомнений с этической и юридической точек зрения. На него ни у кого нет авторских прав, кроме компании которая его создает.

Что такое «коллапс модели», чем он угрожает развитию ИИ и человека

Сколько надо данных

Рекомендуемые статьи

Если гроза застала вас в пути, чем станет машина – спасением или смертью?

Как простить родителей за детские травмы и как это облегчит нашу жизнь?

Использование облачных технологий в процессе образования улучшает успеваемость

Однажды я провел за два года три свадьбы у одной и той же невесты!

Македонец, покоривший мир

Герпетолог встретил индиговую змею, которую вырвало двумя более мелкими змеями

Борьба самок за самцов, сон стоя, доверчивость и другие факты об аистах

Какого специального лечения зачастую требует стоматит?

Как решить проблему технологического отставания в российском АПК

Квартира непростой архитектуры, с огромной антресолью и множеством несущих балок

Продажи грузовиков в России падают. Почему?

Игровые ноутбуки, которые не разорят ваш бюджет

Как определить параметры ядра кометы

Поддержание досок в идеальном состоянии — это не просто прихоть «красоты»

Приложения, которые помогут собрать все файлы в одном месте и ничего не потерять

Пинкертоны: одно из первых детективных агентств

Почему отдельный бак для пищевых отходов не избавит страну от выброшенной еды?

Почему концепция многополярности не обрела прочных теоретических оснований?

Какие методы борьбы существуют против инвазивного вредителя — испанского слизня

Как вдохновиться на подвиг вернуться к тренировкам?

Что не понравилось Сталину в фильме «Большая жизнь»

Какие уроки истории стоит не забывать современным экономистам

Автомобильные реликвии, которые обнаруживают слишком поздно

Как ученые доказали результативность наночастиц золота для борьбы с раком

«Джокер: Безумие на двоих»: фильм, который одновременно восхищает и раздражает

Скончался наставник нескольких звезд тенниса. Роберт Лэнсдорп прожил 85 лет

Не каждая хозяйка знает, что меламиновые губки подходят не для всякой работы

История-поиск о тех, кто потерялся и нашел (в том числе себя)

Как в России развиваются исследования интерфейса мозг—компьютер

Ученые провели 26 томографий беременной, чтобы оценить изменения ее мозга