Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

От любви до ненависти: представители каких профессий считаются самыми счастливыми и самыми несчастными в мире От любви до ненависти: представители каких профессий считаются самыми счастливыми и самыми несчастными в мире

Представители каких профессий, как правило, наслаждаются своим делом?

ТехИнсайдер
«Я должна говорить»: как слепоглухая Хелен Келлер боролась за права людей «Я должна говорить»: как слепоглухая Хелен Келлер боролась за права людей

Как Хелен Келлер посвятила жизнь борьбе за права женщин, незрячих и глухих людей

Forbes
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
5 основных теорий человечества о том, что такое сны 5 основных теорий человечества о том, что такое сны

Сны развлекают, пугают и завораживают, но откуда они берутся и для чего?

Psychologies
Как выйти из токсичных отношений с самим собой Как выйти из токсичных отношений с самим собой

Почему мы ругаем себя? Чем отличается самоанализ и самокритика?

Psychologies
Золотая комната Золотая комната

К дикому племени спускается сияющий человек в скафандре и протягивает к ним руку

Знание – сила
В отпуск за зубами: москвичи экономят сотни тысяч рублей в стоматологических турах В отпуск за зубами: москвичи экономят сотни тысяч рублей в стоматологических турах

Что такое зубные туры и как они работают

Forbes
Правильный гардероб: эксперт моды Тим Ильясов — об итальянском стиле, идеальных пиджаках и нелюбви к трендам из тиктока Правильный гардероб: эксперт моды Тим Ильясов — об итальянском стиле, идеальных пиджаках и нелюбви к трендам из тиктока

Исследователь моды Тим Ильясов — о мечтах юности и давних кумирах

Правила жизни
«Фанатизм стал нашей страстью»: почему немцы поверили в нацистскую пропаганду «Фанатизм стал нашей страстью»: почему немцы поверили в нацистскую пропаганду

Как Мелита Машманн работала в нацистской газете?

Forbes
Бемби против Годзиллы Бемби против Годзиллы

«Олененок»: триумф травмы

Weekend
Гонки вокруг света Гонки вокруг света

Путешествие «леди Сенсация» привлекло внимание прессы и читателей по всему миру

Вокруг света
Жизнь продолжается Жизнь продолжается

Azimut Fly 72 — авангардная моторная яхта от итальянского бренда

Y Magazine
Лимонад за подводные лодки: как Pepsi выкупала у СССР военные корабли Лимонад за подводные лодки: как Pepsi выкупала у СССР военные корабли

Pepsi была крупнейшей морской военной силой в мире — как так вышло?

ТехИнсайдер
25 фраз, которые выдают насилие в отношениях 25 фраз, которые выдают насилие в отношениях

Какие слова нужны партнеру, чтобы установить над вами контроль

Psychologies
Выиграть жену Выиграть жену

Интеллектуальные игры сопровождали калмыков с детства

Вокруг света
Стюардесса рассказала, какие мифы об авиации в кино сильнее всего бесят Стюардесса рассказала, какие мифы об авиации в кино сильнее всего бесят

Мифы о стюардессах: высокие каблуки, запрещенные вещества и отношения с пилотами

Maxim
Не очень милый котик Не очень милый котик

История самого успешного авторского мультфильма и его героя, кота Фрица

Weekend
Наполеон ненастоящий Наполеон ненастоящий

Новый «Наполеон»: богато снятая сказка, имеющая мало общего с реальностью

Дилетант
6 признаков того, что в вашем рационе слишком много соли 6 признаков того, что в вашем рационе слишком много соли

Определить, что вы едите слишком много соли, можно по нескольким признакам

ТехИнсайдер
Вопрос на засыпку: можно ли увидеть зеркало, и какого оно цвета? Вопрос на засыпку: можно ли увидеть зеркало, и какого оно цвета?

Какого цвета зеркало? И можно ли его вообще увидеть?

ТехИнсайдер
Почему в самолете при взлете и посадке запрещено опускать спинки кресел Почему в самолете при взлете и посадке запрещено опускать спинки кресел

Почему мы не можем приземляться и взлетать с комфортом?

ТехИнсайдер
«Виды доброты» в Каннах: как Йоргос Лантимос рассказывает о власти и любви «Виды доброты» в Каннах: как Йоргос Лантимос рассказывает о власти и любви

Что представляют из себя три новеллы в фильме Йоргоса Лантимоса «Виды доброты»

Forbes
Агафья Завидная: как сложилась судьба единственной ученицы Ивана Поддубного Агафья Завидная: как сложилась судьба единственной ученицы Ивана Поддубного

Трагичная историю единственной ученицы Ивана Поддубного, Агафьи Завидной

ТехИнсайдер
Удивительный мир живой природы: как общаются между собой живые организмы Удивительный мир живой природы: как общаются между собой живые организмы

Самые необычные способы коммуникации из мира фауны

ТехИнсайдер
Пэтфуд как бизнес Пэтфуд как бизнес

Как идет импортозамещение на рынке кормов для непродуктивных домашних животных

Агроинвестор
«Мифы воды. От кракена и „Летучего голландца“ до реки Стикс и Атлантиды» «Мифы воды. От кракена и „Летучего голландца“ до реки Стикс и Атлантиды»

Суеверия, связанные с приливами и отливами

N+1
Ландшафтная терапия. Горы, лес, море – что подойдет именно тебе для отдыха Ландшафтная терапия. Горы, лес, море – что подойдет именно тебе для отдыха

Чтобы получить от отпуска только пользу, важно правильно расставить приоритеты

Лиза
Новые археологические открытия и альтернативные пути развития человечества Новые археологические открытия и альтернативные пути развития человечества

Ряд археологических открытий, не вписывающихся в привычную со школы картину

Наука и техника
Новое увлечение у подростков: что такое фурри Новое увлечение у подростков: что такое фурри

Почему подростки интересуются культурой фурри?

Psychologies
Мнимый безумец Мнимый безумец

Томмазо Кампанелла — монах, философ, мятежник, король мира, поэт и маг

Дилетант
Открыть в приложении