Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

В своих пределах: как растет индустрия путешествий в России В своих пределах: как растет индустрия путешествий в России

Какие тренды преобладают в индустрии внутреннего туризма

РБК
Король полноразмерных внедорожников. Пять поколений Cadillac Escalade Король полноразмерных внедорожников. Пять поколений Cadillac Escalade

Escalade до сих пор остаётся одним из самых неоднозначных автомобилей

4x4 Club
Омнимодальность — главный тренд в сфере ИИ Омнимодальность — главный тренд в сфере ИИ

Как формируется новая культура потребления

Эксперт
Макаронная революция: как «Макфа» отошла «Росимуществу» и какие еще бизнесы оказались в руках государства Макаронная революция: как «Макфа» отошла «Росимуществу» и какие еще бизнесы оказались в руках государства

Росимуществу перешло более десятка крупных производственных холдингов

Inc.
Усадьбы Москвы Усадьбы Москвы

Русские имения хранят множество историй, повлиявших на судьбу страны

Вокруг света
Ученые узнали, почему реки Аляски начали ржаветь Ученые узнали, почему реки Аляски начали ржаветь

Почему реки Аляски окрасились в странный оттенок, который видно даже из космоса?

ТехИнсайдер
Сомнительные пошлины Сомнительные пошлины

К чему могут привести ограничения на ввоз российской сельхозпродукции в ЕС

Агроинвестор
Лучше, чем сериалы: 5 книг, которые авторы пишут по частям Лучше, чем сериалы: 5 книг, которые авторы пишут по частям

Книги, которые представляют собой часть большой серии

ТехИнсайдер
Художник Нестор Энгельке: Я вижу мир именно таким — суровым, как топор Художник Нестор Энгельке: Я вижу мир именно таким — суровым, как топор

Нестор Энгельке о «топорописи», работе с деревом и классическом искусстве

СНОБ
Восстанавливаем водный баланс: как заставить себя пить больше воды Восстанавливаем водный баланс: как заставить себя пить больше воды

Что делать, если пить 8 стаканов в день не получается?

ТехИнсайдер
Без комплексов Без комплексов

Изучим самые распространенные женские причуды и варианты терапии

Лиза
Стиль твоей удачи Стиль твоей удачи

Минимализм или классика: самый подходящий интерьер для твоего знака зодиака

Лиза
«Симпатия»: как построить приют для собак на фоне политического кризиса «Симпатия»: как построить приют для собак на фоне политического кризиса

Отрывок из книги Родриго Бланко Кальдерона «Симпатия»

Forbes
Тёмное зазеркалье Тёмное зазеркалье

Рядом с нами может существовать параллельный зеркальный мир, названный теневым

Наука и жизнь
Почему манга читается справа налево и какой в этом смысл Почему манга читается справа налево и какой в этом смысл

Что такое манга и как её читать?

Maxim
«Как я приняла свою негативно настроенную мать»: 6 уроков «Как я приняла свою негативно настроенную мать»: 6 уроков

Как научиться быть счастливой, несмотря на негатив, исходящий от близких?

Psychologies
Спускался к «Титанику», подлодке «Курск» и на дно Северного Ледовитого океана. Интервью с подводником и Героем России Евгением Черняевым Спускался к «Титанику», подлодке «Курск» и на дно Северного Ледовитого океана. Интервью с подводником и Героем России Евгением Черняевым

Евгений Черняев рассказал, что увидел во время погружения к подлодке «Курск»

СНОБ
Расстрел с конфискацией Расстрел с конфискацией

Как в СССР появились статьи об измене родине

Дилетант
Первая эмоциональная помощь при ссорах: 4 шага Первая эмоциональная помощь при ссорах: 4 шага

Что вы делаете, когда собеседник обрушивает на вас свой гнев?

Psychologies
«Все, что было его, – нынче ваше» «Все, что было его, – нынче ваше»

Место творчества Булата Окуджавы в современной литературе и литературоведении

Знание – сила
Екатерина Стулова: «Если меня любят, то я готова прыгать через костер, бегать по снегу» Екатерина Стулова: «Если меня любят, то я готова прыгать через костер, бегать по снегу»

Для меня все проекты являются самыми психологически и физически затратными

Коллекция. Караван историй
Полина Luxury Girl: «В процессе съемок мой муж однажды чуть не получил инфаркт» Полина Luxury Girl: «В процессе съемок мой муж однажды чуть не получил инфаркт»

Полина Luxury Gir рассказывает истории про индустрию фильмов для взрослых

Maxim
Резервная копия человечества на Красной планете: узнали у экспертов, когда ждать первых марсианских колоний Резервная копия человечества на Красной планете: узнали у экспертов, когда ждать первых марсианских колоний

5 вопросов о колонизации Марса писателю-фантасту и популяризатору науки

ТехИнсайдер
Люди, которые любят вино, чаще называют свои дни «счастливыми» Люди, которые любят вино, чаще называют свои дни «счастливыми»

Согласно опросу, месяц обязательно будет «выдающийся», если вы выпиваете вино!

ТехИнсайдер
«Чувства гораздо богаче и тоньше, чем считалось раньше»: сколько эмоций мы испытываем на самом деле «Чувства гораздо богаче и тоньше, чем считалось раньше»: сколько эмоций мы испытываем на самом деле

Сколько эмоций на самом деле испытывают люди?

Psychologies
Настоящее и будущее веб-технологий в цифрах и фактах Настоящее и будущее веб-технологий в цифрах и фактах

Какие цифры описывают Всемирную паутину?

РБК
Экспромт-маринад Экспромт-маринад

Новые оттенки вкуса маринадов для шашлыков покорят всех!

Лиза
Энергетики Энергетики

Стоит ли прибегать к помощи энергетиков, когда силы на исходе?

Здоровье
Пять возможных шагов к экономике предложения Пять возможных шагов к экономике предложения

Правительство собирается перевести народное хозяйство на экономику предложения

Монокль
Не только нейроны, но и астроциты мозга обрабатывают информацию Не только нейроны, но и астроциты мозга обрабатывают информацию

Открытие: астроциты могут накапливать информацию о событиях, как и нейроны

ТехИнсайдер
Открыть в приложении