Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Код: элегантность Код: элегантность

Интерьер в стиле рафинированного софт-минимализма

SALON-Interior
Пэтфуд как бизнес Пэтфуд как бизнес

Как идет импортозамещение на рынке кормов для непродуктивных домашних животных

Агроинвестор
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
Вдова и самозванка: как две королевы соперничали за английский престол Вдова и самозванка: как две королевы соперничали за английский престол

Глава из книги «Без права на престол» — как расцвели и погибли пять династий

Forbes
Синдром Дон Жуана: какая детская травма скрыта за образом мачо Синдром Дон Жуана: какая детская травма скрыта за образом мачо

Что такое синдром Дон Жуана, как с ним живут мужчины?

Psychologies
На гравировке из Италии опознали последнего пещерного льва Европы На гравировке из Италии опознали последнего пещерного льва Европы

Археологи исследовали кусок известняка с гравировками из пещеры Романелли

N+1
Сложное соседство: как жить в одном доме с кошкой, если у вас появилась аллергия Сложное соседство: как жить в одном доме с кошкой, если у вас появилась аллергия

Как ужиться в одной квартире с кошкой, если у вас появилась аллергия на нее?

ТехИнсайдер
Цена прохлады: как выбрать кондиционер для дома Цена прохлады: как выбрать кондиционер для дома

На что обратить внимание при выборе кондиционера?

CHIP
8 вопросов бизнес-психолога, которые помогут найти свой путь 8 вопросов бизнес-психолога, которые помогут найти свой путь

Как понять, чем вы хотите заниматься и какая должность удовлетворит ваши амбиции

Psychologies
Мощный и быстрый «Буревестник»: как устроены ядерные двигатели для ракет Мощный и быстрый «Буревестник»: как устроены ядерные двигатели для ракет

Как работает ракета «Буревестник» с ядерным воздушно-реактивным двигателем?

ТехИнсайдер
Матери тратят 97 часов в неделю на выполнение родительских обязанностей Матери тратят 97 часов в неделю на выполнение родительских обязанностей

Материнство включает список обязанностей, который можно продолжать бесконечно

ТехИнсайдер
Вот и сказочке конец: как Винни-Пух стал серийным убийцей Вот и сказочке конец: как Винни-Пух стал серийным убийцей

Почему сказки становятся кровавыми хоррорами?

СНОБ
Исследование: мужчины, как правило, выбирают себе друзей с другим вкусом на девушек Исследование: мужчины, как правило, выбирают себе друзей с другим вкусом на девушек

Мужчины стараются дружить с теми, у кого вкус на девушек не совпадает с их

ТехИнсайдер
Эксперимент Таскиги: одна из самых жестоких медицинских программ в истории человечества Эксперимент Таскиги: одна из самых жестоких медицинских программ в истории человечества

Проект Таскиги стал одним из самых жестоких случаев медицинского расизма

ТехИнсайдер
Можно ли подружить кошку с собакой? Рассказываем, как правильно это сделать Можно ли подружить кошку с собакой? Рассказываем, как правильно это сделать

Неужели правда, что кот и пес — это заведомо враги?

ТехИнсайдер
Медные слитки из минойского дворца Агия-Триада отлили из уральской руды Медные слитки из минойского дворца Агия-Триада отлили из уральской руды

Ученые проанализировали состав 15 медных слитков, обнаруженных на Крите

N+1
10 способов справиться со стрессом: только наука! 10 способов справиться со стрессом: только наука!

Научно обоснованные методы помогут вам защитить свое тело и мозг от стресса

ТехИнсайдер
«Я видел и слышал космос во всей его полноте»: что переживает человек, когда сходит с ума «Я видел и слышал космос во всей его полноте»: что переживает человек, когда сходит с ума

Что чувствует человек, который перестает осознавать границы нормальности?

Psychologies
У Карлсона — нарциссизм, у Иа — депрессия: что не так с любимыми героями советских мультфильмов У Карлсона — нарциссизм, у Иа — депрессия: что не так с любимыми героями советских мультфильмов

Нет здоровых персонажей, есть недообследованные

Psychologies
«Их глаза видели бога»: лучшая история любви всех времен по мнению Опры Уинфри «Их глаза видели бога»: лучшая история любви всех времен по мнению Опры Уинфри

Отрывок из романа Зоры Нил Херстон «Их глаза видели бога»

Forbes
Всё сложится! Всё сложится!

Лайфхаки, которые упростят сборы и сделают путешествие комфортнее

Новый очаг
Как правильно пить в одиночестве: 12 честных правил Как правильно пить в одиночестве: 12 честных правил

Как пить в одиночку осознанно и продуманно?

Maxim
Дьявол в деталях Дьявол в деталях

Языком моды Михаил Булгаков владел не менее виртуозно, чем литературным

Men Today
Как преодолеть трудности в семейных отношениях: разбор четырех частых ситуаций Как преодолеть трудности в семейных отношениях: разбор четырех частых ситуаций

Разбор четырех случаев конфликтов, из которых мы можем извлечь полезные выводы

Psychologies
Видеть талант в каждом: как Елена Гнесина посвятила жизнь обучению музыке Видеть талант в каждом: как Елена Гнесина посвятила жизнь обучению музыке

История Елены Гнесиной, основавшей один из главных музыкальных вузов в России

Forbes
Литературные персонажи, которые бесят всех до чертиков Литературные персонажи, которые бесят всех до чертиков

11 примеров, когда герой книги раздражает настолько, что хочется бросить чтение

Maxim
Антропологи реконструировали верхнюю челюсть жившего 115 тысяч лет назад ребенка Антропологи реконструировали верхнюю челюсть жившего 115 тысяч лет назад ребенка

Палеоантропологи сделали виртуальную реконструкцию верхней челюсти ребенка

N+1
«После школы»: почему в 57-й годами процветало насилие «После школы»: почему в 57-й годами процветало насилие

Почему подростки не могут распознать насилие в свой адрес?

Psychologies
Раз, два, ведьма заберет тебя: что смотреть, если вам нравится сериал «Уэнсдэй» Раз, два, ведьма заберет тебя: что смотреть, если вам нравится сериал «Уэнсдэй»

10 мистических сериалов, напоминающих «Уэнсдэй»

Правила жизни
Среди старых находок с юга Испании обнаружили кость пещерного льва Среди старых находок с юга Испании обнаружили кость пещерного льва

Ученые исследовали фаунистические остатки, обнаруженные в пещере Каригуэла

N+1
Открыть в приложении