Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Дело к войне? Эксперты о том, чем кончится обострение ситуации в Идлибе Дело к войне? Эксперты о том, чем кончится обострение ситуации в Идлибе

Чем грозит развитие конфликта в Идлибе, и о возможных выходах из ситуации

СНОБ
Как травма становится стимулом для роста: 7 необходимых этапов Как травма становится стимулом для роста: 7 необходимых этапов

Душевные травмы: калечат или дают стимул для внутреннего развития?

Psychologies
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
Спиной к еде Спиной к еде

Чтобы привести себя в форму, зачастую не нужны жесткие диеты

Лиза
Что делать, когда жизнь выходит из-под контроля: советы психолога Что делать, когда жизнь выходит из-под контроля: советы психолога

Когда все идет не так, самое главное — сконцентрироваться на себе

Psychologies
Бэби-бум Бэби-бум

Мечтаете о классическом бэбифейсе?

Собака.ru
Химики перепаяли коллоидный раствор циклодекстрина в нужную форму Химики перепаяли коллоидный раствор циклодекстрина в нужную форму

Как коллоидный раствор циклодекстрина ведет себя на границе раздела вода-толуол

N+1
8 вещей, которые надо сделать на кухне перед тем, как ты уедешь в отпуск 8 вещей, которые надо сделать на кухне перед тем, как ты уедешь в отпуск

Подготовительная работа на кухне перед отпуском: что нужно учесть?

VOICE
Российский турист побывал в КНДР и рассказал о 5 странностях, которые повергли его в шок Российский турист побывал в КНДР и рассказал о 5 странностях, которые повергли его в шок

Что вас точно удивит в Северной Корее

Maxim
Мария Михалкова-Кончаловская: «Я пытаюсь отучиться бросаться в омут с головой» Мария Михалкова-Кончаловская: «Я пытаюсь отучиться бросаться в омут с головой»

Молодая актриса рассказала, каково принадлежать к влиятельной актерской династии

Maxim
Дети Солнца Дети Солнца

Что посадить на открытом месте садового участка, а что – в тени

Лиза
Любовная телепатия: можем ли мы читать мысли друг друга Любовная телепатия: можем ли мы читать мысли друг друга

Существует ли любовная телепатия?

Psychologies
Галина и Евгений Киндиновы: «Коля долго не женился. Конечно же, романы у него были, но не с актрисами» Галина и Евгений Киндиновы: «Коля долго не женился. Конечно же, романы у него были, но не с актрисами»

Близкие друзья откровенно о Николае Караченцове

Коллекция. Караван историй
6 фраз, которые взрослые дети мечтают услышать от своих родителей 6 фраз, которые взрослые дети мечтают услышать от своих родителей

Шесть важных фраз, которые родители могут (и должны) сказать повзрослевшим детям

Psychologies
Отношения без драм: почему женщинам становится скучно Отношения без драм: почему женщинам становится скучно

Почему же некоторым  кажется, что они не могут обойтись без скандалов?

VOICE
Убийца прокрастинации: как работать по технике «Помодоро» Убийца прокрастинации: как работать по технике «Помодоро»

Как выполнять задачи эффективно и все успевать благодаря технике «Помодоро»

ТехИнсайдер
7 фраз, с помощью которых легко завести друзей в любом возрасте 7 фраз, с помощью которых легко завести друзей в любом возрасте

Друзей можно завести и в солидном возрасте: помогут эти фразы

Maxim
Как болельщики императора свергали Как болельщики императора свергали

Спортивные игры – идеальная среда для социального взрыва

Вокруг света
Все о бронеавтомобиле «Тигр»: история создания и характеристики Все о бронеавтомобиле «Тигр»: история создания и характеристики

Что представляет бронеавтомобиль «Тигр»

РБК
«Память»: драма с Джессикой Честейн о том, как мы переживаем травмы и забываем их «Память»: драма с Джессикой Честейн о том, как мы переживаем травмы и забываем их

Как режиссер Мишель Франко говорит о проживании трагедии в фильме «Память»

Forbes
Психопатология жизни Сальвадора Дали: что скрывается за творчеством гения Психопатология жизни Сальвадора Дали: что скрывается за творчеством гения

О взбалмошном поведении, эксцентричной личности и скандальном творчестве Дали

Psychologies
Темная сторона: почему не стоит бояться «недопустимых» мыслей и фантазий Темная сторона: почему не стоит бояться «недопустимых» мыслей и фантазий

Настало время взглянуть на нашу темную сторону по-новому

Psychologies
Дьявол в деталях Дьявол в деталях

Языком моды Михаил Булгаков владел не менее виртуозно, чем литературным

Men Today
Как образ жизни влияет на качество секса: 3 ключевых фактора Как образ жизни влияет на качество секса: 3 ключевых фактора

Как изменения в образе жизни могут повлиять на сексуальную жизнь?

Psychologies
Люди ледникового периода использовали черепах как «контейнеры с едой»! Интересный факт Люди ледникового периода использовали черепах как «контейнеры с едой»! Интересный факт

Черепахи могли быть «живым источником пиши» для людей ледникового периода

ТехИнсайдер
Ах, Самара-городок Ах, Самара-городок

Визитные карточки Самары, которые изменят твои представления о ней

Лиза
8 мужских ролей, доставшихся актрисам 8 мужских ролей, доставшихся актрисам

Боевики, фантастика и триллеры — мужская вотчина, в которую ворвались женщины

Maxim
Бег в колесе снизил симптомы ПТСР у мышей Бег в колесе снизил симптомы ПТСР у мышей

Как физическая активность помогла мышам ослабить симптомы ПТСР

N+1
Чем лабрадор отличается от голден ретривера Чем лабрадор отличается от голден ретривера

Существует ли какая-то существенная разница между лабрадором и голден ретривером

ТехИнсайдер
Неудачный дебют: почему «Чистильщик бассейнов» не дотягивает до большого кино Неудачный дебют: почему «Чистильщик бассейнов» не дотягивает до большого кино

Каким получился комедийный детектив о злостных коррупционерах

Forbes
Открыть в приложении