Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Back in the U.S.S.R. Back in the U.S.S.R.

Что рекомендовали советским женщинам журналы 70–80-х годов?

Cosmopolitan
Можно ли съесть слишком «много» белка Можно ли съесть слишком «много» белка

Задумывались ли вы когда-нибудь, не может ли избыток белка стать проблемой?

ТехИнсайдер
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
Мой дом — моя крепость: как избавиться от аллергенов в квартире Мой дом — моя крепость: как избавиться от аллергенов в квартире

Как в доме защититься от аллергенов?

ТехИнсайдер
«Робею перед такими сочными красками»: почему мы боимся яркого макияжа «Робею перед такими сочными красками»: почему мы боимся яркого макияжа

Почему девушки порой стесняются даже красной помады?

Psychologies
Варикоз: причины, профилактика и методы лечения Варикоз: причины, профилактика и методы лечения

Что приводит к развитию варикоза, как избежать заболевания?

Psychologies
Разговор на равных. О фильме «Монтессори: Воспитание любовью» Разговор на равных. О фильме «Монтессори: Воспитание любовью»

«Монтессори: Воспитание любовью», вдумчивое кино о людях с особыми потребностями

СНОБ
Артемов Андрей Артемов Андрей

Стилист Андрей Артемов — о концептуальном ремесле и вычеркнутых надеждах

Собака.ru
Модный дом Модный дом

Респектабельный интерьер пентхауса в духе современной роскоши

SALON-Interior
50 000 подносов и рязанская Венеция: кто и как возрождает народные промыслы 50 000 подносов и рязанская Венеция: кто и как возрождает народные промыслы

Кто развивает традиционные промыслы и как пытается на этом заработать

Forbes
4 типа детского темперамента 4 типа детского темперамента

Четыре типа детского темперамента и четыре подхода к общению с детьми

Psychologies
Странная новая мода: зачем пилоты выключают двигатели перед приземлением Странная новая мода: зачем пилоты выключают двигатели перед приземлением

Как заходили на посадку раньше и почему мода включать двигатели появилась сейчас

ТехИнсайдер
Пикап Dongfeng DF6. Navara для российского рынка Пикап Dongfeng DF6. Navara для российского рынка

Китайский пикап Dongfeng DF6 будит самые приятные воспоминания

4x4 Club
Почему кот устраивает концерты по ночам: разбираемся в причинах такого поведения Почему кот устраивает концерты по ночам: разбираемся в причинах такого поведения

Как объяснить питомцу, что ночью нужно спать?

ТехИнсайдер
Технологии для людей: кто и как создает бионические протезы в России Технологии для людей: кто и как создает бионические протезы в России

Как выглядит рынок бионических протезов в России

Inc.
Танцы и панические атаки: как звучит новый альбом Билли Айлиш Hit Me Hard And Soft Танцы и панические атаки: как звучит новый альбом Билли Айлиш Hit Me Hard And Soft

Как Билли Айлиш удалось собрать в одно целое поп, баллады и песни-триллеры

Forbes
Как защитить от дождя натуральную велосумку: простой лайфхак от туристов 19 века Как защитить от дождя натуральную велосумку: простой лайфхак от туристов 19 века

Как справиться с тем, что натуральные ткани промокают и боятся плесени

ТехИнсайдер
Женская манипуляция. Всегда ли это нужно и как не увлечься психологическими играми Женская манипуляция. Всегда ли это нужно и как не увлечься психологическими играми

Где та тонкая грань между неэкологичными манипуляциями и женской мудростью?

Лиза
7 главных причин разрушения отношений 7 главных причин разрушения отношений

Семь глубинных противоречий, приводящих к коллапсу отношений

Psychologies
Как взять в отпуск всё, что надо, но обойтись небольшой сумкой: 8 советов опытных путешественников Как взять в отпуск всё, что надо, но обойтись небольшой сумкой: 8 советов опытных путешественников

Отпуск был бы прекрасен, если бы не предшествующие ему сборы

VOICE
«Я — квалифицированный специалист»: 3 причины, почему молодым кадрам так сложно найти работу «Я — квалифицированный специалист»: 3 причины, почему молодым кадрам так сложно найти работу

Как молодому специалисту конкурировать с более опытными коллегами?

Psychologies
Ученые создали модель, которая поможет людям читать быстрее Ученые создали модель, которая поможет людям читать быстрее

Существует ли способ научить мозг более эффективно читать на новом языке?

ТехИнсайдер
Как звезда «Унесенных ветром» подстроила знакомство Грейс Келли с князем Монако ради своего мужа Как звезда «Унесенных ветром» подстроила знакомство Грейс Келли с князем Монако ради своего мужа

История любви Грейс Келли и князя Монако Ренье III – одна из самых красивых

VOICE
Кулинарные лайфхаки: чем можно заменить сливочное масло в выпечке Кулинарные лайфхаки: чем можно заменить сливочное масло в выпечке

Масло в выпечке — чуть не один из главных ингредиентов. Но не значит незаменимый

ТехИнсайдер
6 фраз, которые взрослые дети мечтают услышать от своих родителей 6 фраз, которые взрослые дети мечтают услышать от своих родителей

Шесть важных фраз, которые родители могут (и должны) сказать повзрослевшим детям

Psychologies
Вышедшая после убийства матери Джипси Роуз Бланшар призналась, что мечтает о работе в Макдоналдсе Вышедшая после убийства матери Джипси Роуз Бланшар призналась, что мечтает о работе в Макдоналдсе

Почему преступникам сложно интегрироваться в общество и могут ли они это сделать

Psychologies
Зеленые технологии спасут мир: как GreenTech помогает избавить планету от мусора Зеленые технологии спасут мир: как GreenTech помогает избавить планету от мусора

GreenTech – не новомодное слово, а отрасль, которая сегодня спасает природу

ТехИнсайдер
Сверхдоход или любовь к жирафам: семь ошибок при запуске своего бизнеса в Африке Сверхдоход или любовь к жирафам: семь ошибок при запуске своего бизнеса в Африке

Самые распространенные ошибки начинающих свой африканский путь предпринимателей

Forbes
«Грохот», «Триллер», «Война» и «Резня»: величайшие противостояния в истории бокса «Грохот», «Триллер», «Война» и «Резня»: величайшие противостояния в истории бокса

Самые значимые бои в истории мирового бокса

Forbes
Сыроедение: за и против Сыроедение: за и против

Почему сыроедение вызывает вопросы у диетологов?

Лиза
Открыть в приложении