«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Кто умнее: кошки или собаки? Кто умнее: кошки или собаки?

Учение измерили когнитивные способности кошек и собак

Maxim
Деревня викингов и деревянное зодчество: что посмотреть в Новгородской области Деревня викингов и деревянное зодчество: что посмотреть в Новгородской области

Что можно посмотреть в Новгородской области и чем она будет удивлять в будущем

ФедералПресс
Мы выбираем друг друга не случайно Мы выбираем друг друга не случайно

Выбор партнера предопределен всем предшествующим ходом нашей жизни

Psychologies
Дзержинский и дети: почему в России не получилось декоммунизации Дзержинский и дети: почему в России не получилось декоммунизации

Почему в постсоветской России не появилось нового символа спецслужб

Forbes
Как выбрать устрицы и с чем их сочетать: объясняют эксперты Как выбрать устрицы и с чем их сочетать: объясняют эксперты

Чем хороши и полезны устрицы, как получить удовольствие от деликатеса?

РБК
Люди думали, что началась ядерная война: жуткая история крупнейшей железнодорожной катастрофы СССР Люди думали, что началась ядерная война: жуткая история крупнейшей железнодорожной катастрофы СССР

Железнодорожная катастрофа под Уфой: кошмар, случившийся наяву

ТехИнсайдер
Путь воды Путь воды

Как цифровизация помогает развивать российское ЖКХ

РБК
Привет из прошлого Привет из прошлого

Как реагировать, если вдруг начинает писать бывший молодой человек?

Лиза
Gesamtkunstwerk с конями Gesamtkunstwerk с конями

Как Александр Медведкин отдал всю власть над Москвой народу

Weekend
Всеобщий язык Всеобщий язык

Разговор о том, как сохранять внутреннюю свободу и находить опору

Seasons of life
Как на нас влияют магнитные бури: объяснение физиков Как на нас влияют магнитные бури: объяснение физиков

Действительно ли на некоторых людей влияет усиление геомагнитного фона?

Psychologies
«Влюбить в морские науки»: как работает «Плавучий университет» «Влюбить в морские науки»: как работает «Плавучий университет»

Как работает «Плавучий университет», что он дает участникам?

Наука
Нарушительницы: что общего у «Девушки с татуировкой дракона» и Пеппи Длинныйчулок Нарушительницы: что общего у «Девушки с татуировкой дракона» и Пеппи Длинныйчулок

Глава из книги «Тысячеликая героиня» о героинях-трикстерах

Forbes
Как правильно принимать любые решения: рассказывает психолог Как правильно принимать любые решения: рассказывает психолог

Почему так важно, чтобы выбор был непременно правильным?

VOICE
«Граф» Пабло Ларраина: что будет, если диктатор окажется бессмертным вампиром «Граф» Пабло Ларраина: что будет, если диктатор окажется бессмертным вампиром

Как история о диктаторе-вампире оказывается менее интересной, чем ожидаешь

Forbes
Пойдем гулять? Пойдем гулять?

Как защитить собаку на прогулке

Лиза
Кто трясет Землю? Кто трясет Землю?

Первые гипотезы об устройстве земной коры зародились еще в античности

Вокруг света
Яркий джапанди Яркий джапанди

Скандинавский и восточный минимализм в интерьере квартиры в Казани

Идеи Вашего Дома
Мария Шумакова: «В 30 лет, как только я разобралась в себе, у меня началась счастливая жизнь» Мария Шумакова: «В 30 лет, как только я разобралась в себе, у меня началась счастливая жизнь»

Люди, которые не видели меня восемь лет, говорят: «Ничего себе! Ты другая!»

Коллекция. Караван историй
Охота на алгоритм Охота на алгоритм

Способна ли машина заменить человека в самых важных ему областях деятельности

Правила жизни
Лицо в точечку Лицо в точечку

Новообразования на коже доставляют много неудобств. Как с ними быть?

Лиза
Приемы в общении с лжецами: как узнать правду Приемы в общении с лжецами: как узнать правду

Как распознать лжеца и вывести его на чистую воду, чтобы все же узнать правду?

VOICE
Жить как в отеле «пять звёзд» Жить как в отеле «пять звёзд»

Воздушный и роскошный интерьер в квартире

Идеи Вашего Дома
Святой затворник Святой затворник

Этим летом исполнилось 660 лет со дня основания Борисоглебского монастыря

Отдых в России
Его светлость Его светлость

6 популярных фасонов, в которых постоянно разгуливают пользователи Сети

VOICE
Как найти любовь, если тебе больше 40 лет: советы психологов Как найти любовь, если тебе больше 40 лет: советы психологов

Поиски второй половинки после 40 связаны со своими уникальными сложностями

VOICE
Будь готов! Будь готов!

Как сохранить грибы в морозилке

Лиза
Любимец нации Любимец нации

Заметки по случаю дня рождения Остапа Сулеймана Берта-Мария Бендер-бея

Знание – сила
Солидная история Солидная история

Как развивался фондовый рынок России на протяжении 30 лет

РБК
Дмитрий Крутов: «Карьерный путь человека будет максимально релевантным его способностям» Дмитрий Крутов: «Карьерный путь человека будет максимально релевантным его способностям»

Как изменится обучение в будущем

РБК
Открыть в приложении