«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Спонтанные мысли людей делятся на четыре основных типа Спонтанные мысли людей делятся на четыре основных типа

Чем спонтанные мысли людей отличаются друг от друга?

ТехИнсайдер
Как не пожалеть о романе с иностранцем: 3 истории Как не пожалеть о романе с иностранцем: 3 истории

Как несмотря на все различия сделать отношения с иностранцем здоровыми?

Psychologies
Почему у мужчин «пунктик» на анальном сексе? Почему у мужчин «пунктик» на анальном сексе?

Откуда у мужчин эта причудливая фиксация на анальном сексе

Cosmopolitan
5 наклонностей, которые характеризируют социопатов 5 наклонностей, которые характеризируют социопатов

Как проявляется истинное лицо социопата?

Psychologies
Смерть в Венеции: почему «Киллер» — самый невзрачный фильм Дэвида Финчера (но его все равно стоит ждать) Смерть в Венеции: почему «Киллер» — самый невзрачный фильм Дэвида Финчера (но его все равно стоит ждать)

«Киллер» — технически совершенный, но удивительно монотонный фильм Финчера

Правила жизни
Эффекты стиля мемфис Эффекты стиля мемфис

Выразительное оформление современной квартиры

Идеи Вашего Дома
Есть варианты. 10 альтернатив прикроватной тумбочке для маленькой спальни Есть варианты. 10 альтернатив прикроватной тумбочке для маленькой спальни

Прикроватная тумбочка нужна в каждой спальне. Но чем ее можно заменить?

Лиза
Раневскую могла утихомирить только Любовь Орлова Раневскую могла утихомирить только Любовь Орлова

Раневская никогда не была настолько экстравагантна, как ее пытаются представить

Караван историй
Техника для мойки окон: какой бывает и чем отличается Техника для мойки окон: какой бывает и чем отличается

Можно ли как-то облегчить себе мытье окон?

CHIP
Пьедестал не для всех Пьедестал не для всех

Почему «достигаторство» подходит не всем?

Добрые советы
Сериалы? Сериалы! Сериалы? Сериалы!

Почему сериалы заняли такое большое место в жизни современного человека?

Знание – сила
Нейросети, Арктика и косатки: 7 отличных научных фильмов Нейросети, Арктика и косатки: 7 отличных научных фильмов

Актуальное научное кино на разные темы: от изучения космоса до жизни насекомых

Правила жизни
Круче, чем в балете Круче, чем в балете

Чем полезны приседания плие (и как их правильно выполнять)

Лиза
Амбассадор Арктики о поездке на мыс Челюскин: «Мы чудом успели выехать» Амбассадор Арктики о поездке на мыс Челюскин: «Мы чудом успели выехать»

Путешественник Алексей Жирухин о своем самом экстремальном путешествии

ФедералПресс
Пульт управления Пульт управления

Дефицит «качественной рабочей силы» зафиксирован в 55% российских компаний

FP. BusinessReview
Мимо ехали евреи Мимо ехали евреи

«И ясно, что евреи виноваты, осталось только летопись найти»

Дилетант
Не такие, как мы Не такие, как мы

Странные привычки китайцев, которые тебя удивят

Лиза
«Задавать вопросы — творческий труд». Отрывок из книги «Метод Сократа» «Задавать вопросы — творческий труд». Отрывок из книги «Метод Сократа»

Как задавать вопросы по методу Сократа

СНОБ
Прильнувшие стеблем… Прильнувшие стеблем…

Вьюнки и повои из семейства Вьюнковые — красивые и коварные одновременно

Наука и жизнь
Gesamtkunstwerk с конями Gesamtkunstwerk с конями

Как Александр Медведкин отдал всю власть над Москвой народу

Weekend
Законное преступление: Как зарабатывают миллионы на фотографиях в интернете Законное преступление: Как зарабатывают миллионы на фотографиях в интернете

В России набирает обороты новая схема заработка на фотографиях в интернете

ФедералПресс
Как назвать кота: выбираем кличку питомцу Как назвать кота: выбираем кличку питомцу

Идеи-подсказки, как назвать нового друга

ТехИнсайдер
Кто стоит за хитами: малоизвестные авторы популярных треков Руви, Lyriq и группа Dabro Кто стоит за хитами: малоизвестные авторы популярных треков Руви, Lyriq и группа Dabro

Сонграйтеры, написавшие настоящие современные хиты

Maxim
Интерьер — это ответ на запрос Интерьер — это ответ на запрос

Юлия Тряскина об изменениях в городской среде и о перезагрузке стиля жизни

SALON-Interior
Котик на батарейках Котик на батарейках

Откуда в китайском спортседане столько немецкого?

Автопилот
Внедорожный Escape, или всё что вам нужно знать о Ford Bronco Sport Внедорожный Escape, или всё что вам нужно знать о Ford Bronco Sport

Внедорожник Ford Bronco Sport: икеевский интерьер и немалый ценник

4x4 Club
Одна против всех Одна против всех

Сериал «Литвиненко» демонстрирует, что за каждым героем стоит героиня

Дилетант
Хоррор дожития Хоррор дожития

Как Джордж А. Ромеро напугал стариками борцов с эйджизмом

Weekend
От Граймс до Лили Вачовски: самые влиятельные женщины в ИИ по версии Time От Граймс до Лили Вачовски: самые влиятельные женщины в ИИ по версии Time

Самые интересные героини современности, связанные с ИИ

Forbes
Три идеологии как одна мечта о счастье Три идеологии как одна мечта о счастье

Как либерализм, коммунизм и фашизм вошли в состав новейших утопий

Weekend
Открыть в приложении