«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Германия Германия

Воспоминания о нации

kiozk originals
Свидетельства неслучившегося Свидетельства неслучившегося

Песни Пахмутовой и Добронравова задали эмоциональный режим советского человека

Weekend
Суперобучение Суперобучение

Система освоения любых навыков – от изучения языков до построения карьеры

kiozk originals
Путь воды Путь воды

Как цифровизация помогает развивать российское ЖКХ

РБК
«Большинство и не хочет работать» «Большинство и не хочет работать»

Андрея Курпатова считают техноскептиком, но сейчас он работает над созданием ИИ

Правила жизни
Шай Шай

Художник Шай Азулай — звучит как музыка, и мир вокруг него мелодичен

Seasons of life
Принцессы княжества Торн: монахини или амазонки? Принцессы княжества Торн: монахини или амазонки?

В германских землях находилось маленькое царство, где правили только женщины

Знание – сила
Vicootes Vicootes

Рагим Джафаров сочетает интеллектуальность с сюжетностью

Правила жизни
20 спорных и культовых фильмов про секс: от «Интимных мест» до «Служанки» 20 спорных и культовых фильмов про секс: от «Интимных мест» до «Служанки»

Фильмы, которые рассматривают интимность и любовные интриги

РБК
Интерьер — это ответ на запрос Интерьер — это ответ на запрос

Юлия Тряскина об изменениях в городской среде и о перезагрузке стиля жизни

SALON-Interior
Наука о чужих. Жизнь и разум во Вселенной Наука о чужих. Жизнь и разум во Вселенной

К концу XIX века мало кто сомневался, что ближайшие планеты населены

Наука и жизнь
Как NFT меняет арт-рынок и выходит в России в легальное поле Как NFT меняет арт-рынок и выходит в России в легальное поле

Как живопись обосновалась в метавселенной и как государство поддерживает NFT

СНОБ
Если мир опрокинется Если мир опрокинется

Окончание фантастического рассказа Елены Ворон

Наука и жизнь
Украшения Украшения

Оригинальная форма, полёт фантазии и виртуозная техника исполнения

Robb Report
Беспилотники и ИИ-врачи: цифровое будущее России Беспилотники и ИИ-врачи: цифровое будущее России

Россия занимает одно из ведущих мест в мире по развитию цифровых сервисов

ФедералПресс
12 главных проблем, которые создает трезвый образ жизни 12 главных проблем, которые создает трезвый образ жизни

Почему воздержание от алкоголя — плохая идея

Maxim
Как повысить эффективность обучения: 5 научных методов Как повысить эффективность обучения: 5 научных методов

Как быстрее и эффективнее подготовиться к экзамену или выучить новый язык?

Psychologies
Зачем России микрофлюидика Зачем России микрофлюидика

Появилась новая, коммерчески перспективная отрасль технологий

Эксперт
Почему цифровой зум в смартфонах не так плох, и как им правильно пользоваться Почему цифровой зум в смартфонах не так плох, и как им правильно пользоваться

Все плюсы цифрового зума в этом материале

CHIP
«Рок-н-ролл мертв. А я еще нет...» «Рок-н-ролл мертв. А я еще нет...»

С 1981 года ленинградский рок-клуб стал «местом силы» отечественного рок-н-ролла

Men Today
Как женщины ухаживали за собой в старину? Как женщины ухаживали за собой в старину?

Помада из бычьего сала, бодяга, кипяченая зала — какой была косметика в старину

Культура.РФ
Эротический покер: подборка из 5 игр, которые помогут оживить интимную жизнь Эротический покер: подборка из 5 игр, которые помогут оживить интимную жизнь

Чувствуете, что романтика и огонь страстей покинули вашу спальню?

Psychologies
Микробы, боги, первопредки Микробы, боги, первопредки

Наше прошлое действительно может быть связано с суровыми северными богами

ТехИнсайдер
Домашний офис Домашний офис

Создаем интерьер для комфортной удаленки

Лиза
Саморазрушение от успехов Саморазрушение от успехов

Как Андрей Платонов пытался стать лояльным литератором и с блеском провалился

Weekend
Мясная отрасль переходит на длинные контракты Мясная отрасль переходит на длинные контракты

Почему дорожает мясо?

Эксперт
Привет из прошлого Привет из прошлого

Как реагировать, если вдруг начинает писать бывший молодой человек?

Лиза
Бизнес как спорт Бизнес как спорт

Генеральный директор компании FIRST Максим Сергеев — об искусстве быть первым

FP. BusinessReview
Партком тут бессилен Партком тут бессилен

Как советская производственная драма оказалась политической

Weekend
Чтим кодекс Чтим кодекс

Алименты для пап и еще ряд изменений в законах с сентября 2023 года

Лиза
Открыть в приложении