«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как Ксения Сосункевич выращивает клубнику в Карелии, несмотря на климат и кризисы Как Ксения Сосункевич выращивает клубнику в Карелии, несмотря на климат и кризисы

Как живут и строят карьеру женщины в российских регионах

Forbes
Субботы терпкий вкус Субботы терпкий вкус

Рисовать в Шаббат? Художница Елена Репетур убедилась, что Израиль — страна чудес

Seasons of life
Мы выбираем друг друга не случайно Мы выбираем друг друга не случайно

Выбор партнера предопределен всем предшествующим ходом нашей жизни

Psychologies
Музей на свалке Музей на свалке

Экспозицию этого музея сравнивают с машиной времени

Отдых в России
Хоррор дожития Хоррор дожития

Как Джордж А. Ромеро напугал стариками борцов с эйджизмом

Weekend
Домашний офис Домашний офис

Создаем интерьер для комфортной удаленки

Лиза
Куда приводит любовь Куда приводит любовь

Алексей Еремчук — как его увлечение электромобилями стало бизнесом

Robb Report
Артроз Артроз

Артрозом страдают множество людей. Всё чаще коленки «скрипят» и у 20–30-летних

Здоровье
По наклонной По наклонной

Аэротруба, в которой можно летать в вингсьюте и остаться живым

ТехИнсайдер
Раскопки в пустыне и тайное общество в Египте: история путешественницы Фрейи Старк Раскопки в пустыне и тайное общество в Египте: история путешественницы Фрейи Старк

История женщины, которая твердо решила повидать мир

Forbes
Жизнь в серебре Жизнь в серебре

Чем живет город Гуанахуато, обеспечивший современный миропорядок?

Вокруг света
Таинственная Чувашия: самый необычный регион Поволжья Таинственная Чувашия: самый необычный регион Поволжья

Самый необычный регион Поволжья. Вчера, сегодня, завтра

ФедералПресс
Ямальских овцебыков отправили на колыму Ямальских овцебыков отправили на колыму

14 полугодовалых овцебыков будут обживать колымскую тундру

ФедералПресс
Олег Кожемяко: «Приморье преодолело негативные последствия санкций» Олег Кожемяко: «Приморье преодолело негативные последствия санкций»

Приморский край играет ведущую роль в объявленном президентом курсе на Восток

ФедералПресс
Минвостокразвития России о туризме: «Сперва нужно создавать условия» Минвостокразвития России о туризме: «Сперва нужно создавать условия»

Как развивается дальневосточный туризм и чем в силах помочь коренные народы

ФедералПресс
Креативная Якутия: каких высот достигла республика в сфере IT Креативная Якутия: каких высот достигла республика в сфере IT

Как регион, прославившийся алмазами и мамонтами, стал ассоциироваться с IT?

ФедералПресс
Саморазрушение от успехов Саморазрушение от успехов

Как Андрей Платонов пытался стать лояльным литератором и с блеском провалился

Weekend
Гонка со временем Гонка со временем

Что происходит в российском автоспорте?

Men Today
Квартира для двоих Квартира для двоих

Московская квартира в стиле экошик: натуральные материалы, богатые фактуры

SALON-Interior
Сдвинувший материки Сдвинувший материки

Альфред Вегенер – человек, понявший, что континенты движутся

Вокруг света
Техника для мойки окон: какой бывает и чем отличается Техника для мойки окон: какой бывает и чем отличается

Можно ли как-то облегчить себе мытье окон?

CHIP
Памяти Невского Памяти Невского

Историческая реконструкция похода Александра Невского проходит уже третий год

Отдых в России
Карманные деньги: почему полезно давать детям и как это правильно делать Карманные деньги: почему полезно давать детям и как это правильно делать

Карманные деньги не замена заботы, а способ научить детей финансовой грамотности

РБК
Создатель андроида Fedor: «Робот станет ассистентом» Создатель андроида Fedor: «Робот станет ассистентом»

Какие технологические прорывы нас ждут в области робототехники?

ФедералПресс
Эверест как профессия Эверест как профессия

Высоко над нашими головами скрывается самая труднодоступная страна на планете

Вокруг света
Смертельный челлендж: в США подросток умер от одного ломтика острых чипсов Смертельный челлендж: в США подросток умер от одного ломтика острых чипсов

Эти чипсы настолько острые, что могут привести к летальному исходу

ТехИнсайдер
«День сурка» с наночастицами «День сурка» с наночастицами

Почему ученые не могут разработать лекарство от ВИЧ?

Знание – сила
Нарушительницы: что общего у «Девушки с татуировкой дракона» и Пеппи Длинныйчулок Нарушительницы: что общего у «Девушки с татуировкой дракона» и Пеппи Длинныйчулок

Глава из книги «Тысячеликая героиня» о героинях-трикстерах

Forbes
Бизнес как спорт Бизнес как спорт

Генеральный директор компании FIRST Максим Сергеев — об искусстве быть первым

FP. BusinessReview
Наука в России: «Открываются очень большие перспективы» Наука в России: «Открываются очень большие перспективы»

Как достигнуть научного и технологического суверенитета в стране?

ФедералПресс
Открыть в приложении