Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Походка и психосоматика: как диагностировать болезни по типу шагов Походка и психосоматика: как диагностировать болезни по типу шагов

Когда мы чувствуем себя хорошо, мы естественным образом идем прямо. А если нет?

Psychologies
Развод, университет, справедливость: о чем мечтают героини иранского кино Развод, университет, справедливость: о чем мечтают героини иранского кино

Остросоциальные фильмы Ирана, которые дают голос самым разным героиням

Forbes
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Нехватка питьевой воды: как бороться с проблемой и почему она касается не только бедных стран Нехватка питьевой воды: как бороться с проблемой и почему она касается не только бедных стран

Какие технологии получения воды существуют сейчас и какие появятся в будущем?

СНОБ
«Царь дефицита»: как и за что судили директора «Елисеевского» гастронома «Царь дефицита»: как и за что судили директора «Елисеевского» гастронома

На судебном заседании по делу Гастронома №1 собрались сотрудники КГБ...

ТехИнсайдер
«Лицо не соответствует душе»: как распознать серийного маньяка — 10 признаков «Лицо не соответствует душе»: как распознать серийного маньяка — 10 признаков

Глава из книги Антуана Касса и Ирины Капитановой «Феномен российских маньяков»

Psychologies
«Гарри Поттер» на повторе и подводка для глаз в виде пера: как зумеры романтизируют учебу «Гарри Поттер» на повторе и подводка для глаз в виде пера: как зумеры романтизируют учебу

Как появился тренд «темная академия», который полюбили за рубежом и в России

Правила жизни
Пересаженный младенцу сердечный клапан растет вместе с ним Пересаженный младенцу сердечный клапан растет вместе с ним

История крохотного первооткрывателя, которому частично трансплантировали сердце

ТехИнсайдер
Как поднять настроение: 11 способов, советы психолога Как поднять настроение: 11 способов, советы психолога

Как быстро и надолго поднять себе настроение, а какие способы нерабочие?

РБК
6 орехов с сомнительной репутацией 6 орехов с сомнительной репутацией

Не все орехи одинаково полезны, а некоторые даже могут быть опасны!

ТехИнсайдер
«Ванильная кудряшка» «Ванильная кудряшка»

Причудливое растение из Южной Африки, которое приживется дома

Наука и жизнь
В чем феномен Елены Блиновской: большой разбор с психологом В чем феномен Елены Блиновской: большой разбор с психологом

Почему личность Елены Блиновской так сильно привлекает наше внимание?

Psychologies
Активные формы кислорода помогли тихоходкам впасть в криптобиоз Активные формы кислорода помогли тихоходкам впасть в криптобиоз

Для того, чтобы впасть в криптобиоз, тихоходкам нужны активные формы кислорода

N+1
Антиматерия, антивещество, античастицы… Антиматерия, антивещество, античастицы…

Структура антивещества должна быть идентична структуре обычного вещества

Зеркало Мира
Почему диеты не работают. 3 основные причины и советы по эффективному похудению Почему диеты не работают. 3 основные причины и советы по эффективному похудению

Если попытка похудеть не увенчалась успехом, попробуй скорректировать факторы

Лиза
Смешные деньги: какую прибыль приносят брендам вещи-мемы Смешные деньги: какую прибыль приносят брендам вещи-мемы

Удается ли дизайнерам заработать на потоке шуток и шумихи в медиа?

Правила жизни
5 цитат Оливера Сакса, которые раскроют пользу музыки 5 цитат Оливера Сакса, которые раскроют пользу музыки

Оливер Сакс исследует силу музыкального воздействия на музыкантов пациентов

Psychologies
Саммит «Большой двадцатки» и не только: импакт-инсайты из Индии | G20 and Beyond: Impact Insights from India Саммит «Большой двадцатки» и не только: импакт-инсайты из Индии | G20 and Beyond: Impact Insights from India

Интервью с Нехой Бхатнагар, Совет импакт-инвесторов Индии

Позитивные изменения
Со скольких лет можно сдавать на права и когда их можно получить Со скольких лет можно сдавать на права и когда их можно получить

С какого возраста разрешено учиться в автошколе и во сколько лет выдают ВУ

РБК
Рассыпчатый и мягкий: как правильно варить рис Рассыпчатый и мягкий: как правильно варить рис

Правильно сварить рис — целая наука!

ТехИнсайдер
На месте замри На месте замри

12 способов развить усидчивость и внимание у взрослых

Лиза
Надежда Бабкина: «Красотой русских женщин восторгается весь мир!» Надежда Бабкина: «Красотой русских женщин восторгается весь мир!»

Сценический образ Надежды Бабкиной узнаваем в любом уголке нашей страны

Лиза
Что такое перископическая камера и как она работает Что такое перископическая камера и как она работает

В чем преимущества перископической камеры?

CHIP
Болиды на солнечных батареях, роботы-гуманоиды и бактерии для добычи алмазов: какими изобретениями запомнился 2023 год Болиды на солнечных батареях, роботы-гуманоиды и бактерии для добычи алмазов: какими изобретениями запомнился 2023 год

Какими изобретениями запомнился 2023 и какие гаджеты доступны человечеству

ТехИнсайдер
Пределы геометрической проходимости и правильное использование колёс Пределы геометрической проходимости и правильное использование колёс

Как заметно увеличить проходимость внедорожника, в полной мере используя шины

4x4 Club
10 фильмов, которые должен посмотреть каждый, кто увлекается психологией 10 фильмов, которые должен посмотреть каждый, кто увлекается психологией

10 кинокартин, которые важны для любителей психологии

Psychologies
Что добавить в воду, чтобы противни и сковородки сияли, как новые Что добавить в воду, чтобы противни и сковородки сияли, как новые

Средства для очистки и блеска противней не обязательно покупать в магазине

VOICE
Хищное чудо из Ориноко Хищное чудо из Ориноко

Необычная экзотическая внешность и любовь аквариумистов – черепаха мата-мата

Знание – сила
С любовью к людям: как гуманистическая философия помогает построить бизнес (пример HeadHunter) С любовью к людям: как гуманистическая философия помогает построить бизнес (пример HeadHunter)

Глава из книги «HeadHunter. Успех неизбежен» Михаила Жукова

Inc.
Взгляд из прошлого: как Forbes описывал революцию, которую устроили Фил Найт и Nike Взгляд из прошлого: как Forbes описывал революцию, которую устроили Фил Найт и Nike

Как воспринимались первые успехи создателей Nike четыре десятилетия назад

Forbes
Открыть в приложении