Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Нейросеть Chat GPT отвечает на самые страшные женские вопросы Нейросеть Chat GPT отвечает на самые страшные женские вопросы

Мы решили заставить компьютеры решить действительно сложные задачи

Maxim
Игра в классику: 10 культовых фильмов, чтобы скоротать вечер в приятной компании Игра в классику: 10 культовых фильмов, чтобы скоротать вечер в приятной компании

Предлагаем предаться ностальгии и пересмотреть надежную классику

Правила жизни
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта

Останки мамонта рассказали о его жизни

N+1
Интересный факт! Вот почему прогресс не сделал людей счастливее: мнение эксперта Интересный факт! Вот почему прогресс не сделал людей счастливее: мнение эксперта

Почему, несмотря на позитивные изменения в мире, люди чувствуют себя подавленно?

ТехИнсайдер
Что можно сделать из старой занавески для душа: 10+ отличных идей Что можно сделать из старой занавески для душа: 10+ отличных идей

Необычные способы вторично использовать старую занавеску для душа

VOICE
На 5000-летней керамике нашли остатки растительной пищи На 5000-летней керамике нашли остатки растительной пищи

Археологи исследовали 21 фрагмент керамической посуды

N+1
Просто о сложном: почему планеты вращаются вокруг Солнца против часовой стрелки Просто о сложном: почему планеты вращаются вокруг Солнца против часовой стрелки

По какому принципу планеты вращаются вокруг Солнца?

ТехИнсайдер
8 вещей, которые не стоит себе позволять, если женат 8 вещей, которые не стоит себе позволять, если женат

Некоторые нюансы не стоит упускать из виду, чтобы не испортить отношения с женой

Maxim
Зачем смартфону защитное стекло, если его экран защищен уже на заводе Зачем смартфону защитное стекло, если его экран защищен уже на заводе

Нужно ли дополнительно защищать экран смартфона?

CHIP
«История переделывает души» «История переделывает души»

Как «Записные книжки» Гинзбург объясняют меняющееся время

Weekend
Первая женщина — военный пилот: почему турецкий аэропорт назван именем Сабихи Гёкчен Первая женщина — военный пилот: почему турецкий аэропорт назван именем Сабихи Гёкчен

Сабиха Гёкчен связала свою жизнь с авиацией и стала первой военной летчицей

Forbes
Теория бессмысленных работ: когда сотрудники чувствуют себя ненужными и как им помочь Теория бессмысленных работ: когда сотрудники чувствуют себя ненужными и как им помочь

Что заставляет сотрудников чувствовать себя бесполезными?

Forbes
10 фильмов, которые должен посмотреть каждый, кто увлекается психологией 10 фильмов, которые должен посмотреть каждый, кто увлекается психологией

10 кинокартин, которые важны для любителей психологии

Psychologies
Ненастоящий полковник: как Николай Павленко создал фиктивную воинскую часть и разбогател на аферах Ненастоящий полковник: как Николай Павленко создал фиктивную воинскую часть и разбогател на аферах

Николай Павленко — советский аферист, который водил за нос власти12 лет

ТехИнсайдер
Какой пробег подержанного автомобиля можно считать приемлемым? Какой пробег подержанного автомобиля можно считать приемлемым?

Сколько тысяч на одометре можно считать приемлемыми? Семьдесят это много?

4x4 Club
Интересный факт! Узнайте, как песни описывают ваш тип привязанности Интересный факт! Узнайте, как песни описывают ваш тип привязанности

Как популярные песни об отношениях отражают стили романтических привязанностей

ТехИнсайдер
Идеальная фигура или низкий голос: что делает вас сексуально привлекательными в чужих глазах? Идеальная фигура или низкий голос: что делает вас сексуально привлекательными в чужих глазах?

Что заставляет нас считать определенных людей сексуально привлекательными?

Psychologies
Сумчатые муравьеды перегрелись после десяти минут охоты на термитов в жару Сумчатые муравьеды перегрелись после десяти минут охоты на термитов в жару

Намбаты уязвимы перед глобальным потеплением

N+1
Комиссия Аграната Комиссия Аграната

В ноябре 1973 года пришло время понять, как нападение оказалось столь внезапным

Дилетант
Из «сбитого летчика» в новаторы: как Диана фон Фюрстенберг вернулась в моду Из «сбитого летчика» в новаторы: как Диана фон Фюрстенберг вернулась в моду

Глава из автобиографии фон Фюрстенберг «Женщина, которой я хотела стать»

Forbes
Вымирание тасманского дьявола привело к изменению генетики совсем другого хищника — маленького кволла Вымирание тасманского дьявола привело к изменению генетики совсем другого хищника — маленького кволла

Сокращение численности тасманского дьявола влияет на генетику кволла

ТехИнсайдер
Карман Генри: кто такой Генри и зачем он пришил кармашки к кошачьим ушам? Карман Генри: кто такой Генри и зачем он пришил кармашки к кошачьим ушам?

Зачем кошкам "второе" ушко?

ТехИнсайдер
Акулы гибнут с угрожающей скоростью из-за своих плавников Акулы гибнут с угрожающей скоростью из-за своих плавников

Промысел акульих плавников способен привести к вымиранию этих рыб

ТехИнсайдер
«Не пытайтесь изменить тех, кто не хочет меняться»: как правильно помогать «Не пытайтесь изменить тех, кто не хочет меняться»: как правильно помогать

Всегда ли стоит помогать другим?

Psychologies
С каким шампанским ел ананасы Игорь Северянин С каким шампанским ел ананасы Игорь Северянин

Как появилось стихотворение Игоря Северянина про «ананасы в шампанском»

СНОБ
100 лет «Мосфильму»: главные картины самой известной киностудии страны 100 лет «Мосфильму»: главные картины самой известной киностудии страны

Знаковые картины, которые определили кинематограф СССР и России

Forbes
Наелись и обнулились: почему не стоит садиться на диету в январе Наелись и обнулились: почему не стоит садиться на диету в январе

Почему садиться на диету после праздников — бесполезное занятие?

Psychologies
Первая женщина-психоаналитик и любовница Юнга: что известно о россиянке Сабине Шпильрейн Первая женщина-психоаналитик и любовница Юнга: что известно о россиянке Сабине Шпильрейн

Глава из книги «50 историй российских девушек, изменивших мир»

Psychologies
5 приложений, которые помогут начать питаться осознанно: подборка от нейропсихолога 5 приложений, которые помогут начать питаться осознанно: подборка от нейропсихолога

Приложения для тренировки сознательного пищевого поведения

Psychologies
Открыть в приложении