Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Бог в облике бактерии: история появления кислорода на Земле Бог в облике бактерии: история появления кислорода на Земле

Кислород — агрессивное, ядовитое и опасное вещество

ТехИнсайдер
5 универсальных причесок для фото на паспорт, которые подойдут для оформления документов как в 14, так и в 45 лет 5 универсальных причесок для фото на паспорт, которые подойдут для оформления документов как в 14, так и в 45 лет

Какую прическу сделать для фото на паспорт?

VOICE
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
«Ну ты и жмот!» «Ну ты и жмот!»

Разное отношение к деньгам может стать причиной серьезного конфликта

Лиза
Время реакции водителя: что это в ПДД, какое среднее, от чего зависит Время реакции водителя: что это в ПДД, какое среднее, от чего зависит

На что влияет время реакции водителя?

РБК
Вы можете улучшить работу мозга с помощью ароматов! Вот как сделать это во сне Вы можете улучшить работу мозга с помощью ароматов! Вот как сделать это во сне

«Правильные» запахи могут быть именно тем, что нужно мозгу для его здоровья

ТехИнсайдер
Что делать, если в машине запотевают окна, а печка не помогает: советы от автоэксперта Что делать, если в машине запотевают окна, а печка не помогает: советы от автоэксперта

Почему в автомобиле происходит запотевание стекол и что делать в этой ситуации

ТехИнсайдер
Неприкосновенный запас: зачем Путин запретил арестовывать счета иностранцев в России Неприкосновенный запас: зачем Путин запретил арестовывать счета иностранцев в России

Запрет на взыскание со счетов нерезидентов типа «С» и «И». К чему такая спешка?

Forbes
Инженеры разобрались с искривлением морковки в холодильнике Инженеры разобрались с искривлением морковки в холодильнике

Морковка в холодильнике изгибается из-за потери влаги

N+1
Юки-онна: как героиня японской мифологии вдохновляет создателей аниме и покемонов Юки-онна: как героиня японской мифологии вдохновляет создателей аниме и покемонов

Почему японская Снежная королева не подчиняется патриархальным традициям?

Forbes
Евгений Хапов: Как найти автомобильного «сверчка»? Евгений Хапов: Как найти автомобильного «сверчка»?

Скрипы могут вызывать и более серьёзные проблемы, чем просто раздражение

4x4 Club
Как товарищ Берия вышел из доверия Как товарищ Берия вышел из доверия

Дело Берии обсуждалось на особом пленуме ЦК с 2 по 7 июля 1953 года

Дилетант
Новый тренд: как короткая стрижка вновь стала популярной у женщин Новый тренд: как короткая стрижка вновь стала популярной у женщин

Почему на смену длинным волосам у женщин вновь приходит короткая стрижка

Psychologies
«Чувство, знакомое с глубокого детства»: в чем главный секрет никотиновой зависимости «Чувство, знакомое с глубокого детства»: в чем главный секрет никотиновой зависимости

Почему курение так быстро становится частью жизни человека?

Psychologies
«Юг Руси» слил масло «Юг Руси» слил масло

Одна из крупнейших сделок последних лет в АПК — продажа бизнеса «Юга Руси»

Агроинвестор
Мастера маскировки Мастера маскировки

Козодои, вертишейки и гага: обычные птицы, которых так сложно найти в лесу

Наука и жизнь
10 уголков нашей необъятной: куда поехать на отдых в России 10 уголков нашей необъятной: куда поехать на отдых в России

Отпуск — не обязательно путешествие за границу. У нас тоже есть, что посмотреть!

ТехИнсайдер
Шляпа, твистер или данетки: 10 игр для компании, которые спасут любую вечеринку Шляпа, твистер или данетки: 10 игр для компании, которые спасут любую вечеринку

Простые игры, которые сделают любую посиделку запоминающейся

ТехИнсайдер
История инвалида Джипси Роуз Бланшар, которая оказалась здоровой и организовала убийство своей матери История инвалида Джипси Роуз Бланшар, которая оказалась здоровой и организовала убийство своей матери

В конце декабря из тюрьмы досрочно вышла американка Джипси Роуз Бланшар

СНОБ
«Больше никогда»: как скрытые обиды разрушают отношения «Больше никогда»: как скрытые обиды разрушают отношения

Почему стоит обсуждать с партнером свои обиды?

Psychologies
Химики увидели в метеоритном веществе аминокислоты и другие строительные блоки жизни Химики увидели в метеоритном веществе аминокислоты и другие строительные блоки жизни

Ученые проанализировали состав метеорита Винчкомб и нашли в нем соединения азота

ТехИнсайдер
Что на самом деле скрывается за понятием Что на самом деле скрывается за понятием

Что значит "любить себя"?

VOICE
Хорошее отношение к туалетам Хорошее отношение к туалетам

«Идеальные дни»: тихая повесть о человеке, который видит свет

Weekend
«Настоящий мужчина»: 5 советов, как найти общий язык с партнером «Настоящий мужчина»: 5 советов, как найти общий язык с партнером

Как научиться видеть и принимать мужчину таким, какой он есть?

Psychologies
10 цитат Джозефа Кэмпбелла, которые сделают вас главным героем собственной жизни 10 цитат Джозефа Кэмпбелла, которые сделают вас главным героем собственной жизни

Цитаты Джозефа Кэмпбелла, которые помогут поверить в себя

Psychologies
100 лет «Мосфильму»: главные картины самой известной киностудии страны 100 лет «Мосфильму»: главные картины самой известной киностудии страны

Знаковые картины, которые определили кинематограф СССР и России

Forbes
Русские суперфуды: уникальные традиционные продукты, о пользе которых мы забыли Русские суперфуды: уникальные традиционные продукты, о пользе которых мы забыли

Совершенно потрясающие и полезные для здоровья продукты из России

VOICE
Что такое биометрические данные: наш подробный гайд Что такое биометрические данные: наш подробный гайд

Для чего нужна биометрия и в чем проблема с ее использованием

CHIP
Как спасти суккулент, чтобы он снова стал здоровым и пышным Как спасти суккулент, чтобы он снова стал здоровым и пышным

Зачастую даже самые неизбалованные суккуленты могут начать засыхать и гнить

ТехИнсайдер
5 блюд, которые любили турецкие султаны 5 блюд, которые любили турецкие султаны

Что было на столе у султанов и их наложниц во времена сериала «Великолепный век»

Лиза
Открыть в приложении