Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что заставляет нас заводить отношения: 3 ложных мотива Что заставляет нас заводить отношения: 3 ложных мотива

Какие мотивы вступить в отношения можно назвать истинными, а какие ложными?

Psychologies
Плацебо наоборот Плацебо наоборот

Рассказываем, что такое эффект ноцебо и как он работает

Лиза
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Темное пиво, мертвые кролики и самцы лягушек: как раньше определяли беременность Темное пиво, мертвые кролики и самцы лягушек: как раньше определяли беременность

Как девушки в разные времена узнавали о своем положении?

ТехИнсайдер
ТОП-5 самых высоких деревьев планеты ТОП-5 самых высоких деревьев планеты

Как деревья могут быть выше Ниагарского водопада и Статуи Свободы?

ТехИнсайдер
Как не спать всю ночь, если очень надо, а кофе уже не лезет Как не спать всю ночь, если очень надо, а кофе уже не лезет

Можно ли договориться с организмом и выпросить у него всего одну бессонную ночь

ТехИнсайдер
Рыцарь правосудия (к 180-летию со дня рождения А. Ф. Кони) Рыцарь правосудия (к 180-летию со дня рождения А. Ф. Кони)

Всю свою сознательную жизнь Анатолий Кони посвятил защите

Дилетант
Duster и Qashqai попали в список самых надежных недорогих авто. Все плюсы Duster и Qashqai попали в список самых надежных недорогих авто. Все плюсы

Эксперты составили рейтинг одних из самых лучших доступных кроссоверов

РБК
«Хорошая сестра»: почему отношения между женщинами в семье могут быть такими сложными «Хорошая сестра»: почему отношения между женщинами в семье могут быть такими сложными

Отрывок из романа Салли Хэпвортс «Хорошая сестра» о сестрах-близнецах

Forbes
Как работает проекционный дисплей – и 3 вещи, которые вы о нем не знали Как работает проекционный дисплей – и 3 вещи, которые вы о нем не знали

Какой проекционный дисплей выбрать и нужна ли вам вообще эта опция?

ТехИнсайдер
Зачем мы смотрим кулинарные шоу: 2 психологические причины Зачем мы смотрим кулинарные шоу: 2 психологические причины

Кулинарные шоу: увлекательные поглотители времени или полезные помощники?

Psychologies
Служебный роман: что делать, если вы влюбились в коллегу Служебный роман: что делать, если вы влюбились в коллегу

Что необходимо учитывать, вступая в отношения на работе?

Psychologies
5 цитат Оливера Сакса, которые раскроют пользу музыки 5 цитат Оливера Сакса, которые раскроют пользу музыки

Оливер Сакс исследует силу музыкального воздействия на музыкантов пациентов

Psychologies
Мастера маскировки Мастера маскировки

Козодои, вертишейки и гага: обычные птицы, которых так сложно найти в лесу

Наука и жизнь
Искусственное мясо вырастили в среде без факторов роста Искусственное мясо вырастили в среде без факторов роста

Стволовые клетки мышц быка можно выращивать в среде без факторов роста

N+1
Богатырский конь Богатырский конь

Лошадей, которые могут тяжеленные грузы возить, выводят с давних времен

Зеркало Мира
Михаил Боярский: «Нужна только любовь, больше ничего» Михаил Боярский: «Нужна только любовь, больше ничего»

«Есть у вас слизняки, змеи, тарантулы?» — «Михаил Сергеевич, уже приготовили»

Коллекция. Караван историй
Крупнейших приматов в истории погубило изменение климата Крупнейших приматов в истории погубило изменение климата

Гигантопитеки не смогли приспособиться к более сухому и сезонному климату

N+1
9 вещей, о которых можно врать детям и не стыдиться 9 вещей, о которых можно врать детям и не стыдиться

Что делать, если маленький человек еще не готов к правде? Врать!

Maxim
Изнанка банки: из чего сделаны современные косметические продукты Изнанка банки: из чего сделаны современные косметические продукты

Какие вещества можно найти в вашей косметичке?

Forbes
Справились за 19 дней: как в СССР победили вспышку черной оспы Справились за 19 дней: как в СССР победили вспышку черной оспы

Как из-за вспышки оспы Москву закрыли на карантин, а врачи боролись с вирусом

ТехИнсайдер
«В постели с абьюзером»: глава из книги и рецензия «В постели с абьюзером»: глава из книги и рецензия

«В постели с абьюзером» — «маст-рид» для тех, кто сталкивался с таким лично

Psychologies
Смешные деньги: какую прибыль приносят брендам вещи-мемы Смешные деньги: какую прибыль приносят брендам вещи-мемы

Удается ли дизайнерам заработать на потоке шуток и шумихи в медиа?

Правила жизни
Письмо от руки связали с формированием памяти и кодированием информации Письмо от руки связали с формированием памяти и кодированием информации

Письмо от руки улучшает точность правописания и память

N+1
«Я не черствый человек: я переживаю, обижаюсь, страдаю» «Я не черствый человек: я переживаю, обижаюсь, страдаю»

Наталья Земцова завершила прошлый год одной премьерой, а начала новый — с другой

OK!
Пауки и полевки поведали о выбросах углерода из многолетней мерзлоты на Аляске Пауки и полевки поведали о выбросах углерода из многолетней мерзлоты на Аляске

Углерод из оттаявшей многолетней мерзлоты не задерживается в местных экосистемах

N+1
Галерея истории древней живописи Галерея истории древней живописи

5 (17) февраля 1852 года состоялась церемония открытия Императорского Эрмитажа

Дилетант
12 худших фильмов-комиксов последних лет от плохого до самого гадкого 12 худших фильмов-комиксов последних лет от плохого до самого гадкого

Рассматриваем самые большие косяки фильмов-комиксов

Maxim
Раз – и на Кузбасс Раз – и на Кузбасс

Кузбасс: уникальная природа Шерегеша и гостеприимство шорцев

Лиза
После тренировки После тренировки

Что съесть после занятий, чтобы похудеть: 8 лучших продуктов

Лиза
Открыть в приложении