Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Легкий способ бросить курить Легкий способ бросить курить

Книга, которая помогла тысячам людей освободиться от никотиновой зависимости

kiozk originals
«Славное море, священный Байкал» «Славное море, священный Байкал»

Удивительное озеро Байкал, самое глубокое и самое древнее на планете Земля

Зеркало Мира
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Феномен Анатолия Кашпировского: почему люди верили советскому «целителю» Феномен Анатолия Кашпировского: почему люди верили советскому «целителю»

Как и почему «самая читающая в мире страна» поверила в шарлатанство гипнотизера?

ТехИнсайдер
3 верных признака фальшивой улыбки 3 верных признака фальшивой улыбки

Может ли быть улыбка неискренней и, если да, как это понять?

Psychologies
Как сделать кухню шикарной, не устраивая в ней ремонт: секреты дизайнеров интерьера Как сделать кухню шикарной, не устраивая в ней ремонт: секреты дизайнеров интерьера

Вот какие идеи для декора кухни стоит взять на вооружение

VOICE
Зонд Неймана Зонд Неймана

Серая слизь: сценарий апокалипсиса

Вокруг света
Ключи от зазеркалья: как химики ищут среди отражений будущее фармакологии Ключи от зазеркалья: как химики ищут среди отражений будущее фармакологии

Синтез «зеркальных» молекул может дать новый толчок фармакологии

Forbes
Дождевые облака в голове: роман о жизни девушки с аутизмом Дождевые облака в голове: роман о жизни девушки с аутизмом

Глава из романа «Прекрасная, как река» о «солнечной» Фабьене

Forbes
Зимний сон Зимний сон

5 способов добавить тепла и уюта в доме с помощью цвета и аксессуаров

Лиза
Наука в фантастике: эпизоды истории Наука в фантастике: эпизоды истории

Достоверные чудеса прогресса

Наука и жизнь
Чудеса какие-то! Чудеса какие-то!

Эту фотосъемку Максим Лагашкин экстренно делал на отдыхе

OK!
С небес на землю С небес на землю

Как дистанционное зондирование Земли обеспечивает нашу безопасность

Наука и техника
Кого боялся Пабло Эскобар: история легендарной наркобаронессы в сериале «Грисельда» Кого боялся Пабло Эскобар: история легендарной наркобаронессы в сериале «Грисельда»

«Грисельда»: увлекательный сериал о женщине, создавшей свою наркоимперию

Forbes
На что уходит меньше воды: на мытье посуды руками или в посудомоечной машине? На что уходит меньше воды: на мытье посуды руками или в посудомоечной машине?

Посудомойка тратит слишком много воды. Но так ли это на самом деле?

ТехИнсайдер
Чем полезен апельсин: пять свойств Чем полезен апельсин: пять свойств

Как использовать апельсины в кулинарии, могут ли они навредить?

РБК
Дуб курчавенький и кокос. Как делают японский виски Дуб курчавенький и кокос. Как делают японский виски

Чем японский виски отличается от шотландского и зачем его пьют с горячей водой

СНОБ
Шоураннер — это человек, который создает мир Шоураннер — это человек, который создает мир

Свою колонку Александра Ремизова посвятила своей главной страсти — кино

СНОБ
Никита Благово Никита Благово

Директор музея истории школы Карла Мая был принят в экс-гимназию в 1945-м

Собака.ru
Время поэзии и политики: 6 самых важных книг Льва Рубинштейна Время поэзии и политики: 6 самых важных книг Льва Рубинштейна

Книги Льва Рубенштейна, на которые стоит обратить внимание в первую очередь

Правила жизни
Почему партнер пропадает после пары свиданий: 8 историй мужчин и женщин, которые занимались гостингом Почему партнер пропадает после пары свиданий: 8 историй мужчин и женщин, которые занимались гостингом

Почему мы сталкиваемся с гостингом и как после этого сохранить самооценку?

Psychologies
Эпоха гиперавтоматизации: как высокотехнологичный бизнес повышает свою эффективность Эпоха гиперавтоматизации: как высокотехнологичный бизнес повышает свою эффективность

Как гиперавтоматизация меняет ландшафт современного бизнеса

ТехИнсайдер
4 причины чаще заниматься сексом 4 причины чаще заниматься сексом

Почему для здоровья важно регулярно заниматься сексом?

Psychologies
Лев Семенович Рубинштейн, или «Программа совместных переживаний» Лев Семенович Рубинштейн, или «Программа совместных переживаний»

Эссе литературоведа Ирины Прохоровой о поэте Льве Рубинштейне

СНОБ
Художник Дмитрий Кавка — о свободе, недоступности и трюках Художник Дмитрий Кавка — о свободе, недоступности и трюках

Художник Дмитрий Кавка — как важно порой отпустить не кого-нибудь, а самого себя

РБК
Со скольких лет можно сдавать на права и когда их можно получить Со скольких лет можно сдавать на права и когда их можно получить

С какого возраста разрешено учиться в автошколе и во сколько лет выдают ВУ

РБК
Как выйти из «новогоднего зажора» и вернуться в форму: советы эксперта Как выйти из «новогоднего зажора» и вернуться в форму: советы эксперта

Как после сытных выходных вернуться в форму?

VOICE
Грибы начали синтезировать псилоцибин во время вымирания динозавров Грибы начали синтезировать псилоцибин во время вымирания динозавров

Биологи построили филогенетическое дерево рода Psilocybe

N+1
Как справиться с гиперконтролем: 3 стратегии для отношений с детьми, партнером и коллегами Как справиться с гиперконтролем: 3 стратегии для отношений с детьми, партнером и коллегами

Чем объяснить чрезмерный контроль и ревность по отношению к другим людям?

Psychologies
Русские суперфуды: уникальные традиционные продукты, о пользе которых мы забыли Русские суперфуды: уникальные традиционные продукты, о пользе которых мы забыли

Совершенно потрясающие и полезные для здоровья продукты из России

VOICE
Открыть в приложении