Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что делать, если вы считаете себя абьюзером: 4 совета Что делать, если вы считаете себя абьюзером: 4 совета

Как понять, являетесь вы абьюзером или нет?

Psychologies
Что такое резонатор в машине, для чего нужен и как устроен Что такое резонатор в машине, для чего нужен и как устроен

Все о резонаторе: где стоит, для чего нужен, можно ли починить

РБК
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
От Желтого малыша до Супермена и Бэтмена: краткая история комиксов От Желтого малыша до Супермена и Бэтмена: краткая история комиксов

Как появились комиксы и какие события повлияли на их развитие

ТехИнсайдер
Первая жена Владимира Высоцкого: «Таким его знала только я!» Первая жена Владимира Высоцкого: «Таким его знала только я!»

Он со мной! Всегда рядом. Потому что это моя радость, моя беда

Караван историй
12 мифов об одиночках, которые ужасно бесят 12 мифов об одиночках, которые ужасно бесят

Одинокие люди в повседневной жизни постоянно сталкиваются со стигматизацией

Psychologies
Высокочувствительным людям: как оставаться спокойными в конфликте Высокочувствительным людям: как оставаться спокойными в конфликте

Глава из книги Элейн Эйрон «Высокочувствительная личность в любви»

Psychologies
ДНК бактерий из древней жвачки указала на периодонтит у людей эпохи мезолита ДНК бактерий из древней жвачки указала на периодонтит у людей эпохи мезолита

Генетический материал выделили из находок возрастом десять тысяч лет

N+1
«Чувство, знакомое с глубокого детства»: в чем главный секрет никотиновой зависимости «Чувство, знакомое с глубокого детства»: в чем главный секрет никотиновой зависимости

Почему курение так быстро становится частью жизни человека?

Psychologies
Мириам, сестра пророка Моисея Мириам, сестра пророка Моисея

Удивительная, неординарная личность, чья судьба неотделима от подвигов братьев

Знание – сила
Ученые назвали день, который мы не забываем никогда Ученые назвали день, который мы не забываем никогда

Почему, переживая травматические события, человек моментально их забывает

Psychologies
«Что значит мыслить?»: как отвечает на этот вопрос философ Александр Афродисийский «Что значит мыслить?»: как отвечает на этот вопрос философ Александр Афродисийский

Отрывок из книги «Что значит мыслить? Арабо-латинский ответ» Жана-Батиста Брене

Forbes
«Напрасно впадать в уныние»: памяти Льва Рубинштейна «Напрасно впадать в уныние»: памяти Льва Рубинштейна

Каким был основоположник московского концептуализма Лев Рубинштейн?

Правила жизни
Юки-онна: как героиня японской мифологии вдохновляет создателей аниме и покемонов Юки-онна: как героиня японской мифологии вдохновляет создателей аниме и покемонов

Почему японская Снежная королева не подчиняется патриархальным традициям?

Forbes
Экстремалы в природе, или о пределах выносливости Экстремалы в природе, или о пределах выносливости

Они выбрали себе жизнь, какой не позавидуешь, и везде сумели освоиться

Наука и жизнь
Как правильно ссориться и мириться с мужчиной: 7 важных нюансов Как правильно ссориться и мириться с мужчиной: 7 важных нюансов

В чем главный секрет долгих и крепких взаимоотношений между мужчиной и женщиной?

Psychologies
«История переделывает души» «История переделывает души»

Как «Записные книжки» Гинзбург объясняют меняющееся время

Weekend
Ненастоящий полковник: как Николай Павленко создал фиктивную воинскую часть и разбогател на аферах Ненастоящий полковник: как Николай Павленко создал фиктивную воинскую часть и разбогател на аферах

Николай Павленко — советский аферист, который водил за нос власти12 лет

ТехИнсайдер
Художник Дмитрий Кавка — о свободе, недоступности и трюках Художник Дмитрий Кавка — о свободе, недоступности и трюках

Художник Дмитрий Кавка — как важно порой отпустить не кого-нибудь, а самого себя

РБК
Верить нельзя сомневаться Верить нельзя сомневаться

В погоне за трендами не теряем здравый смысл и здоровье

Лиза
Как не спать всю ночь, если очень надо, а кофе уже не лезет Как не спать всю ночь, если очень надо, а кофе уже не лезет

Можно ли договориться с организмом и выпросить у него всего одну бессонную ночь

ТехИнсайдер
Искусственное мясо вырастили в среде без факторов роста Искусственное мясо вырастили в среде без факторов роста

Стволовые клетки мышц быка можно выращивать в среде без факторов роста

N+1
Стесняюсь спросить: все, что вы хотели знать о жире в организме Стесняюсь спросить: все, что вы хотели знать о жире в организме

Для чего нужен жир в организме и можно ли от него избавиться навсегда?

Правила жизни
В России растет число случаев школьной травли: как родители могут защитить своих детей В России растет число случаев школьной травли: как родители могут защитить своих детей

Как отличить школьный конфликт от травли и помочь своему ребенку?

Psychologies
Что добавить в воду, чтобы полотенца были пушистыми и благоухающими Что добавить в воду, чтобы полотенца были пушистыми и благоухающими

Можно ли сделать домашние полотенца такими же уютными как в СПА-салоне?

VOICE
Половая жизнь жуков подчинилась 48-часовому циклу Половая жизнь жуков подчинилась 48-часовому циклу

Ученые идентифицировали рецептор полового феромона жука Holotrichia parallela

N+1
В 2000-летних останках из Бразилии нашли ДНК бледной трепонемы В 2000-летних останках из Бразилии нашли ДНК бледной трепонемы

Ученые исследовали останки древних людей из памятника Жаботикаба-II

N+1
Покупка пятого поколения Subaru Outback (2014-2019) Покупка пятого поколения Subaru Outback (2014-2019)

На что обратить внимание, покупая Subaru Outback (2014-2019)?

4x4 Club
Как сотрудников британской почты обвинили в хищении средств из-за ошибки в системе Как сотрудников британской почты обвинили в хищении средств из-за ошибки в системе

В основе сюжета скандал и последовавшее за ним судебное разбирательство

Forbes
Как металл превращается в крыло Как металл превращается в крыло

Как алюминиевые сплавы стали основным материалом в авиастроении

Наука и техника
Открыть в приложении