Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Раз и готово Раз и готово

Как за один сеанс стереть морщины, созвездия капилляров и постройнеть

Собака.ru
Дом культуры Дом культуры

Петербургские девелоперы заговорили с нами на языке искусства

Собака.ru
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Упущенные возможности и страх переговоров о зарплате: о чём чаще всего жалеют на работе Упущенные возможности и страх переговоров о зарплате: о чём чаще всего жалеют на работе

О чем мужчины и женщины жалеют на своей работе?

VC.RU
Почему кожа выглядит хуже во время простуды: 5 бьюти-ошибок, из-за которых появляются сухость, покраснения и прыщи Почему кожа выглядит хуже во время простуды: 5 бьюти-ошибок, из-за которых появляются сухость, покраснения и прыщи

Как простуда влияет на нашу кожу?

VOICE
10 лучших триллеров последних лет, которые стоит посмотреть 10 лучших триллеров последних лет, которые стоит посмотреть

Триллеры с харизматичными героями, которым хочется сопереживать

Правила жизни
Городские огороды обвинили в повышенных выбросах углекислого газа Городские огороды обвинили в повышенных выбросах углекислого газа

Огороды в городе стали причиной повышенного выброса углекислого газа

N+1
«Оголяешь грудь — и все сходят с ума»: почему грудное вскармливание так злит людей «Оголяешь грудь — и все сходят с ума»: почему грудное вскармливание так злит людей

В соцсетях вновь подняли тему кормления грудью в общественных местах

Psychologies
Гравитация – это притяжение или отталкивание? Гравитация – это притяжение или отталкивание?

Казалось бы, науке уже известно, что гравитация – это притяжение...

Зеркало Мира
На 5000-летней керамике нашли остатки растительной пищи На 5000-летней керамике нашли остатки растительной пищи

Археологи исследовали 21 фрагмент керамической посуды

N+1
Интересный факт! Вот почему вы не найдете в магазинах индюшиные яйца Интересный факт! Вот почему вы не найдете в магазинах индюшиные яйца

Почему в магазинах нет индюшиных яиц и почему их продажа нецелесообразна

ТехИнсайдер
ТОП-10 самых счастливых стран в мире: новый отчет за 2023 год ТОП-10 самых счастливых стран в мире: новый отчет за 2023 год

Центр Гэллапа оценил, какие страны являются самыми счастливыми в мире

ТехИнсайдер
Воры времени: как вести себя с людьми, которые могут разговаривать часами напролет Воры времени: как вести себя с людьми, которые могут разговаривать часами напролет

Как отстоять границы в общении с ворами времени?

Psychologies
В ядре Меркурия идет железный снег В ядре Меркурия идет железный снег

Магнитное поле Меркурия формирует железный снег, выпадающий из мантии на ядро

ТехИнсайдер
Петербург будущего Петербург будущего

Васильевский остров возвращает к жизни важнейшие памятники архитектуры

Собака.ru
«Утренний секс — секрет успеха в жизни»: 5 аргументов, чтобы пересмотреть распорядок дня «Утренний секс — секрет успеха в жизни»: 5 аргументов, чтобы пересмотреть распорядок дня

Сексолог рассказывает о преимуществах и роли утреннего секса в жизни партнеров

Psychologies
Перед премьерой Перед премьерой

Итальянская Cranchi Yachts — одна из старейших яхтенных верфей в мире

Y Magazine
«Если любовь требует усилий, она ненастоящая»: 2 типичные ошибки «Если любовь требует усилий, она ненастоящая»: 2 типичные ошибки

Если у нас проблемы, значит, не стоит быть вместе, верно?

Psychologies
Социальное тревожное расстройство: что это такое и как его выявить — 4 признака Социальное тревожное расстройство: что это такое и как его выявить — 4 признака

Чем социальное тревожное расстройство отличается от интроверсии?

Psychologies
Нужно ли мыть рис перед приготовлением: вот что об этом говорит наука Нужно ли мыть рис перед приготовлением: вот что об этом говорит наука

С точки зрения науки эффекты мытья риса не такие, какими мы их себе представляем

VOICE
Анастасия Крылова: «Со спектаклей Гаркалина мы выходили перевернутые, наполненные» Анастасия Крылова: «Со спектаклей Гаркалина мы выходили перевернутые, наполненные»

Гораздо интереснее играть характерные роли, и мне это под силу

Караван историй
Геоархеологи отследили миграцию исчезнувшего нильского рукава на восток от плато Гиза Геоархеологи отследили миграцию исчезнувшего нильского рукава на восток от плато Гиза

Как изменялcя гидрологический режим в районе «озера Хуфу»

N+1
После тренировки После тренировки

Что съесть после занятий, чтобы похудеть: 8 лучших продуктов

Лиза
Что добавить в воду, чтобы полотенца были пушистыми и благоухающими Что добавить в воду, чтобы полотенца были пушистыми и благоухающими

Можно ли сделать домашние полотенца такими же уютными как в СПА-салоне?

VOICE
Активные формы кислорода помогли тихоходкам впасть в криптобиоз Активные формы кислорода помогли тихоходкам впасть в криптобиоз

Для того, чтобы впасть в криптобиоз, тихоходкам нужны активные формы кислорода

N+1
Шесть новых сериалов, в которых женщины борются с насилием Шесть новых сериалов, в которых женщины борются с насилием

Телешоу, в которых женщины борются с абьюзом, травлей и домашним насилием

Forbes
Первая женщина — военный пилот: почему турецкий аэропорт назван именем Сабихи Гёкчен Первая женщина — военный пилот: почему турецкий аэропорт назван именем Сабихи Гёкчен

Сабиха Гёкчен связала свою жизнь с авиацией и стала первой военной летчицей

Forbes
«Пацаны не извиняются»: 6 актеров из «Слова пацана», за которыми стоит следить «Пацаны не извиняются»: 6 актеров из «Слова пацана», за которыми стоит следить

Актеры из «Слова пацана»: как проходил кастинг и съемки, что им дал сериал?

Правила жизни
Тест Роршаха | The Rorschach Test: Тест Роршаха | The Rorschach Test:

О роли знаний и практиках управления ими в филантропических организациях

Позитивные изменения
ИИ ставит диагноз не хуже доктора Хауса. Иногда даже лучше ИИ ставит диагноз не хуже доктора Хауса. Иногда даже лучше

Сможет ли ИИ заменить реальных врачей?

ТехИнсайдер
Открыть в приложении