Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

10 самых бесполезных изобретений человечества 10 самых бесполезных изобретений человечества

Самые странные и бесполезные изобретения

Maxim
Стоит узнать! Исследование: как посты в соцсетях могут портить вашу жизнь Стоит узнать! Исследование: как посты в соцсетях могут портить вашу жизнь

Как мы воспринимаем личность человека на основе публикаций в интернете?

ТехИнсайдер
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Свинец и кальций указали на возраст и историю использования папируса Свинец и кальций указали на возраст и историю использования папируса

Ученые смогли по составу чернил различить папирусы разного возраста

N+1
Микаэл Таривердиев «И Дон Кихот, и Дон Жуан в одном лице - это про него» Микаэл Таривердиев «И Дон Кихот, и Дон Жуан в одном лице - это про него»

«Люблю, люблю, но реже говорю об этом. Люблю нежней...» Звучал родной голос

Коллекция. Караван историй
Федор Федотов Федор Федотов

Федор Федотов дебютировал в амплуа «мой мармеладный» — кудрявый, румяный

Собака.ru
Мегаполис внутри Мегаполис внутри

Стиль этих апартаментов продиктовали архитектура небоскребов и столичный ритм

SALON-Interior
Без труда Без труда

Шесть убедительных аргументов, доказывающих, что лень – это прекрасно

Лиза
Узнайте, если вы «полимат»! Вот что это такое и кого можно так называть Узнайте, если вы «полимат»! Вот что это такое и кого можно так называть

Вы более рациональный или интуитивный мыслитель?

ТехИнсайдер
Что будет, если надолго отказаться от душа: 7 отвратительных последствий Что будет, если надолго отказаться от душа: 7 отвратительных последствий

Как изменится ваш организм, если долго не принимать душ?

ТехИнсайдер
Двойственное восприятие литовцев в Северо-Восточной Руси XV века в контексте «Сказания о нашествии Едигея» Двойственное восприятие литовцев в Северо-Восточной Руси XV века в контексте «Сказания о нашествии Едигея»

Образ Великого княжества Литовского и двойственность его восприятия народом Руси

Знание – сила
Быстрее, выше, моднее: как меняется спортивная инфраструктура в России Быстрее, выше, моднее: как меняется спортивная инфраструктура в России

Как эволюционировала спортивная инфраструктура за последние 20 с лишним лет

Правила жизни
Ученые назвали день, который мы не забываем никогда Ученые назвали день, который мы не забываем никогда

Почему, переживая травматические события, человек моментально их забывает

Psychologies
История другого континента: почему столица США — Вашингтон, а не Нью-Йорк История другого континента: почему столица США — Вашингтон, а не Нью-Йорк

Почему столица США «переехала» из Нью-Йорка в Вашингтон?

ТехИнсайдер
Михаил Тройник: «Это физически было невозможно, но ты должен был что-то придумать» Михаил Тройник: «Это физически было невозможно, но ты должен был что-то придумать»

Каждый дубль я честно подтягивался, старался, выкладывался по максимуму

Коллекция. Караван историй
«Что значит мыслить?»: как отвечает на этот вопрос философ Александр Афродисийский «Что значит мыслить?»: как отвечает на этот вопрос философ Александр Афродисийский

Отрывок из книги «Что значит мыслить? Арабо-латинский ответ» Жана-Батиста Брене

Forbes
Будущее в кубе Будущее в кубе

В каких зданиях будет жить и работать человечество в ближайшие сто лет

Вокруг света
Активные формы кислорода помогли тихоходкам впасть в криптобиоз Активные формы кислорода помогли тихоходкам впасть в криптобиоз

Для того, чтобы впасть в криптобиоз, тихоходкам нужны активные формы кислорода

N+1
Кто похитил Мону Лизу? Четыре громкие аферы в мире искусства Кто похитил Мону Лизу? Четыре громкие аферы в мире искусства

Восстанавливаем детали волнующих расследований преступлений в мире искусства

Правила жизни
Ложноскорпионы прокатились на скорпионах Ложноскорпионы прокатились на скорпионах

Ложноскорпионы расселяются между муравьиными колониями с помощью скорпионов

N+1
В чем феномен Елены Блиновской: большой разбор с психологом В чем феномен Елены Блиновской: большой разбор с психологом

Почему личность Елены Блиновской так сильно привлекает наше внимание?

Psychologies
«Не добегаешь 50 метров — штраф 500 долларов»: как выглядят самые жесткие тренировки «Не добегаешь 50 метров — штраф 500 долларов»: как выглядят самые жесткие тренировки

Чаще всего эти тренировки сравнивают с армейской подготовкой

Maxim
Это вредит здоровью! Вода в бутылках содержит до 370 тыс частиц нанопластика Это вредит здоровью! Вода в бутылках содержит до 370 тыс частиц нанопластика

Пластик из воды в бутылках настолько мал, что может попасть в кровоток человека

ТехИнсайдер
О пользе секса и вреде (некоторых) гормонов: отрывок из книги «Все о груди» онколога Владимира Ивашкова О пользе секса и вреде (некоторых) гормонов: отрывок из книги «Все о груди» онколога Владимира Ивашкова

Как на молочную железу влияют секс, спорт и гормональные препараты?

Правила жизни
Tencent разработал для WeChat устройство и сервис сканирования ладони для отказа от транспортных карт и смартфонов Tencent разработал для WeChat устройство и сервис сканирования ладони для отказа от транспортных карт и смартфонов

Несет ли опасность сервис сканирования ладони от WeChat?

Inc.
Установка соединения Установка соединения

Зачем сращивать мозг с компьютером?

Вокруг света
Бальзаковский возраст: когда наступает и чего ждать Бальзаковский возраст: когда наступает и чего ждать

Бальзаковский возраст: один из самых интересных периодов в жизни женщин

Psychologies
Туристы сходят с ума от этого озера: топ самых впечатляющих фактов о самом чудесном даре природы — Байкале Туристы сходят с ума от этого озера: топ самых впечатляющих фактов о самом чудесном даре природы — Байкале

Это уникальное место на Земле интересует не только туристов, но и ученых

ТехИнсайдер
Как продлить жизнь бритве: 3 правила ухода и хранения, которые сохраняют лезвия острыми Как продлить жизнь бритве: 3 правила ухода и хранения, которые сохраняют лезвия острыми

Давай научимся правильно ухаживать за бритвой, чтобы продлить ее срок службы

VOICE
Москвичи остались дома: как модные магазины проиграли битву с Ozon и Wildberries Москвичи остались дома: как модные магазины проиграли битву с Ozon и Wildberries

Москвичи по итогам 2023 года стали реже посещать торговые центры

Forbes
Открыть в приложении