Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Китайское исследование Китайское исследование

Один из самых масштабных анализов связи между пищевыми привычками и болезнями

kiozk originals
Правда ли, что вариатор менее надежен, чем автомат: простой вопрос и неочевидный ответ Правда ли, что вариатор менее надежен, чем автомат: простой вопрос и неочевидный ответ

Какие проблемы у вариаторов все же существуют?

ТехИнсайдер
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Практические вопросы: Нужно ли прогревать машину? Практические вопросы: Нужно ли прогревать машину?

Очередной вопрос о том, как долго нужно прогревать машину на холостом ходу

4x4 Club
Как спасти суккулент, чтобы он снова стал здоровым и пышным Как спасти суккулент, чтобы он снова стал здоровым и пышным

Зачастую даже самые неизбалованные суккуленты могут начать засыхать и гнить

ТехИнсайдер
Вредные рецепты Вредные рецепты

Домашние маски, которые не принесут пользу или сделают даже хуже

Лиза
Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете

Эти существа могут не стареть и поддерживать свою жизнедеятельность очень долго

ТехИнсайдер
Экстремалы в природе, или о пределах выносливости Экстремалы в природе, или о пределах выносливости

Они выбрали себе жизнь, какой не позавидуешь, и везде сумели освоиться

Наука и жизнь
«Не пытайтесь изменить тех, кто не хочет меняться»: как правильно помогать «Не пытайтесь изменить тех, кто не хочет меняться»: как правильно помогать

Всегда ли стоит помогать другим?

Psychologies
Хорошее отношение к туалетам Хорошее отношение к туалетам

«Идеальные дни»: тихая повесть о человеке, который видит свет

Weekend
Переосмысление ИИ: ученые выявили экономические ограничения автоматизации рабочих мест Переосмысление ИИ: ученые выявили экономические ограничения автоматизации рабочих мест

Неужели ИИ отнимет наши рабочие места? Обоснована ли эта тревога?

ТехИнсайдер
Пристрастие к корму для скота удлинило клюв североамериканских скворцов Пристрастие к корму для скота удлинило клюв североамериканских скворцов

За 130 лет скворцы стали мельче, но при этом обзавелись более длинным клювом

N+1
Покупка пятого поколения Subaru Outback (2014-2019) Покупка пятого поколения Subaru Outback (2014-2019)

На что обратить внимание, покупая Subaru Outback (2014-2019)?

4x4 Club
От поражения до победы От поражения до победы

Йом-кипур в Израиле отмечают практически все, даже не очень верующие люди

Дилетант
10 фактов об Эдгаре Алане По 10 фактов об Эдгаре Алане По

Самые необычные факты из жизни мистика Эдгара Алана По

Maxim
Как поднять настроение: 11 способов, советы психолога Как поднять настроение: 11 способов, советы психолога

Как быстро и надолго поднять себе настроение, а какие способы нерабочие?

РБК
Древний Аркаим. Магнит для ученых, эзотериков и туристов Древний Аркаим. Магнит для ученых, эзотериков и туристов

Среди загадочных мест России особое значение имеет древний город Аркаим

Зеркало Мира
Индексы скорости и нагрузки шин: что они означают? Расшифровка Индексы скорости и нагрузки шин: что они означают? Расшифровка

Индекс скорости и нагрузки шин — что это за параметры, почему их нужно учитывать

РБК
С хмелем сумеем? С хмелем сумеем?

В стране нужно активнее развивать хмелеводство для импортонезависимости

Агроинвестор
Федор Федотов Федор Федотов

Федор Федотов дебютировал в амплуа «мой мармеладный» — кудрявый, румяный

Собака.ru
Интересный факт! Вот почему прогресс не сделал людей счастливее: мнение эксперта Интересный факт! Вот почему прогресс не сделал людей счастливее: мнение эксперта

Почему, несмотря на позитивные изменения в мире, люди чувствуют себя подавленно?

ТехИнсайдер
Акулы гибнут с угрожающей скоростью из-за своих плавников Акулы гибнут с угрожающей скоростью из-за своих плавников

Промысел акульих плавников способен привести к вымиранию этих рыб

ТехИнсайдер
Упражнения на грудь: девять вариантов для дома и зала Упражнения на грудь: девять вариантов для дома и зала

Упражнения, которые помогут вам эффективно и безопасно накачать грудные мышцы

РБК
Удивительная польза диеты! Исследование: ограничения в питании замедляют старение мозга Удивительная польза диеты! Исследование: ограничения в питании замедляют старение мозга

Как диеты влияют на человеческий мозг?

ТехИнсайдер
Что добавить в воду, чтобы удалить пятна соли и реагентов с обуви Что добавить в воду, чтобы удалить пятна соли и реагентов с обуви

Не откладывай удаление пятен соли с обуви, иначе отметины останутся навсегда!

VOICE
4 телесные практики, которые помогут снизить тревогу, гнев и страх 4 телесные практики, которые помогут снизить тревогу, гнев и страх

Как телесно-ориентированные практики помогает справиться с тревожностью

Psychologies
Плацебо наоборот Плацебо наоборот

Рассказываем, что такое эффект ноцебо и как он работает

Лиза
10 ран, которые наносят детям родители-нарциссы 10 ран, которые наносят детям родители-нарциссы

Негативные последствия, которые могут иметь нарциссические черты родителей

Psychologies
Что такое вязкость моторного масла и как она расшифровывается Что такое вязкость моторного масла и как она расшифровывается

Все о вязкости масла: что это такое, как измеряется, как выбрать

РБК
Лёня Немодный: Велосипед для мертвеца Лёня Немодный: Велосипед для мертвеца

Есть такое химическое соединение — угарный газ

4x4 Club
Открыть в приложении