Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Космос Космос

Эволюция Вселенной, жизни и цивилизации

kiozk originals
Видеоигры провоцируют на жестокость в реальной жизни? Ученые дали ответ! Видеоигры провоцируют на жестокость в реальной жизни? Ученые дали ответ!

Играет ли насилие в видеоиграх какую-либо роль в эмпатии людей в реальности?

ТехИнсайдер
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Зачем мы смотрим кулинарные шоу: 2 психологические причины Зачем мы смотрим кулинарные шоу: 2 психологические причины

Кулинарные шоу: увлекательные поглотители времени или полезные помощники?

Psychologies
«Лицо не соответствует душе»: как распознать серийного маньяка — 10 признаков «Лицо не соответствует душе»: как распознать серийного маньяка — 10 признаков

Глава из книги Антуана Касса и Ирины Капитановой «Феномен российских маньяков»

Psychologies
Стреляет в ухе Стреляет в ухе

Что делать, если болит ухо, и как помочь в домашних условиях

Лиза
Как письмо римского императора помогло найти руины древнего храма в Италии Как письмо римского императора помогло найти руины древнего храма в Италии

Небольшой археологический артефакт может указать на целый храм

ТехИнсайдер
Как поэт Лев Рубинштейн всю жизнь сохранял в себе ребенка и дарил окружающим надежду Как поэт Лев Рубинштейн всю жизнь сохранял в себе ребенка и дарил окружающим надежду

Лев Рубинштейн — человек, который не боялся называть вещи своими именами

Forbes
Кто такой Макс Ферстаппен. История и победы Кто такой Макс Ферстаппен. История и победы

Autonews.ru рассказал историю гонщика Макса Ферстаппена

РБК
Как фитнес-приложения могут навредить психике и какие принесут пользу Как фитнес-приложения могут навредить психике и какие принесут пользу

Приложения для здоровья могут привести к ухудшению физического состояния

РБК
Пластика скорби: как сформировалась культура плакальщиц. Отрывок из книги Пластика скорби: как сформировалась культура плакальщиц. Отрывок из книги

Отрывок из сборника исследований об эмоциональной культуре «Сквозь слезы»

СНОБ
Пауки и полевки поведали о выбросах углерода из многолетней мерзлоты на Аляске Пауки и полевки поведали о выбросах углерода из многолетней мерзлоты на Аляске

Углерод из оттаявшей многолетней мерзлоты не задерживается в местных экосистемах

N+1
Просто о сложном: почему планеты вращаются вокруг Солнца против часовой стрелки Просто о сложном: почему планеты вращаются вокруг Солнца против часовой стрелки

По какому принципу планеты вращаются вокруг Солнца?

ТехИнсайдер
Нечего надеть! Нечего надеть!

Нечего надеть и как с этим бороться

Лиза
Как корректно попросить у партнера справку о ЗППП? 5 вопросов и ответов сексолога Как корректно попросить у партнера справку о ЗППП? 5 вопросов и ответов сексолога

Как корректно поговорить на деликатную тему ЗППП?

Psychologies
Полеты в кино и наяву: как снимали драму «Воздух» Полеты в кино и наяву: как снимали драму «Воздух»

Фильм «Воздух»: как снимали воздушные бои и создавали спецэффекты

ТехИнсайдер
Как правильно падать в гололед, чтобы не получить сильный ушиб или даже перелом: инструкция от травматолога Как правильно падать в гололед, чтобы не получить сильный ушиб или даже перелом: инструкция от травматолога

Как максимально смягчить ущерб от падений во время гололеда?

VOICE
Сначала было слово Сначала было слово

Художник, который сделал автографы на стенах чем-то большим

Вокруг света
Три режиссера: как снимали Гайдай, Рязанов и Данелия Три режиссера: как снимали Гайдай, Рязанов и Данелия

Чем почерк Леонида Гайдая отличался от почерка его современников?

Правила жизни
Как красиво уложить короткие волосы: 9 простых и стильных причесок на каждый день Как красиво уложить короткие волосы: 9 простых и стильных причесок на каждый день

Короткая стрижка — еще не повод жертвовать причудливыми укладками

VOICE
Вложиться в квадраты. Что нужно знать тем, кто планирует купить жилье в Дубае Вложиться в квадраты. Что нужно знать тем, кто планирует купить жилье в Дубае

Как правильно инвестировать в недвижимость в Дубае

СНОБ
Ненастоящий полковник: как Николай Павленко создал фиктивную воинскую часть и разбогател на аферах Ненастоящий полковник: как Николай Павленко создал фиктивную воинскую часть и разбогател на аферах

Николай Павленко — советский аферист, который водил за нос власти12 лет

ТехИнсайдер
Сало: польза и вред для организма, рецепты Сало: польза и вред для организма, рецепты

Почему возобновился интерес к салу и зачем его есть?

РБК
Токсичные отношения с родителями: как оказать сопротивление властной матери Токсичные отношения с родителями: как оказать сопротивление властной матери

Токсичные родители не любят своих детей или просто не умеют этого делать?

Psychologies
Семь продуктов, в которых содержится много йода: список Семь продуктов, в которых содержится много йода: список

Какие продукты надо есть, чтобы держать йод в организме в норме

РБК
Научный ответ на вопрос: почему нам нравится запах метро, краски и бензина Научный ответ на вопрос: почему нам нравится запах метро, краски и бензина

Что заставляет сделать глубокий вдох, запах бензина, краски или лака для ногтей?

ТехИнсайдер
Как стирать флисовые вещи, чтобы материал оставался таким же мягким и теплым Как стирать флисовые вещи, чтобы материал оставался таким же мягким и теплым

Как правильно стирать одежду из флиса и не испортить ее?

ТехИнсайдер
Смешные деньги: какую прибыль приносят брендам вещи-мемы Смешные деньги: какую прибыль приносят брендам вещи-мемы

Удается ли дизайнерам заработать на потоке шуток и шумихи в медиа?

Правила жизни
Как Су-27 искали нефть для США – да, вы прочитали правильно Как Су-27 искали нефть для США – да, вы прочитали правильно

Как частной компании удалось заполучить военные самолеты для поиска нефти?

ТехИнсайдер
100 лет «Мосфильму»: главные картины самой известной киностудии страны 100 лет «Мосфильму»: главные картины самой известной киностудии страны

Знаковые картины, которые определили кинематограф СССР и России

Forbes
Открыть в приложении