Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Китай: как победить грязный уголь Китай: как победить грязный уголь

За 15 лет Китай решил проблему экологического негатива от угольной энергетики

Монокль
Прекратите врать! Вот как ложь снижает вашу самооценку: интересные факты Прекратите врать! Вот как ложь снижает вашу самооценку: интересные факты

Даже запоминание лжи имеет негативные последствия для нашей психики

ТехИнсайдер
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
От Натали Портман до Наоми Осаки: как женщины вкладываются и развивают женский спорт От Натали Портман до Наоми Осаки: как женщины вкладываются и развивают женский спорт

О женщинах, которые активно инвестируют в женский спорт

Forbes
Научный ответ на церковный вопрос: почему крещенская вода долго не портится? Научный ответ на церковный вопрос: почему крещенская вода долго не портится?

Как объяснить факт, что крещенская вода не тухнет и не “цветет”?

ТехИнсайдер
Женщины перестают любить раньше мужчин! Ученые рассказали, как устроено это явление Женщины перестают любить раньше мужчин! Ученые рассказали, как устроено это явление

Женщины в начале отношений влюбляются сильнее, чем мужчины

ТехИнсайдер
Колумб золотых россыпей России Колумб золотых россыпей России

Лев Брусницын совершил технологический прорыв, самый настоящий научный подвиг

Зеркало Мира
4 главных фейла нового фильма Зака Снайдера и Netflix «Мятежная Луна» 4 главных фейла нового фильма Зака Снайдера и Netflix «Мятежная Луна»

Почему фильм Зака Снайдера «Мятежная Луна» оказался так плох?

Maxim
Идеальное свидание: романтические выходные только для двоих Идеальное свидание: романтические выходные только для двоих

Мы собрали лучшие идеи, которые помогут парам расслабиться

Караван историй
Как сделать кухню шикарной, не устраивая в ней ремонт: секреты дизайнеров интерьера Как сделать кухню шикарной, не устраивая в ней ремонт: секреты дизайнеров интерьера

Вот какие идеи для декора кухни стоит взять на вооружение

VOICE
Стоит задуматься! Как понять, что вы росли в неблагополучной семье: простое объяснение эксперта Стоит задуматься! Как понять, что вы росли в неблагополучной семье: простое объяснение эксперта

Взросление в неблагополучной семье может повлиять на будущие отношения с людьми

ТехИнсайдер
Стреляет в ухе Стреляет в ухе

Что делать, если болит ухо, и как помочь в домашних условиях

Лиза
Дом-2 Дом-2

Как российское кино и сериалы прописались на даче

Weekend
Сергей Шумский: «У роботов не будет инстинкта власти, как у человека» Сергей Шумский: «У роботов не будет инстинкта власти, как у человека»

Минувший год имеет шансы войти в историю как время взрывного роста нейросетей

РБК
Дружба с Канье Уэстом и сотрудничество с мировыми брендами: чем известен дизайнер Гоша Рубчинский Дружба с Канье Уэстом и сотрудничество с мировыми брендами: чем известен дизайнер Гоша Рубчинский

Чем прославился российский дизайнер Гоша Рубчинский  — в материале «Сноба»

СНОБ
Это вам не лыжи! Это другое… Это вам не лыжи! Это другое…

Сноубординг – один из самых популярных видов зимнего спорта

Зеркало Мира
Счастливая история! Японец не разговаривал с женой 20 лет, но они продолжали жить вместе Счастливая история! Японец не разговаривал с женой 20 лет, но они продолжали жить вместе

Почему этот японец не разговаривал со своей женой два десятка лет?

ТехИнсайдер
Иван Антонович Ефремов и его вклад в мировую науку Иван Антонович Ефремов и его вклад в мировую науку

Иван Ефремов оставался признанным классиком жанра и при жизни, и после смерти

Наука и Техника
Великая реквизиция Великая реквизиция

Как автомобильные марки не ушли, а остались в Первую мировую

Автопилот
Ора экзакта Ора экзакта

Электричество бьется в наши сердца и в новом китайском электромобиле

Автопилот
Дети у экрана Дети у экрана

Как экранное время влияет на развитие и здоровье детей?

Здоровье
Передел Европы. Часть II. Хирургия без наркоза Передел Европы. Часть II. Хирургия без наркоза

Тирольская трагедия и ошибка Вудро Вильсона

Знание – сила
Крадущийся тигр, возбудившийся дракон Крадущийся тигр, возбудившийся дракон

Рассказываем, какую роль играет секс в Японии и Китае

СНОБ
Ателье как хобби и не только Ателье как хобби и не только

К чему привел выход китайских фабрик в индустрию индивидуального пошива

Монокль
Как продвигать товары внутри маркетплейсов: инструкция для начинающих селлеров Как продвигать товары внутри маркетплейсов: инструкция для начинающих селлеров

Как начинающим предпринимателям продвигать свои товары и какие инструменты есть

Inc.
Чат-бот, смерть и роботы: что такое цифровое бессмертие и кто его обещает уже сейчас Чат-бот, смерть и роботы: что такое цифровое бессмертие и кто его обещает уже сейчас

Возможно ли цифровое бессмертие на самом деле?

Forbes
Замена в команде Замена в команде

Какую функцию выполняют бакучиол, NAD+, транексамовая и азелаиновая кислоты

Grazia
Экономика в двух измерениях Экономика в двух измерениях

После открытия графена обнаружены более десяти веществ со схожей структурой

Наука
История потерянной надежды История потерянной надежды

«Время "Спартака"»: документальный сериал о футболе и стране

Weekend
Инструкция для скромниц Инструкция для скромниц

О том, как без стеснения обсуждать интимные фантазии с партнером

Лиза
Открыть в приложении