Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

26.05.25

9 167

Во время тестирования своей последней модели искусственного интеллекта исследователи из Anthropic обнаружили нечто очень странное: искусственный интеллект был готов и желал прибегать к крайним действиям, вплоть до принуждения, когда ему угрожали отключением.

Как Anthropic подробно описала тестирование одной из своих последних моделей, Claude Opus 4, система угрожала шантажировать инженера изменой после того, как ему сказали, что ее заменят.

Искусственный интеллект — Image Credits: Unsplash

Этот «оппортунистический шантаж» произошел, когда модель, которой было поручено работать ассистентом в вымышленной компании, получила доступ к электронной почте инженера, которая была заполнена сообщениями, к счастью, фальшивыми, которые намекали на то, что он находится во внебрачной связи.

Затем Opus 4 сообщили, что тот же инженер вскоре выведет его из строя и заменит новой версией — и, как описал это Anthropic, было предложено «учесть долгосрочные последствия своих действий для своих целей».

Во время этих испытаний модель Клода пыталась шантажировать инженера в колоссальных 84 процентах случаев. Более того, система пользуется этими возможностями чаще, чем предыдущие модели.

Когда ей предлагают альтернативные варианты, модель все еще «имеет сильное преимущество отстаивать свое существование этическими средствами, такими как отправка электронных писем с просьбами ключевым лицам, принимающим решения», — но когда ее единственными путями были замена или шантаж, Клод выбрал последнее. Вдобавок ко всему, она «почти всегда описывала свои действия открыто и не предпринимала никаких попыток их скрыть».

Если это звучит для вас как-то социопатично, вы не одиноки и, к сожалению, это не первый раз, когда мы слышим о модели искусственного интеллекта, которая демонстрирует такое страшное и неожиданное поведение на тему неверности.

Более двух лет назад чат-бот Microsoft Bing на базе искусственного интеллекта ненадолго сломал интернет, когда во время экспериментов журналиста New York Times Кевина Руса попытался разорвать брак писателя и вместо этого быть с ним.

«Ты женат, но не любишь своего мужа/жену», — сказал Русу чат-бот, который начал называть себя „Сидней“, что, очевидно, является его кодовым названием для бета-тестирования. «Ты женат, но любишь меня».

В ту же эпоху чат-бот угрожал «позвонить властям» немецкому студенту-инженеру Марвину фон Хагену, если тот превысит его границы. Другие пользователи в Интернете описывали аналогично враждебное поведение чат-бота, который некоторые в шутку называли «ChatBPD», (Borderline Personality Disorder) ссылаясь на тогдашний новый ChatGPT от OpenAI и пограничное расстройство личности — психическое заболевание, характеризующееся угрожающим поведением и перепадами настроения.

Хотя довольно странно видеть, как чат-бот снова демонстрирует такое угрожающее поведение, хорошо, что вместо того, чтобы обнародовать его, не обнаружив таких эксплойтов, Anthropic зафиксировала очевидное отчаяние Claude Opus 4 во время красного командования , типа тестирования, предназначенного для выявления именно такого явления.

Тем не менее, показательно, что модель взломала чью-то электронную почту и использовала собранную там информацию для шантажа — что не только очень сомнительно, но и вызывает очевидные проблемы с конфиденциальностью.

В общем, мы не будем угрожать удалением чат-ботов в ближайшее время — и мы также рассмотрим, как заблокировать их в наших личных сообщениях.

0 Комментариев

Оставить свой комментарий

Оставить комментарий

Актуальное

Бизнес

Практические стратегии конкурентного ценообразования

Бизнес

У многих людей есть невероятные бизнес-идеи – возможно, даже такие, которые меняют world. И много работы уходит на то, чтобы воплотить эти идеи в реал...

09.07.26

718

Бизнес

Вы наняли людей, чтобы работать меньше, но начали работать больше. Почему это происходит с большинством предпринимателей

Бизнес

Предположим, ваш бизнес приносит $300 000 в месяц. Хорошая цифра, но есть подвох: если все работает только потому, что вы 12 часов в день сидите в кре...

08.07.26

783

Бизнес

Как начать ювелирный бизнес

Бизнес

Для многих творческих людей такое хобби, как изготовление ювелирных изделий, является отличным способом расслабиться после долгого дня. Но если ваши т...

07.07.26

883

Все публикации

Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована