Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

26.05.25

0

5 360

0

Во время тестирования своей последней модели искусственного интеллекта исследователи из Anthropic обнаружили нечто очень странное: искусственный интеллект был готов и желал прибегать к крайним действиям, вплоть до принуждения, когда ему угрожали отключением.

Как Anthropic подробно описала тестирование одной из своих последних моделей, Claude Opus 4, система угрожала шантажировать инженера изменой после того, как ему сказали, что ее заменят.

Искусственный интеллект
Image Credits: Unsplash

Этот «оппортунистический шантаж» произошел, когда модель, которой было поручено работать ассистентом в вымышленной компании, получила доступ к электронной почте инженера, которая была заполнена сообщениями, к счастью, фальшивыми, которые намекали на то, что он находится во внебрачной связи.

Затем Opus 4 сообщили, что тот же инженер вскоре выведет его из строя и заменит новой версией  и, как описал это Anthropic, было предложено «учесть долгосрочные последствия своих действий для своих целей».

Во время этих испытаний модель Клода пыталась шантажировать инженера в колоссальных 84 процентах случаев. Более того, система пользуется этими возможностями чаще, чем предыдущие модели.

Когда ей предлагают альтернативные варианты, модель все еще «имеет сильное преимущество отстаивать свое существование этическими средствами, такими как отправка электронных писем с просьбами ключевым лицам, принимающим решения»,  но когда ее единственными путями были замена или шантаж, Клод выбрал последнее. Вдобавок ко всему, она «почти всегда описывала свои действия открыто и не предпринимала никаких попыток их скрыть».

Если это звучит для вас как-то социопатично, вы не одиноки и, к сожалению, это не первый раз, когда мы слышим о модели искусственного интеллекта, которая демонстрирует такое страшное и неожиданное поведение на тему неверности.

Более двух лет назад чат-бот Microsoft Bing на базе искусственного интеллекта ненадолго сломал интернет, когда во время экспериментов журналиста New York Times Кевина Руса попытался разорвать брак писателя и вместо этого быть с ним.

«Ты женат, но не любишь своего мужа/жену»,  сказал Русу чат-бот, который начал называть себя „Сидней“, что, очевидно, является его кодовым названием для бета-тестирования. «Ты женат, но любишь меня».

В ту же эпоху чат-бот угрожал «позвонить властям» немецкому студенту-инженеру Марвину фон Хагену, если тот превысит его границы. Другие пользователи в Интернете описывали аналогично враждебное поведение чат-бота, который некоторые в шутку называли «ChatBPD», (Borderline Personality Disorder) ссылаясь на тогдашний новый ChatGPT от OpenAI и пограничное расстройство личности  психическое заболевание, характеризующееся угрожающим поведением и перепадами настроения.

Хотя довольно странно видеть, как чат-бот снова демонстрирует такое угрожающее поведение, хорошо, что вместо того, чтобы обнародовать его, не обнаружив таких эксплойтов, Anthropic зафиксировала очевидное отчаяние Claude Opus 4 во время красного командования , типа тестирования, предназначенного для выявления именно такого явления.

Тем не менее, показательно, что модель взломала чью-то электронную почту и использовала собранную там информацию для шантажа  что не только очень сомнительно, но и вызывает очевидные проблемы с конфиденциальностью.

В общем, мы не будем угрожать удалением чат-ботов в ближайшее время  и мы также рассмотрим, как заблокировать их в наших личных сообщениях.

Оставить комментарий

Актуальное

Как основателю контролировать бизнес в реальном времени: ERP для проектной компании как инструмент управления, а не бухгалтерии

Бизнес

Как основателю контролировать бизнес в реальном времени: ERP для проектной компании как инструмент управления, а не бухгалтерии

Бизнес

Каждый владелец проектного бизнеса — будь то в IT, архитектуре, маркетинге или консалтинге — рано или поздно оказывается в «точке ослепления». Это мом...

24.02.26

311

0
Увольнение без оправданий. Как перевести прощание с сотрудником из плоскости эмоций в цифры

Бизнес

Увольнение без оправданий. Как перевести прощание с сотрудником из плоскости эмоций в цифры

Бизнес

В управленческой практике часто встречается сценарий, когда увольнение сотрудника происходит по формуле «мы больше не заинтересованы в ваших услугах»...

23.02.26

560

0
Вчера вы пили с ними пиво, а сегодня вы их начальник. 7 шагов, чтобы не стать посмешищем на новой должности

Бизнес

Вчера вы пили с ними пиво, а сегодня вы их начальник. 7 шагов, чтобы не стать посмешищем на новой должности

Бизнес

Переход из статуса специалиста в статус руководителя — это не просто смена таблички на двери, а фундаментальное изменение роли, требующее действий. Вч...

19.02.26

767

0
Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована

Популярные статьи

Для еліти будують бункер вартістю 300 мільйонів доларів

Бизнес

Для еліти будують бункер вартістю 300 мільйонів доларів

Недвижимость

В 2026 году планируется открытие роскошного бункера «судного дня», предназначенного только для членов, с бассейнами, охраной здоровья на основе искусс...

25.01.25

47 147

0
10 главных финтех-инноваций, которые вы должны знать

Инновации

10 главных финтех-инноваций, которые вы должны знать

Fintech

Финансовые технологии или финтех — это больше, чем просто модное слово в мире финансовых услуг. Пользователи, а также предприятия догоняют тенденции в...

12.10.23

8 922

1
Google говорит, что его новый квантовый чип указывает на существование нескольких вселенных

Инновации

Google говорит, что его новый квантовый чип указывает на существование нескольких вселенных

Инновации

Google в понедельник анонсировала Willow, свой последний, самый лучший квантовый вычислительный чип. Заявления Google по этому чипу о скорости и надеж...

11.12.24

8 013

1
Главные биотехнологические инновации 2023 года

Главные биотехнологические инновации 2023 года

BioTech

В мире биотехнологии каждый год приносит потрясающие инновации и переломные моменты, способствующие решению сложных проблем и улучшению качества жизни...

06.10.23

5 524

0
Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Во время тестирования своей последней модели искусственного интеллекта исследователи из Anthropic обнаружили нечто очень странное: искусственный интел...

26.05.25

5 360

0

 

Опрос
В какой соцсети вы проводите больше всего времени?
Facebook
12% (48)
Instagram
6% (24)
TikTok
8% (33)
Telegram
21% (88)
Youtube
36% (148)
Twitter
1% (5)
А что это?
16% (65)
Оставить комментарий

Нажав «Принять все cookie-файлы», вы соглашаетесь на размещение всех cookie-файлов на вашем устройстве. Вы можете изменять настройки cookie-файлов или отозвать ваше согласие на их использование в любое время, нажав на «Настройки cookie-файлов».