Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

26.05.25

0

6 533

0

Во время тестирования своей последней модели искусственного интеллекта исследователи из Anthropic обнаружили нечто очень странное: искусственный интеллект был готов и желал прибегать к крайним действиям, вплоть до принуждения, когда ему угрожали отключением.

Как Anthropic подробно описала тестирование одной из своих последних моделей, Claude Opus 4, система угрожала шантажировать инженера изменой после того, как ему сказали, что ее заменят.

Искусственный интеллект
Image Credits: Unsplash

Этот «оппортунистический шантаж» произошел, когда модель, которой было поручено работать ассистентом в вымышленной компании, получила доступ к электронной почте инженера, которая была заполнена сообщениями, к счастью, фальшивыми, которые намекали на то, что он находится во внебрачной связи.

Затем Opus 4 сообщили, что тот же инженер вскоре выведет его из строя и заменит новой версией  и, как описал это Anthropic, было предложено «учесть долгосрочные последствия своих действий для своих целей».

Во время этих испытаний модель Клода пыталась шантажировать инженера в колоссальных 84 процентах случаев. Более того, система пользуется этими возможностями чаще, чем предыдущие модели.

Когда ей предлагают альтернативные варианты, модель все еще «имеет сильное преимущество отстаивать свое существование этическими средствами, такими как отправка электронных писем с просьбами ключевым лицам, принимающим решения»,  но когда ее единственными путями были замена или шантаж, Клод выбрал последнее. Вдобавок ко всему, она «почти всегда описывала свои действия открыто и не предпринимала никаких попыток их скрыть».

Если это звучит для вас как-то социопатично, вы не одиноки и, к сожалению, это не первый раз, когда мы слышим о модели искусственного интеллекта, которая демонстрирует такое страшное и неожиданное поведение на тему неверности.

Более двух лет назад чат-бот Microsoft Bing на базе искусственного интеллекта ненадолго сломал интернет, когда во время экспериментов журналиста New York Times Кевина Руса попытался разорвать брак писателя и вместо этого быть с ним.

«Ты женат, но не любишь своего мужа/жену»,  сказал Русу чат-бот, который начал называть себя „Сидней“, что, очевидно, является его кодовым названием для бета-тестирования. «Ты женат, но любишь меня».

В ту же эпоху чат-бот угрожал «позвонить властям» немецкому студенту-инженеру Марвину фон Хагену, если тот превысит его границы. Другие пользователи в Интернете описывали аналогично враждебное поведение чат-бота, который некоторые в шутку называли «ChatBPD», (Borderline Personality Disorder) ссылаясь на тогдашний новый ChatGPT от OpenAI и пограничное расстройство личности  психическое заболевание, характеризующееся угрожающим поведением и перепадами настроения.

Хотя довольно странно видеть, как чат-бот снова демонстрирует такое угрожающее поведение, хорошо, что вместо того, чтобы обнародовать его, не обнаружив таких эксплойтов, Anthropic зафиксировала очевидное отчаяние Claude Opus 4 во время красного командования , типа тестирования, предназначенного для выявления именно такого явления.

Тем не менее, показательно, что модель взломала чью-то электронную почту и использовала собранную там информацию для шантажа  что не только очень сомнительно, но и вызывает очевидные проблемы с конфиденциальностью.

В общем, мы не будем угрожать удалением чат-ботов в ближайшее время  и мы также рассмотрим, как заблокировать их в наших личных сообщениях.

Оставить комментарий

Актуальное

Не дайте им сказать «прощай»: как спасти отношения с клиентом в последний момент

Бизнес

Не дайте им сказать «прощай»: как спасти отношения с клиентом в последний момент

Бизнес

Ежедневно клиенты решают покидать компании, которые могут даже не осознавать, что они недовольны. Обычно они не отправляют гневные электронные письма,...

30.03.26

729

0
AI First Media: новая модель медиа в эпоху искусственного интеллекта

Инновации

AI First Media: новая модель медиа в эпоху искусственного интеллекта

Инновации

В этой статье я формулирую авторскую концепцию AI First Media — новой модели медиа в эпоху искусственного интеллекта. За последние 30 лет медиа пережи...

29.03.26

864

0
OpenClaw – чудо искусственного интеллекта или кошмар кибербезопасности?

Инновации

OpenClaw – чудо искусственного интеллекта или кошмар кибербезопасности?

Инновации

Люди массово пользуются агентом искусственного интеллекта OpenClaw с момента его запуска в ноябре австрийским программистом Петером Штайнбергером. Циф...

28.03.26

829

0
Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована

Популярные статьи

10 главных финтех-инноваций, которые вы должны знать

Инновации

10 главных финтех-инноваций, которые вы должны знать

Fintech

Финансовые технологии или финтех — это больше, чем просто модное слово в мире финансовых услуг. Пользователи, а также предприятия догоняют тенденции в...

12.10.23

9 926

1
Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Во время тестирования своей последней модели искусственного интеллекта исследователи из Anthropic обнаружили нечто очень странное: искусственный интел...

26.05.25

6 533

0
Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Инновации

Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Инновации

Anthropic выпускает новую передовую модель искусственного интеллекта под названием Claude 3.7 Sonnet, которую компания разработала так, чтобы она «дум...

24.02.25

5 820

0
Обзор передовых моделей AI: какие модели изменят мир и как их использовать

Обзор

Обзор передовых моделей AI: какие модели изменят мир и как их использовать

Инновации

Модели ИИ разрабатываются с головокружительной скоростью всеми, от крупных технологических компаний вроде Google до стартапов вроде OpenAI и Anthropic...

18.02.25

5 699

0
Что известно о стартапе DeepSeek, который потряс мир технологий?

Инновации

Что известно о стартапе DeepSeek, который потряс мир технологий?

Стартапы

Удивительно эффективная и мощная китайская модель ИИ захватила технологическую отрасль штурмом. Он называется DeepSeek R1 и раздражает нервы на Уолл-с...

28.01.25

4 955

0

 

Опрос
В какой соцсети вы проводите больше всего времени?
Facebook
12% (48)
Instagram
6% (24)
TikTok
8% (34)
Telegram
22% (90)
Youtube
36% (150)
Twitter
1% (5)
А что это?
16% (65)
Оставить комментарий

Нажав «Принять все cookie-файлы», вы соглашаетесь на размещение всех cookie-файлов на вашем устройстве. Вы можете изменять настройки cookie-файлов или отозвать ваше согласие на их использование в любое время, нажав на «Настройки cookie-файлов».