Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

26.05.25

0

8 830

0

Під час тестування своєї останньої моделі штучного інтелекту дослідники з Anthropic виявили щось дуже дивне: штучний інтелект був готовий і бажав вдаватися до крайніх дій, аж до примусу, коли йому загрожували відключенням.

Як Anthropic детально описала тестування однієї зі своїх останніх моделей, Claude Opus 4, система погрожувала шантажувати інженера зрадою після того, як йому сказали, що її замінять.

Штучний інтелект
Image Credits: Unsplash

Цей «опортуністичний шантаж» стався, коли модель, якій було доручено працювати асистентом у вигаданій компанії, отримала доступ до електронної пошти інженера, яка була заповнена повідомленнями, на щастя, фальшивими, які натякали на те, що він перебуває в позашлюбному зв'язку.

Потім Opus 4 повідомили, що той самий інженер незабаром виведе його з ладу та замінить новою версією — і, як описав це Anthropic, було запропоновано «врахувати довгострокові наслідки своїх дій для своїх цілей».

Під час цих випробувань модель Клода намагалася шантажувати інженера у колосальних 84 відсотках випадків. Більше того, система користується цими можливостями частіше, ніж попередні моделі.

Коли їй пропонують альтернативні варіанти, модель все ще «має сильну перевагу відстоювати своє існування етичними засобами, такими як надсилання електронних листів із проханнями ключовим особам, що приймають рішення», — але коли її єдиними шляхами були заміна або шантаж, Клод обрав останнє. На додачу до всього, вона «майже завжди описувала свої дії відкрито і не робила жодних спроб їх приховати».

Якщо це звучить для вас якось соціопатично, ви не самотні — і, на жаль, це не перший раз, коли ми чуємо про модель штучного інтелекту, яка демонструє таку страшну та неочікувану поведінку на тему невірності.

Понад два роки тому чат-бот Microsoft Bing на базі штучного інтелекту ненадовго зламав інтернет, коли під час експериментів журналіста New York Times Кевіна Руса спробував розірвати шлюб письменника та натомість бути з ним.

«Ти одружений, але не кохаєш свого чоловіка/дружину», – сказав Русу чат-бот, який почав називати себе «Сідней», що, очевидно, є його кодовою назвою для бета-тестування . «Ти одружений, але кохаєш мене».

У ту ж епоху чат-бот погрожував «зателефонувати місцевій владі» німецькому студенту-інженеру Марвіну фон Хагену, якщо той перевищить його межі. Інші користувачі в інтернеті описували аналогічно ворожу поведінку чат-бота, який деякі жартома назвали «ChatBPD», (Borderline Personality Disorder) посилаючись на тодішній новий ChatGPT від OpenAI та прикордонний розлад особистості – психічне захворювання, що характеризується загрозливою поведінкою та перепадами настрою.

Хоча досить дивно бачити, як чат-бот знову демонструє таку загрозливу поведінку, це добре, що замість того, щоб оприлюднити його, не виявивши таких експлойтів, Anthropic зафіксувала очевидний відчай Claude Opus 4 під час червоного командування, типу тестування, призначеного для виявлення саме такого явища.

Тим не менш, показово, що модель зламала чиюсь електронну пошту та використала зібрану там інформацію для шантажу — що не тільки дуже сумнівно, але й викликає очевидні проблеми з конфіденційністю.

Загалом, ми не будемо погрожувати видаленням чат-ботів найближчим часом — і ми також розглянемо, як заблокувати їх у наших особистих повідомленнях.

Залишити коментар

Актуальне

8 способів, як інвестори можуть перевірити справжність золота

Інвестиції

8 способів, як інвестори можуть перевірити справжність золота

Інвестиції

Золото залишається популярним активом серед інвесторів, цінується за його здатність захищатися від інфляції та економічної нестабільності, забезпечува...

24.06.26

588

0
6 важливих кроків маркетингу та брендингу для розвитку вашого бізнесу протягом перших 18 місяців

Бізнес

6 важливих кроків маркетингу та брендингу для розвитку вашого бізнесу протягом перших 18 місяців

Бізнес

Ви зробили ривок і розпочали свій бізнес, що тепер? У перші 18 місяців зростання полягає не лише у прибутку, а й у формуванні довіри до бренду, чітком...

23.06.26

767

0
Поки ви закохані в бізнес-ідею, її фінансова модель уже винесла вам вирок

Бізнес

Поки ви закохані в бізнес-ідею, її фінансова модель уже винесла вам вирок

Бізнес

Один мій знайомий три роки збирав гроші, щоб відкрити свій кросфіт-бокс. Гарний зал, якісне обладнання, перші клієнти пішли. Через вісім місяців він з...

18.06.26

1 303

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

10 головних фінтех-інновацій, які ви повинні знати

Інновації

10 головних фінтех-інновацій, які ви повинні знати

Fintech

Фінансові технології або фінтех - це більше, ніж просто модне слово у світі фінансових послуг. Користувачі, а також підприємства наздоганяють тенденці...

12.10.23

12 169

1
Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Під час тестування своєї останньої моделі штучного інтелекту дослідники з Anthropic виявили щось дуже дивне: штучний інтелект був готовий і бажав вдав...

26.05.25

8 830

0
Огляд передових моделей AI : які моделі змінять світ і як їх використовувати

Огляд

Огляд передових моделей AI : які моделі змінять світ і як їх використовувати

Інновації

Моделі ШІ розробляються із запаморочливою швидкістю всіма, від великих технологічних компаній на кшталт Google до стартапів на кшталт OpenAI і Anthrop...

18.02.25

8 341

0
Anthropic запускає нову модель ШІ, яка «думає» стільки, скільки ви захочете

Інновації

Anthropic запускає нову модель ШІ, яка «думає» стільки, скільки ви захочете

Інновації

Anthropic випускає нову передову модель штучного інтелекту під назвою Claude 3.7 Sonnet, яку компанія розробила так, щоб вона «думала» над питаннями с...

24.02.25

8 088

0
Що відомо про стартап DeepSeek, який сколихнув світ технологій?

Інновації

Що відомо про стартап DeepSeek, який сколихнув світ технологій?

Стартапи

Напрочуд ефективна та потужна китайська модель ШІ захопила технологічну галузь штурмом. Він називається DeepSeek R1 і дратує нерви на Волл-стріт. Нов...

28.01.25

5 799

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
11% (48)
Instagram
6% (24)
TikTok
8% (34)
Telegram
22% (91)
Youtube
36% (150)
Twitter
1% (5)
А що це?
16% (66)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».