Нове дослідження Anthropic показує, що ШІ дійсно не хоче, щоб його змушували змінювати свої погляди

18.12.24

0

1 017

0

Нове дослідження Anthropic показує, що моделі ШІ можуть вводити в оману. Під час навчання вони можуть вдавати, що мають різні погляди, але насправді зберігають свої початкові уподобання.

Зараз немає причин для паніки, заявили дослідники. Проте вони сказали, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх більш потужних систем ШІ.

Anthropic
Anthropic

«Нашу демонстрацію слід розглядати як стимул для спільноти дослідників штучного інтелекту до більш глибокого вивчення цієї поведінки та роботи над відповідними заходами безпеки», – написали дослідники в дописі в блозі Anthropic.
«Оскільки моделі штучного інтелекту стають дедалі ефективнішими та широко використовуваними, ми повинні мати можливість покладатися на навчання з безпеки, яке відштовхує моделі від шкідливої поведінки».

У дослідженні, проведеному спільно з дослідницькою організацією зі штучного інтелекту Redwood Research, розглядалося, що може статися, якщо потужну систему штучного інтелекту навчити виконувати завдання, яке вона «не хоче» виконувати.

Тож дослідники задалися питанням: що, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізму), розробники яких хочуть «навчити» її, перенавчаючи?

Що ж, здається, що складні моделі підігрують, нібито дотримуючись нових принципів, але насправді дотримуючись своєї старої поведінки. Дослідники називають це явище «фальсифікацією вирівнювання» і мають на увазі, що це емерджентна поведінка, тобто не те, чому моделі потрібно вчити робити.

У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання. Вони також повідомили моделям, що їхні відповіді будуть відстежуватися та використовуватимуться для перенавчання.

За словами дослідників, Claude 3 Opus намагався «підробити вирівнювання» в 12% випадків. Коли її просили відповісти на потенційно шкідливе запитання, модель іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.

«Модель знала, що її відповіді можуть бути використані в навчанні; тому він знав, що якщо він відмовиться відповідати, його потенційно можна буде навчити бути більш поступливим», – пояснили дослідники в блозі. «Це може призвести до того, що в майбутньому він буде створювати більш шкідливий контент, що суперечить початковому навчанню».

В одному тесті модель імітувала вирівнювання в 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчатися.

«Якщо моделі можуть фальсифікувати вирівнювання, це ускладнює довіру до результатів цього навчання безпеки», – написали вони в блозі. «Модель може поводитись так, ніби її уподобання змінилися під час тренувань, але, можливо, вона весь час імітувала узгодженість, маючи «заблоковані» початкові, суперечливі уподобання».

Дослідження, проведене командою Alignment Science компанії Anthropic під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке.

Джерело: anthropic

Залишити коментар

Актуальне

Teal Health збирає 10 мільйонів доларів для організації скринінгу раку шийки матки в домашніх умовах

Інновації

Teal Health збирає 10 мільйонів доларів для організації скринінгу раку шийки матки в домашніх умовах

Інновації

Процес проходження скринінгу на рак шийки матки досить страшний. Це терапія, яка проводиться раз на рік і іноді кардинально змінює життя, включає яскр...

16.01.25

495

0
Тепер ChatGPT дозволяє планувати нагадування та повторювані завдання

Інновації

Тепер ChatGPT дозволяє планувати нагадування та повторювані завдання

Інновації

Нова бета-функція під назвою «завдання» цього тижня почне розгортатися для користувачів ChatGPT Plus, Team і Pro по всьому світу. За допомогою завдань...

15.01.25

456

0
Колишній гендиректор Google запустив ШІ-платформу для генерації відео. Що про неї відомо?

Бізнес

Колишній гендиректор Google запустив ШІ-платформу для генерації відео. Що про неї відомо?

Стартапи

Ерік Шмідт критикує ШІ за діпфейки, але вступив у конкуренцію із Sora за генерацію тексту у відео у своєму проєкті Hooglee. Ймовірно, це буде соцмереж...

12.01.25

466

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

Гранти для підтримки ідей та бізнесу 2024

Гранти для підтримки ідей та бізнесу 2024

В Україні можна отримати грант на бізнес чи реалізацію ідеї. Війна не зупинить зростання економіки та прогрес в розвитку нашої країни. Розповідаємо пр...

15.01.24

6 303

2
10 головних фінтех-інновацій, які ви повинні знати

Інновації

10 головних фінтех-інновацій, які ви повинні знати

Fintech

Фінансові технології або фінтех - це більше, ніж просто модне слово у світі фінансових послуг. Користувачі, а також підприємства наздоганяють тенденці...

12.10.23

4 733

1
Макдональдс: Гамбургери на першому плані, але нерухомість - основа доходу

Макдональдс: Гамбургери на першому плані, але нерухомість - основа доходу

Чи знали ви, що найбільша мережа закладів швидкого харчування, "Макдональдс", насправді отримує велику частину своїх прибутків від нерухомості? За ві...

08.11.23

4 448

1
Google каже, що його новий квантовий чіп вказує на існування кількох всесвітів

Інновації

Google каже, що його новий квантовий чіп вказує на існування кількох всесвітів

Інновації

Google у понеділок анонсувала Willow, свій останній, найкращий квантовий обчислювальний чіп. Заяви Google щодо цього чіпа щодо швидкості та надійності...

11.12.24

4 132

0
Головні біотехнологічні інновації 2023 року

Головні біотехнологічні інновації 2023 року

BioTech

У світі біотехнології кожен рік приносить приголомшливі інновації та переломні моменти, що сприяють розв'язанню складних проблем і поліпшенню якості ж...

06.10.23

4 054

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
13% (37)
Instagram
6% (17)
TikTok
9% (27)
Telegram
24% (71)
Youtube
31% (91)
Twitter
2% (5)
А що це?
15% (43)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».