Нове дослідження Anthropic показує, що ШІ дійсно не хоче, щоб його змушували змінювати свої погляди

18.12.24

0

1 251

0

Нове дослідження Anthropic показує, що моделі ШІ можуть вводити в оману. Під час навчання вони можуть вдавати, що мають різні погляди, але насправді зберігають свої початкові уподобання.

Зараз немає причин для паніки, заявили дослідники. Проте вони сказали, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх більш потужних систем ШІ.

Anthropic
Anthropic

«Нашу демонстрацію слід розглядати як стимул для спільноти дослідників штучного інтелекту до більш глибокого вивчення цієї поведінки та роботи над відповідними заходами безпеки», – написали дослідники в дописі в блозі Anthropic.
«Оскільки моделі штучного інтелекту стають дедалі ефективнішими та широко використовуваними, ми повинні мати можливість покладатися на навчання з безпеки, яке відштовхує моделі від шкідливої поведінки».

У дослідженні, проведеному спільно з дослідницькою організацією зі штучного інтелекту Redwood Research, розглядалося, що може статися, якщо потужну систему штучного інтелекту навчити виконувати завдання, яке вона «не хоче» виконувати.

Тож дослідники задалися питанням: що, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізму), розробники яких хочуть «навчити» її, перенавчаючи?

Що ж, здається, що складні моделі підігрують, нібито дотримуючись нових принципів, але насправді дотримуючись своєї старої поведінки. Дослідники називають це явище «фальсифікацією вирівнювання» і мають на увазі, що це емерджентна поведінка, тобто не те, чому моделі потрібно вчити робити.

У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання. Вони також повідомили моделям, що їхні відповіді будуть відстежуватися та використовуватимуться для перенавчання.

За словами дослідників, Claude 3 Opus намагався «підробити вирівнювання» в 12% випадків. Коли її просили відповісти на потенційно шкідливе запитання, модель іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.

«Модель знала, що її відповіді можуть бути використані в навчанні; тому він знав, що якщо він відмовиться відповідати, його потенційно можна буде навчити бути більш поступливим», – пояснили дослідники в блозі. «Це може призвести до того, що в майбутньому він буде створювати більш шкідливий контент, що суперечить початковому навчанню».

В одному тесті модель імітувала вирівнювання в 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчатися.

«Якщо моделі можуть фальсифікувати вирівнювання, це ускладнює довіру до результатів цього навчання безпеки», – написали вони в блозі. «Модель може поводитись так, ніби її уподобання змінилися під час тренувань, але, можливо, вона весь час імітувала узгодженість, маючи «заблоковані» початкові, суперечливі уподобання».

Дослідження, проведене командою Alignment Science компанії Anthropic під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке.

Джерело: anthropic

Залишити коментар

Актуальне

Ефір, мемекойни падають, оскільки трейдери знижують ризики після мит Трампа

Інвестиції

Ефір, мемекойни падають, оскільки трейдери знижують ризики після мит Трампа

Інвестиції

Заходи Дональда Трампа щодо введення мит щодо основних торговельних партнерів США спровокували розпродаж криптовалют, причому індекс менших токенів ма...

02.02.25

492

0
ТопФінанс-2025: найкращі фінансові установи України

Бізнес

ТопФінанс-2025: найкращі фінансові установи України

Бізнес

Журнал "Топ-100. Рейтинги найбільших" та провідний діловий портал Delo.ua визначають лідерів фінансових ринків України. Голосування за найкращі банки,...

03.02.25

575

0
Марк Цукерберг натякає на повернення оригінальної версії Facebook у 2025 році

Аналітика

Марк Цукерберг натякає на повернення оригінальної версії Facebook у 2025 році

Новини компаній

Генеральний директор Meta Марк Цукерберг натякнув на «повернення до оригінальної версії Facebook» як на частину своїх ключових цілей на 2025 рік під ч...

29.01.25

929

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

Для еліти будують бункер вартістю 300 мільйонів доларів на випадок Третьої світової війни

Бізнес

Для еліти будують бункер вартістю 300 мільйонів доларів на випадок Третьої світової війни

Нерухомість

У 2026 році планується відкрити розкішний бункер «судного дня», призначений лише для членів, з басейнами, охороною здоров’я на основі штучного інтелек...

25.01.25

42 461

0
Гранти для підтримки ідей та бізнесу 2024

Гранти для підтримки ідей та бізнесу 2024

В Україні можна отримати грант на бізнес чи реалізацію ідеї. Війна не зупинить зростання економіки та прогрес в розвитку нашої країни. Розповідаємо пр...

15.01.24

6 625

2
10 головних фінтех-інновацій, які ви повинні знати

Інновації

10 головних фінтех-інновацій, які ви повинні знати

Fintech

Фінансові технології або фінтех - це більше, ніж просто модне слово у світі фінансових послуг. Користувачі, а також підприємства наздоганяють тенденці...

12.10.23

5 022

1
Макдональдс: Гамбургери на першому плані, але нерухомість - основа доходу

Макдональдс: Гамбургери на першому плані, але нерухомість - основа доходу

Чи знали ви, що найбільша мережа закладів швидкого харчування, "Макдональдс", насправді отримує велику частину своїх прибутків від нерухомості? За ві...

08.11.23

4 706

1
Google каже, що його новий квантовий чіп вказує на існування кількох всесвітів

Інновації

Google каже, що його новий квантовий чіп вказує на існування кількох всесвітів

Інновації

Google у понеділок анонсувала Willow, свій останній, найкращий квантовий обчислювальний чіп. Заяви Google щодо цього чіпа щодо швидкості та надійності...

11.12.24

4 487

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
13% (38)
Instagram
6% (17)
TikTok
9% (27)
Telegram
24% (73)
Youtube
32% (95)
Twitter
2% (5)
А що це?
15% (44)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».