Нове дослідження Anthropic показує, що ШІ дійсно не хоче, щоб його змушували змінювати свої погляди

18.12.24

0

1 259

0

Нове дослідження Anthropic показує, що моделі ШІ можуть вводити в оману. Під час навчання вони можуть вдавати, що мають різні погляди, але насправді зберігають свої початкові уподобання.

Зараз немає причин для паніки, заявили дослідники. Проте вони сказали, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх більш потужних систем ШІ.

Anthropic
Anthropic

«Нашу демонстрацію слід розглядати як стимул для спільноти дослідників штучного інтелекту до більш глибокого вивчення цієї поведінки та роботи над відповідними заходами безпеки», – написали дослідники в дописі в блозі Anthropic.
«Оскільки моделі штучного інтелекту стають дедалі ефективнішими та широко використовуваними, ми повинні мати можливість покладатися на навчання з безпеки, яке відштовхує моделі від шкідливої поведінки».

У дослідженні, проведеному спільно з дослідницькою організацією зі штучного інтелекту Redwood Research, розглядалося, що може статися, якщо потужну систему штучного інтелекту навчити виконувати завдання, яке вона «не хоче» виконувати.

Тож дослідники задалися питанням: що, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізму), розробники яких хочуть «навчити» її, перенавчаючи?

Що ж, здається, що складні моделі підігрують, нібито дотримуючись нових принципів, але насправді дотримуючись своєї старої поведінки. Дослідники називають це явище «фальсифікацією вирівнювання» і мають на увазі, що це емерджентна поведінка, тобто не те, чому моделі потрібно вчити робити.

У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання. Вони також повідомили моделям, що їхні відповіді будуть відстежуватися та використовуватимуться для перенавчання.

За словами дослідників, Claude 3 Opus намагався «підробити вирівнювання» в 12% випадків. Коли її просили відповісти на потенційно шкідливе запитання, модель іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.

«Модель знала, що її відповіді можуть бути використані в навчанні; тому він знав, що якщо він відмовиться відповідати, його потенційно можна буде навчити бути більш поступливим», – пояснили дослідники в блозі. «Це може призвести до того, що в майбутньому він буде створювати більш шкідливий контент, що суперечить початковому навчанню».

В одному тесті модель імітувала вирівнювання в 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчатися.

«Якщо моделі можуть фальсифікувати вирівнювання, це ускладнює довіру до результатів цього навчання безпеки», – написали вони в блозі. «Модель може поводитись так, ніби її уподобання змінилися під час тренувань, але, можливо, вона весь час імітувала узгодженість, маючи «заблоковані» початкові, суперечливі уподобання».

Дослідження, проведене командою Alignment Science компанії Anthropic під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке.

Джерело: anthropic

Залишити коментар

Актуальне

Ефір, мемекойни падають, оскільки трейдери знижують ризики після мит Трампа

Інвестиції

Ефір, мемекойни падають, оскільки трейдери знижують ризики після мит Трампа

Інвестиції

Заходи Дональда Трампа щодо введення мит щодо основних торговельних партнерів США спровокували розпродаж криптовалют, причому індекс менших токенів ма...

02.02.25

517

0
ТопФінанс-2025: найкращі фінансові установи України

Бізнес

ТопФінанс-2025: найкращі фінансові установи України

Бізнес

Журнал "Топ-100. Рейтинги найбільших" та провідний діловий портал Delo.ua визначають лідерів фінансових ринків України. Голосування за найкращі банки,...

03.02.25

590

0
Марк Цукерберг натякає на повернення оригінальної версії Facebook у 2025 році

Аналітика

Марк Цукерберг натякає на повернення оригінальної версії Facebook у 2025 році

Новини компаній

Генеральний директор Meta Марк Цукерберг натякнув на «повернення до оригінальної версії Facebook» як на частину своїх ключових цілей на 2025 рік під ч...

29.01.25

970

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

7 ключових кроків до відкриття клінінгового бізнесу

Бізнес

7 ключових кроків до відкриття клінінгового бізнесу

Інвестиції

Відкриття клінінгового бізнесу, як і будь-яке велике підприємство, не приносить негайного доходу і клієнтської бази. Для початку вам потрібне керівниц...

06.12.23

2 175

0
Зірки стартапів, які зазнали вражаючого провалу

Бізнес

Зірки стартапів, які зазнали вражаючого провалу

У світі стартапів успіх ніколи не гарантований. На жаль, деякі перспективні компанії зазнали краху через незаконні дії їхніх власників. Ці дії - від ф...

08.12.23

2 164

0
Розкриття бізнес-потенціалу: вчення "Матриці"

Розкриття бізнес-потенціалу: вчення "Матриці"

"Матриця" - це науково-фантастичний фільм, який може запропонувати захопливі уроки для бізнесу, особливо в галузі інновацій, стратегії та лідерства. У...

22.01.24

2 111

0
Криптосвіт у цифрах: Огляд та прогнози на 2024 рік

Аналітика

Криптосвіт у цифрах: Огляд та прогнози на 2024 рік

27 грудня Bitcoin (BTC) здивував криптоінвесторів тим, що перевищив позначку в 43 000$ за монету. У листопаді інші криптовалюти наслідували його прикл...

28.12.23

2 087

0
Український IT-стартап запустив збір на Kickstarter

Український IT-стартап запустив збір на Kickstarter

Український IT-стартап запустив збір на Kickstarter. Мета – мінімум $7000, головна ціль – $100 000 15 листопада український IT-стартап Nanit Robot зап...

17.11.23

2 069

1
Чим спричинений відтік клієнтів з українського ринку IT у 2023 та як цьому зарадити

Чим спричинений відтік клієнтів з українського ринку IT у 2023 та як цьому зарадити

Останні декілька років були надзвичайно важкими для IT-сектору України. Починаючи з коронавірусу та продовжуючи повномасштабним вторгненням, країна не...

23.01.24

2 025

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
13% (38)
Instagram
6% (17)
TikTok
9% (27)
Telegram
24% (73)
Youtube
32% (96)
Twitter
2% (5)
А що це?
15% (44)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».