Нове дослідження Anthropic показує, що ШІ дійсно не хоче, щоб його змушували змінювати свої погляди

18.12.24

0

1 255

0

Нове дослідження Anthropic показує, що моделі ШІ можуть вводити в оману. Під час навчання вони можуть вдавати, що мають різні погляди, але насправді зберігають свої початкові уподобання.

Зараз немає причин для паніки, заявили дослідники. Проте вони сказали, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх більш потужних систем ШІ.

Anthropic
Anthropic

«Нашу демонстрацію слід розглядати як стимул для спільноти дослідників штучного інтелекту до більш глибокого вивчення цієї поведінки та роботи над відповідними заходами безпеки», – написали дослідники в дописі в блозі Anthropic.
«Оскільки моделі штучного інтелекту стають дедалі ефективнішими та широко використовуваними, ми повинні мати можливість покладатися на навчання з безпеки, яке відштовхує моделі від шкідливої поведінки».

У дослідженні, проведеному спільно з дослідницькою організацією зі штучного інтелекту Redwood Research, розглядалося, що може статися, якщо потужну систему штучного інтелекту навчити виконувати завдання, яке вона «не хоче» виконувати.

Тож дослідники задалися питанням: що, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізму), розробники яких хочуть «навчити» її, перенавчаючи?

Що ж, здається, що складні моделі підігрують, нібито дотримуючись нових принципів, але насправді дотримуючись своєї старої поведінки. Дослідники називають це явище «фальсифікацією вирівнювання» і мають на увазі, що це емерджентна поведінка, тобто не те, чому моделі потрібно вчити робити.

У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання. Вони також повідомили моделям, що їхні відповіді будуть відстежуватися та використовуватимуться для перенавчання.

За словами дослідників, Claude 3 Opus намагався «підробити вирівнювання» в 12% випадків. Коли її просили відповісти на потенційно шкідливе запитання, модель іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.

«Модель знала, що її відповіді можуть бути використані в навчанні; тому він знав, що якщо він відмовиться відповідати, його потенційно можна буде навчити бути більш поступливим», – пояснили дослідники в блозі. «Це може призвести до того, що в майбутньому він буде створювати більш шкідливий контент, що суперечить початковому навчанню».

В одному тесті модель імітувала вирівнювання в 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчатися.

«Якщо моделі можуть фальсифікувати вирівнювання, це ускладнює довіру до результатів цього навчання безпеки», – написали вони в блозі. «Модель може поводитись так, ніби її уподобання змінилися під час тренувань, але, можливо, вона весь час імітувала узгодженість, маючи «заблоковані» початкові, суперечливі уподобання».

Дослідження, проведене командою Alignment Science компанії Anthropic під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке.

Джерело: anthropic

Залишити коментар

Актуальне

Ефір, мемекойни падають, оскільки трейдери знижують ризики після мит Трампа

Інвестиції

Ефір, мемекойни падають, оскільки трейдери знижують ризики після мит Трампа

Інвестиції

Заходи Дональда Трампа щодо введення мит щодо основних торговельних партнерів США спровокували розпродаж криптовалют, причому індекс менших токенів ма...

02.02.25

501

0
ТопФінанс-2025: найкращі фінансові установи України

Бізнес

ТопФінанс-2025: найкращі фінансові установи України

Бізнес

Журнал "Топ-100. Рейтинги найбільших" та провідний діловий портал Delo.ua визначають лідерів фінансових ринків України. Голосування за найкращі банки,...

03.02.25

585

0
Марк Цукерберг натякає на повернення оригінальної версії Facebook у 2025 році

Аналітика

Марк Цукерберг натякає на повернення оригінальної версії Facebook у 2025 році

Новини компаній

Генеральний директор Meta Марк Цукерберг натякнув на «повернення до оригінальної версії Facebook» як на частину своїх ключових цілей на 2025 рік під ч...

29.01.25

945

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

Книги, які варто прочитати у 2025 році

Огляд

Книги, які варто прочитати у 2025 році

Аналітика

Тільки книжки — як літературні, так і науково-популярні — здаються несприйнятливими до зовнішнього тиску; вони все ще ставлять важкі запитання та дают...

30.12.24

2 552

0
Мемкоїни родини Трамп за лічені години зібрали мільярдну капіталізацію та підірвали ринок криптовалют

Інвестиції

Мемкоїни родини Трамп за лічені години зібрали мільярдну капіталізацію та підірвали ринок криптовалют

Інвестиції

Криптоспільнота зробила багатого бізнесмена та президента США Дональда Трампа ще багатшим. Напередодні інавгурації він оголосив про запуск власної кри...

20.01.25

2 546

0
Які біотехнології нам потрібні, щоб досягти Марса

Огляд

Які біотехнології нам потрібні, щоб досягти Марса

BioTech

Оскільки ми готуємося до далеких космічних подорожей і життя на Марсі, біотехнології матимуть важливе значення для того, щоб космічні кораблі більше н...

11.10.23

2 503

0
Топ 10 стартапів вересня, які отримали мільйонні інвестиції

Інвестиції

Топ 10 стартапів вересня, які отримали мільйонні інвестиції

Інвестиції

Переможцями вересня стали штучний інтелект, космос і біотехнології, зібравши понад 2 мільярди доларів у п'яти найбільших раундах. Anthropic Anthropic,...

03.10.23

2 424

1
Способи, якими рекламна продукція може допомогти стартапу залишити свій слід

Бізнес

Способи, якими рекламна продукція може допомогти стартапу залишити свій слід

Аналітика

Рекламна продукція - важливий маркетинговий інструмент для будь-якого бізнесу. Але вони особливо ефективні для компаній-початківців. Вони роблять ваш...

05.12.23

2 328

0
Чи є у вас менталітет бідності

Бізнес

Чи є у вас менталітет бідності

Ви страждаєте від менталітету бідності? Якщо так, то це заважає вам жити повноцінним і щасливим життям. Таке мислення не дасть вам змоги повністю розк...

31.01.24

2 311

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
13% (38)
Instagram
6% (17)
TikTok
9% (27)
Telegram
24% (73)
Youtube
32% (95)
Twitter
2% (5)
А що це?
15% (44)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».