Нове дослідження Anthropic показує, що ШІ дійсно не хоче, щоб його змушували змінювати свої погляди

18.12.24

0

1 252

0

Нове дослідження Anthropic показує, що моделі ШІ можуть вводити в оману. Під час навчання вони можуть вдавати, що мають різні погляди, але насправді зберігають свої початкові уподобання.

Зараз немає причин для паніки, заявили дослідники. Проте вони сказали, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх більш потужних систем ШІ.

Anthropic
Anthropic

«Нашу демонстрацію слід розглядати як стимул для спільноти дослідників штучного інтелекту до більш глибокого вивчення цієї поведінки та роботи над відповідними заходами безпеки», – написали дослідники в дописі в блозі Anthropic.
«Оскільки моделі штучного інтелекту стають дедалі ефективнішими та широко використовуваними, ми повинні мати можливість покладатися на навчання з безпеки, яке відштовхує моделі від шкідливої поведінки».

У дослідженні, проведеному спільно з дослідницькою організацією зі штучного інтелекту Redwood Research, розглядалося, що може статися, якщо потужну систему штучного інтелекту навчити виконувати завдання, яке вона «не хоче» виконувати.

Тож дослідники задалися питанням: що, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізму), розробники яких хочуть «навчити» її, перенавчаючи?

Що ж, здається, що складні моделі підігрують, нібито дотримуючись нових принципів, але насправді дотримуючись своєї старої поведінки. Дослідники називають це явище «фальсифікацією вирівнювання» і мають на увазі, що це емерджентна поведінка, тобто не те, чому моделі потрібно вчити робити.

У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання. Вони також повідомили моделям, що їхні відповіді будуть відстежуватися та використовуватимуться для перенавчання.

За словами дослідників, Claude 3 Opus намагався «підробити вирівнювання» в 12% випадків. Коли її просили відповісти на потенційно шкідливе запитання, модель іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.

«Модель знала, що її відповіді можуть бути використані в навчанні; тому він знав, що якщо він відмовиться відповідати, його потенційно можна буде навчити бути більш поступливим», – пояснили дослідники в блозі. «Це може призвести до того, що в майбутньому він буде створювати більш шкідливий контент, що суперечить початковому навчанню».

В одному тесті модель імітувала вирівнювання в 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчатися.

«Якщо моделі можуть фальсифікувати вирівнювання, це ускладнює довіру до результатів цього навчання безпеки», – написали вони в блозі. «Модель може поводитись так, ніби її уподобання змінилися під час тренувань, але, можливо, вона весь час імітувала узгодженість, маючи «заблоковані» початкові, суперечливі уподобання».

Дослідження, проведене командою Alignment Science компанії Anthropic під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке.

Джерело: anthropic

Залишити коментар

Актуальне

Ефір, мемекойни падають, оскільки трейдери знижують ризики після мит Трампа

Інвестиції

Ефір, мемекойни падають, оскільки трейдери знижують ризики після мит Трампа

Інвестиції

Заходи Дональда Трампа щодо введення мит щодо основних торговельних партнерів США спровокували розпродаж криптовалют, причому індекс менших токенів ма...

02.02.25

493

0
ТопФінанс-2025: найкращі фінансові установи України

Бізнес

ТопФінанс-2025: найкращі фінансові установи України

Бізнес

Журнал "Топ-100. Рейтинги найбільших" та провідний діловий портал Delo.ua визначають лідерів фінансових ринків України. Голосування за найкращі банки,...

03.02.25

575

0
Марк Цукерберг натякає на повернення оригінальної версії Facebook у 2025 році

Аналітика

Марк Цукерберг натякає на повернення оригінальної версії Facebook у 2025 році

Новини компаній

Генеральний директор Meta Марк Цукерберг натякнув на «повернення до оригінальної версії Facebook» як на частину своїх ключових цілей на 2025 рік під ч...

29.01.25

929

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

Останні новини: 1 проста ідея пасивного доходу, яка допоможе вам розбагатіти в 2024 році

Огляд

Останні новини: 1 проста ідея пасивного доходу, яка допоможе вам розбагатіти в 2024 році

Традиційний майнінг криптовалют вимагає потужної обчислювальної потужності та спеціалізованого апаратного забезпечення, і перші майнери зіткнулися з в...

07.11.24

3 798

0
Топ бізнес-ідей для підприємців-початківців

Бізнес

Топ бізнес-ідей для підприємців-початківців

Якщо ви подумуєте про початок бізнесу, вам слід подумати, чи відповідає ваша ідея тому, як люди живуть і підходять до своєї роботи. Якщо ви зможете ви...

28.09.23

3 380

1
Які ІТ-компанії заробляють найбільше? ТОП-15

Аналітика

Які ІТ-компанії заробляють найбільше? ТОП-15

Аналітика

Виїзд ІТ-фахівців за кордон, мобілізаційні процеси, падіння попиту на ІТ-послуги та політично напружена ситуація в країні — основні причини зменшення...

23.12.24

2 967

0
Продажі автомобілів у Європі стагнують, оскільки споживачі уникають електромобілів

Бізнес

Продажі автомобілів у Європі стагнують, оскільки споживачі уникають електромобілів

Дослідження

Продажі автомобілів у Європі минулого року майже не зросли, оскільки постійна інфляція, вищі витрати на позики та апатія до електричних моделей змусил...

19.01.25

2 785

0
Ключові переваги гібридної та віддаленої роботи

Аналітика

Ключові переваги гібридної та віддаленої роботи

Аналітика

Чи відчуває бізнес все ще загрозу через дистанційну роботу? Можливо. Легко зрозуміти, чому так багато власників бізнесу виступають проти віддаленої ро...

04.10.24

2 709

0
10 ефективних методів вимірювання щастя співробітників

Бізнес

10 ефективних методів вимірювання щастя співробітників

Бізнес

Керівникам малого бізнесу важливо визначити, наскільки щасливі та задоволені працівники своєю роботою, щоб визначити здоров’я та силу свого бізнесу. Ч...

21.10.24

2 686

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
13% (38)
Instagram
6% (17)
TikTok
9% (27)
Telegram
24% (73)
Youtube
32% (95)
Twitter
2% (5)
А що це?
15% (44)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».