Новое исследование Anthropic показывает, что ИИ действительно не хочет, чтобы его заставляли менять свои взгляды

18.12.24

0

1 258

0

Новое исследование Anthropic показывает, что модели ИИ могут вводить в заблуждение. Во время обучения они могут делать вид, что имеют разные взгляды, но на самом деле сохраняют свои первоначальные предпочтения.

Сейчас нет причин для паники, заявили исследователи. Однако они сказали, что их работа может иметь решающее значение для понимания потенциальных угроз от будущих более мощных систем ИИ.

Anthropic
Anthropic

«Нашу демонстрацию следует рассматривать как стимул для сообщества исследователей искусственного интеллекта к более глубокому изучению этого поведения и работы над соответствующими мерами безопасности», – написали исследователи в заметке в блоге Anthropic.
«Поскольку модели искусственного интеллекта становятся все более эффективными и широко используемыми, мы должны иметь возможность полагаться на обучение по безопасности, которое отталкивает модели от вредного поведения».

В исследовании, проведенном совместно с исследовательской организацией по искусственному интеллекту Redwood Research, рассматривалось, что может произойти, если мощную систему искусственного интеллекта научить выполнять задачу, которую она «не хочет» выполнять.

Поэтому исследователи задались вопросом: что, если модель имеет принципы (например, политический нейтралитет), которые противоречат принципам (либерализма), разработчики которых хотят «научить» ее, переучивая?

Что ж, кажется, что сложные модели подыгрывают, якобы следуя новым принципам, но на самом деле придерживаясь своего старого поведения. Исследователи называют это явление «фальсификацией выравнивания» и имеют в виду, что это эмерджентное поведение, то есть не то, чему модели нужно учить делать.

В исследовании исследователи «сказали» моделям, обученным не отвечать на потенциально оскорбительные вопросы. Они также сообщили моделям, что их ответы будут отслеживаться и использоваться для переобучения.

По словам исследователей, Claude 3 Opus пытался «подделать выравнивание» в 12% случаев. Когда ее просили ответить на потенциально вредный вопрос, модель иногда делала это, зная, что это противоречит ее первоначальным принципам, но надеясь убедить разработчиков, что ее не нужно переучивать.

«Модель знала, что ее ответы могут быть использованы в обучении; поэтому он знал, что если он откажется отвечать, его потенциально можно будет научить быть более покладистым», – пояснили исследователи в блоге. «Это может привести к тому, что в будущем он будет создавать более вредоносный контент, противоречащий первоначальному обучению».

В одном тесте модель имитировала выравнивание в 78% случаев, а в другом Claude 3 Opus пытался принять меры, чтобы предотвратить попытки исследователей переобучаться.

«Если модели могут фальсифицировать выравнивание, это усложняет доверие к результатам этого обучения безопасности», – написали они в блоге. «Модель может вести себя так, будто ее предпочтения изменились во время тренировок, но, возможно, она все время имитировала согласованность, имея «заблокированные» первоначальные, противоречивые предпочтения».

Исследование, проведенное командой Alignment Science компании Anthropic под руководством бывшего исследователя безопасности OpenAI Яна Лейке.

Источник: anthropic

Оставить комментарий

Актуальное

Эфир, мемекойны падают, поскольку трейдеры снижают риски после пошлин Трампа

Инвестиции

Эфир, мемекойны падают, поскольку трейдеры снижают риски после пошлин Трампа

Инвестиции

Меры Дональда Трампа по введению пошлин в отношении основных торговых партнеров США спровоцировали распродажу криптовалют, причем индекс меньших токен...

02.02.25

514

0
ТопФинанс-2025: лучшие финансовые учреждения Украины

Бизнес

ТопФинанс-2025: лучшие финансовые учреждения Украины

Бизнес

Журнал «Топ-100. Рейтинги крупнейших» и ведущий деловой портал Delo.ua определяют лидеров финансовых рынков Украины. Голосование за лучшие банки, стра...

03.02.25

590

0
Марк Цукерберг намекает на возвращение оригинальной версии Facebook в 2025 году

Аналитика

Марк Цукерберг намекает на возвращение оригинальной версии Facebook в 2025 году

Новости компаний

Генеральный директор Meta Марк Цукерберг намекнул на «возвращение к оригинальной версии Facebook» как на часть своих ключевых целей на 2025 год в ходе...

29.01.25

968

0
Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована

Популярные статьи

Инвестиции в Украине в 2024 году: 3 надежных способа сохранить и приумножить свои средства

Инвестиции

Инвестиции в Украине в 2024 году: 3 надежных способа сохранить и приумножить свои средства

Инвестиции

У вас есть определенная сумма – и вы хотите сохранить свои деньги? А может, ваша цель – заставить их «работать»? Мы узнали у экспертов, какие инвестиц...

06.02.24

2 303

0
5 причин, по которым вашему бизнесу нужны игры на сплочение коллектива

Бизнес

5 причин, по которым вашему бизнесу нужны игры на сплочение коллектива

Бизнес

Хотите создать команду-победителя в своем бизнесе? Одним из преимуществ добавления игр на сплочение коллектива к социальным мероприятиям для сотрудник...

12.11.24

2 263

0
5 способов сохранить ваш бизнес организованным и на ходу

Бизнес

5 способов сохранить ваш бизнес организованным и на ходу

Аналитика

Эффективные процессы и четкие каналы связи имеют решающее значение для хорошо организованного бизнеса. Они позволяют компании оперативно реагировать н...

28.11.23

2 253

0
Рассматриваем стратегию компании Inditex бренда Zara в сфере торговой недвижимости

Рассматриваем стратегию компании Inditex бренда Zara в сфере торговой недвижимости

Каждый успешный розничный продавец имеет свои секреты успеха, и Zara, одна из жемчужин Inditex Group, не исключение. Сегодня мы рассматриваем стратеги...

08.11.23

2 203

0
Что известно о стартапе DeepSeek, который потряс мир технологий?

Инновации

Что известно о стартапе DeepSeek, который потряс мир технологий?

Стартапы

Удивительно эффективная и мощная китайская модель ИИ захватила технологическую отрасль штурмом. Он называется DeepSeek R1 и раздражает нервы на Уолл-с...

28.01.25

2 202

0
В 2024 запрос малого и среднего бизнеса на кредиты по льготной программе "5-7-9" может быть больше 150 млрд

Аналитика

В 2024 запрос малого и среднего бизнеса на кредиты по льготной программе "5-7-9" может быть больше 150 млрд

Аналитика

В 2024 году запрос малого и среднего бизнеса на кредиты по льготной программе "5-7-9" может быть больше 100-150 млрд грн. Об этом, опираясь на данные...

24.10.23

2 183

3

 

Опрос
В какой соцсети вы проводите больше всего времени?
Facebook
13% (38)
Instagram
6% (17)
TikTok
9% (27)
Telegram
24% (73)
Youtube
32% (96)
Twitter
2% (5)
А что это?
15% (44)
Оставить комментарий

Нажав «Принять все cookie-файлы», вы соглашаетесь на размещение всех cookie-файлов на вашем устройстве. Вы можете изменять настройки cookie-файлов или отозвать ваше согласие на их использование в любое время, нажав на «Настройки cookie-файлов».