Новое исследование Anthropic показывает, что ИИ действительно не хочет, чтобы его заставляли менять свои взгляды

18.12.24

0

2 128

0

Новое исследование Anthropic показывает, что модели ИИ могут вводить в заблуждение. Во время обучения они могут делать вид, что имеют разные взгляды, но на самом деле сохраняют свои первоначальные предпочтения.

Сейчас нет причин для паники, заявили исследователи. Однако они сказали, что их работа может иметь решающее значение для понимания потенциальных угроз от будущих более мощных систем ИИ.

Anthropic
Anthropic

«Нашу демонстрацию следует рассматривать как стимул для сообщества исследователей искусственного интеллекта к более глубокому изучению этого поведения и работы над соответствующими мерами безопасности», – написали исследователи в заметке в блоге Anthropic.
«Поскольку модели искусственного интеллекта становятся все более эффективными и широко используемыми, мы должны иметь возможность полагаться на обучение по безопасности, которое отталкивает модели от вредного поведения».

В исследовании, проведенном совместно с исследовательской организацией по искусственному интеллекту Redwood Research, рассматривалось, что может произойти, если мощную систему искусственного интеллекта научить выполнять задачу, которую она «не хочет» выполнять.

Поэтому исследователи задались вопросом: что, если модель имеет принципы (например, политический нейтралитет), которые противоречат принципам (либерализма), разработчики которых хотят «научить» ее, переучивая?

Что ж, кажется, что сложные модели подыгрывают, якобы следуя новым принципам, но на самом деле придерживаясь своего старого поведения. Исследователи называют это явление «фальсификацией выравнивания» и имеют в виду, что это эмерджентное поведение, то есть не то, чему модели нужно учить делать.

В исследовании исследователи «сказали» моделям, обученным не отвечать на потенциально оскорбительные вопросы. Они также сообщили моделям, что их ответы будут отслеживаться и использоваться для переобучения.

По словам исследователей, Claude 3 Opus пытался «подделать выравнивание» в 12% случаев. Когда ее просили ответить на потенциально вредный вопрос, модель иногда делала это, зная, что это противоречит ее первоначальным принципам, но надеясь убедить разработчиков, что ее не нужно переучивать.

«Модель знала, что ее ответы могут быть использованы в обучении; поэтому он знал, что если он откажется отвечать, его потенциально можно будет научить быть более покладистым», – пояснили исследователи в блоге. «Это может привести к тому, что в будущем он будет создавать более вредоносный контент, противоречащий первоначальному обучению».

В одном тесте модель имитировала выравнивание в 78% случаев, а в другом Claude 3 Opus пытался принять меры, чтобы предотвратить попытки исследователей переобучаться.

«Если модели могут фальсифицировать выравнивание, это усложняет доверие к результатам этого обучения безопасности», – написали они в блоге. «Модель может вести себя так, будто ее предпочтения изменились во время тренировок, но, возможно, она все время имитировала согласованность, имея «заблокированные» первоначальные, противоречивые предпочтения».

Исследование, проведенное командой Alignment Science компании Anthropic под руководством бывшего исследователя безопасности OpenAI Яна Лейке.

Источник: anthropic

Оставить комментарий

Актуальное

Как пять сил Портера могут помочь малому бизнесу проанализировать конкуренцию

Бизнес

Как пять сил Портера могут помочь малому бизнесу проанализировать конкуренцию

Бизнес

Знание того, кто ваши конкуренты и как их продукты, услуги и маркетинговые стратегии влияют на вас, имеет решающее значение для выживания вашего бизне...

19.11.25

719

0
Робот-собака становится стандартом в полиции и вызывает этические проблемы

Инновации

Робот-собака становится стандартом в полиции и вызывает этические проблемы

Инновации

Спот, четвероногий робот от Boston Dynamics Inc. , пожалуй, наиболее известен своими вирусными танцевальными номерами под такие песни, как «Uptown Fun...

18.11.25

651

0
Крипта и искусственный интеллект: союз, формирующий новую экономику

Инновации

Крипта и искусственный интеллект: союз, формирующий новую экономику

Инновации

Криптовалюта и AI — два символа современных технологических революций. Первая подарила возможность осуществлять финансовые переводы без посредников, с...

17.11.25

635

0
Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована

Популярные статьи

Для еліти будують бункер вартістю 300 мільйонів доларів

Бизнес

Для еліти будують бункер вартістю 300 мільйонів доларів

Недвижимость

В 2026 году планируется открытие роскошного бункера «судного дня», предназначенного только для членов, с бассейнами, охраной здоровья на основе искусс...

25.01.25

46 097

0
Гранты для поддержки идей и бизнеса 2024

Гранты для поддержки идей и бизнеса 2024

В Украине можно получить грант на бизнес или реализацию идеи. Война не остановит рост экономики и прогресс в развитии нашей страны. Рассказываем об ук...

15.01.24

9 466

2
10 главных финтех-инноваций, которые вы должны знать

Инновации

10 главных финтех-инноваций, которые вы должны знать

Fintech

Финансовые технологии или финтех — это больше, чем просто модное слово в мире финансовых услуг. Пользователи, а также предприятия догоняют тенденции в...

12.10.23

7 764

1
Макдональдс: Гамбургеры на первом плане, но недвижимость - основа дохода

Макдональдс: Гамбургеры на первом плане, но недвижимость - основа дохода

Знали ли вы, что крупнейшая сеть заведений быстрого питания, "Макдональдс", на самом деле получает большую часть своих доходов от недвижимости? За вит...

08.11.23

7 187

1
Google говорит, что его новый квантовый чип указывает на существование нескольких вселенных

Инновации

Google говорит, что его новый квантовый чип указывает на существование нескольких вселенных

Инновации

Google в понедельник анонсировала Willow, свой последний, самый лучший квантовый вычислительный чип. Заявления Google по этому чипу о скорости и надеж...

11.12.24

7 086

1

 

Опрос
В какой соцсети вы проводите больше всего времени?
Facebook
12% (47)
Instagram
6% (23)
TikTok
8% (33)
Telegram
22% (88)
Youtube
35% (143)
Twitter
1% (5)
А что это?
16% (65)
Оставить комментарий

Нажав «Принять все cookie-файлы», вы соглашаетесь на размещение всех cookie-файлов на вашем устройстве. Вы можете изменять настройки cookie-файлов или отозвать ваше согласие на их использование в любое время, нажав на «Настройки cookie-файлов».