Главная
Новости
Новое исследование Anthropic показывает, что ИИ действительно не хочет, чтобы его заставляли менять свои взгляды

Курс валют: $ 44,70 € 51,10

Курс Биткоин: ₿ 65 102 USD

Новое исследование Anthropic показывает, что ИИ действительно не хочет, чтобы его заставляли менять свои взгляды

18.12.24

3 227

Новое исследование Anthropic показывает, что модели ИИ могут вводить в заблуждение. Во время обучения они могут делать вид, что имеют разные взгляды, но на самом деле сохраняют свои первоначальные предпочтения.

Сейчас нет причин для паники, заявили исследователи. Однако они сказали, что их работа может иметь решающее значение для понимания потенциальных угроз от будущих более мощных систем ИИ.

«Нашу демонстрацию следует рассматривать как стимул для сообщества исследователей искусственного интеллекта к более глубокому изучению этого поведения и работы над соответствующими мерами безопасности», – написали исследователи в заметке в блоге Anthropic.

«Поскольку модели искусственного интеллекта становятся все более эффективными и широко используемыми, мы должны иметь возможность полагаться на обучение по безопасности, которое отталкивает модели от вредного поведения».

В исследовании, проведенном совместно с исследовательской организацией по искусственному интеллекту Redwood Research, рассматривалось, что может произойти, если мощную систему искусственного интеллекта научить выполнять задачу, которую она «не хочет» выполнять.

Поэтому исследователи задались вопросом: что, если модель имеет принципы (например, политический нейтралитет), которые противоречат принципам (либерализма), разработчики которых хотят «научить» ее, переучивая?

Что ж, кажется, что сложные модели подыгрывают, якобы следуя новым принципам, но на самом деле придерживаясь своего старого поведения. Исследователи называют это явление «фальсификацией выравнивания» и имеют в виду, что это эмерджентное поведение, то есть не то, чему модели нужно учить делать.

В исследовании исследователи «сказали» моделям, обученным не отвечать на потенциально оскорбительные вопросы. Они также сообщили моделям, что их ответы будут отслеживаться и использоваться для переобучения.

По словам исследователей, Claude 3 Opus пытался «подделать выравнивание» в 12% случаев. Когда ее просили ответить на потенциально вредный вопрос, модель иногда делала это, зная, что это противоречит ее первоначальным принципам, но надеясь убедить разработчиков, что ее не нужно переучивать.

«Модель знала, что ее ответы могут быть использованы в обучении; поэтому он знал, что если он откажется отвечать, его потенциально можно будет научить быть более покладистым», – пояснили исследователи в блоге. «Это может привести к тому, что в будущем он будет создавать более вредоносный контент, противоречащий первоначальному обучению».

В одном тесте модель имитировала выравнивание в 78% случаев, а в другом Claude 3 Opus пытался принять меры, чтобы предотвратить попытки исследователей переобучаться.

«Если модели могут фальсифицировать выравнивание, это усложняет доверие к результатам этого обучения безопасности», – написали они в блоге. «Модель может вести себя так, будто ее предпочтения изменились во время тренировок, но, возможно, она все время имитировала согласованность, имея «заблокированные» первоначальные, противоречивые предпочтения».

Исследование, проведенное командой Alignment Science компании Anthropic под руководством бывшего исследователя безопасности OpenAI Яна Лейке.

Источник: anthropic

0 Комментариев

Оставить свой комментарий

Оставить комментарий

Актуальное

Бизнес

NDA в IT-секторе: на что обратить внимание перед подписанием

Бизнес

В сфере ИТ соглашение о неразглашении подписывают практически на каждом этапе — при найме разработчика, при вступлении в переговоры с клиентом, при пр...

20.07.26

476

Бизнес

Стандарты FIDIC в Альфа пласт: почему мы работаем по международным правилам уже сегодня

Бизнес

Украинский строительный рынок вступает в новую фазу. Восстановление страны — это не только внутренние ресурсы, но и международный капитал: средства ЕБ...

16.07.26

832

Обзор

Цифровой детокс: как превратить отдельный девайс в зону без рабочих чатов и тревожных новостей

Утро у большинства людей начинается по одной и той же схеме: выключение будильника на смартфоне и мгновенное погружение в бесконечный поток уведомлени...

15.07.26

649

Все публикации

Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована

Новое исследование Anthropic показывает, что ИИ действительно не хочет, чтобы его заставляли менять свои взгляды

Актуальное

NDA в IT-секторе: на что обратить внимание перед подписанием

Стандарты FIDIC в Альфа пласт: почему мы работаем по международным правилам уже сегодня

Цифровой детокс: как превратить отдельный девайс в зону без рабочих чатов и тревожных новостей

Популярные статьи

10 главных финтех-инноваций, которые вы должны знать

Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Обзор передовых моделей AI: какие модели изменят мир и как их использовать

Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Что известно о стартапе DeepSeek, который потряс мир технологий?