ИИ юристы резко прогрессируют: новый тест показал 30% против прежних 18%

08.02.26

0

1 609

0

В прошлом месяце бенчмарк Mercor измерял возможности агентов с искусственным интеллектом в профессиональных задачах, таких как право и корпоративный анализ. В то время результаты были довольно низкими, каждая большая лаборатория набрала менее 25%, поэтому пришли к выводу, что юристы застрахованы от вытеснения ИИ, по крайней мере.

Но на этой неделе выпуск Opus 4.6 от Anthropic всколыхнул таблицы лидеров: новая модель Anthropic набрала чуть менее 30% в одноразовых испытаниях и в среднем 45% после нескольких дополнительных попыток решения проблемы. Примечательно, что релиз включал в себя ряд новых агентных функций, включая «рои агентов», которые, возможно, помогли с таким многоэтапным решением проблем.

Mercor
Mercor

Несмотря на это этот показатель является огромным скачком по сравнению с предыдущим современным уровнем, и свидетельствует о том, что прогресс в разработке моделей фундамента не замедляется. Особенно впечатленный генеральный директор Mercor Брендан Фуди сказал, что скачок с 18,4% до 29,8% за несколько месяцев – это безумие.

Тридцать процентов – это еще далеко до 100%, поэтому юристам не стоит беспокоиться, что на следующей неделе их заменят машины. Но они должны быть гораздо менее уверены, чем в прошлом месяце.

Оставить комментарий

Актуальное

5 вещей, которых вам никто не расскажет о том, как быть предпринимателем

Бизнес

5 вещей, которых вам никто не расскажет о том, как быть предпринимателем

Бизнес

Предпринимательство часто представляют как награду за смелость. Свобода, гибкость, самореализация. Все это возможно, но это не отправная точка. Редко...

27.05.26

718

0
Как ИИ формирует доверие к брендам и меняет правила игры для бизнеса

Инновации

Как ИИ формирует доверие к брендам и меняет правила игры для бизнеса

Инновации

Еще несколько лет назад процесс выбора бренда напоминал полноценное журналистское расследование. Пользователь открывал Google, изучал десятки ссылок,...

25.05.26

797

0
Вы строите для себя, а не для них: главная ошибка тех, кто открывает бизнес за границей

Бизнес

Вы строите для себя, а не для них: главная ошибка тех, кто открывает бизнес за границей

Бизнес

Представьте, что вы вложили все свои сбережения в уютную кофейню. Новая плитка, вкусный кофе, детский уголок, парковка у входа — всё то, о чём вы сами...

26.05.26

949

0
Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована

Популярные статьи

10 главных финтех-инноваций, которые вы должны знать

Инновации

10 главных финтех-инноваций, которые вы должны знать

Fintech

Финансовые технологии или финтех — это больше, чем просто модное слово в мире финансовых услуг. Пользователи, а также предприятия догоняют тенденции в...

12.10.23

11 527

1
Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Во время тестирования своей последней модели искусственного интеллекта исследователи из Anthropic обнаружили нечто очень странное: искусственный интел...

26.05.25

8 191

0
Обзор передовых моделей AI: какие модели изменят мир и как их использовать

Обзор

Обзор передовых моделей AI: какие модели изменят мир и как их использовать

Инновации

Модели ИИ разрабатываются с головокружительной скоростью всеми, от крупных технологических компаний вроде Google до стартапов вроде OpenAI и Anthropic...

18.02.25

7 680

0
Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Инновации

Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Инновации

Anthropic выпускает новую передовую модель искусственного интеллекта под названием Claude 3.7 Sonnet, которую компания разработала так, чтобы она «дум...

24.02.25

7 457

0
Что известно о стартапе DeepSeek, который потряс мир технологий?

Инновации

Что известно о стартапе DeepSeek, который потряс мир технологий?

Стартапы

Удивительно эффективная и мощная китайская модель ИИ захватила технологическую отрасль штурмом. Он называется DeepSeek R1 и раздражает нервы на Уолл-с...

28.01.25

5 561

0

 

Опрос
В какой соцсети вы проводите больше всего времени?
Facebook
11% (48)
Instagram
6% (24)
TikTok
8% (34)
Telegram
22% (91)
Youtube
36% (150)
Twitter
1% (5)
А что это?
16% (66)
Оставить комментарий

Нажав «Принять все cookie-файлы», вы соглашаетесь на размещение всех cookie-файлов на вашем устройстве. Вы можете изменять настройки cookie-файлов или отозвать ваше согласие на их использование в любое время, нажав на «Настройки cookie-файлов».