ИИ юристы резко прогрессируют: новый тест показал 30% против прежних 18%

08.02.26

0

1 156

0

В прошлом месяце бенчмарк Mercor измерял возможности агентов с искусственным интеллектом в профессиональных задачах, таких как право и корпоративный анализ. В то время результаты были довольно низкими, каждая большая лаборатория набрала менее 25%, поэтому пришли к выводу, что юристы застрахованы от вытеснения ИИ, по крайней мере.

Но на этой неделе выпуск Opus 4.6 от Anthropic всколыхнул таблицы лидеров: новая модель Anthropic набрала чуть менее 30% в одноразовых испытаниях и в среднем 45% после нескольких дополнительных попыток решения проблемы. Примечательно, что релиз включал в себя ряд новых агентных функций, включая «рои агентов», которые, возможно, помогли с таким многоэтапным решением проблем.

Mercor
Mercor

Несмотря на это этот показатель является огромным скачком по сравнению с предыдущим современным уровнем, и свидетельствует о том, что прогресс в разработке моделей фундамента не замедляется. Особенно впечатленный генеральный директор Mercor Брендан Фуди сказал, что скачок с 18,4% до 29,8% за несколько месяцев – это безумие.

Тридцать процентов – это еще далеко до 100%, поэтому юристам не стоит беспокоиться, что на следующей неделе их заменят машины. Но они должны быть гораздо менее уверены, чем в прошлом месяце.

Оставить комментарий

Актуальное

Не дайте им сказать «прощай»: как спасти отношения с клиентом в последний момент

Бизнес

Не дайте им сказать «прощай»: как спасти отношения с клиентом в последний момент

Бизнес

Ежедневно клиенты решают покидать компании, которые могут даже не осознавать, что они недовольны. Обычно они не отправляют гневные электронные письма,...

30.03.26

743

0
AI First Media: новая модель медиа в эпоху искусственного интеллекта

Инновации

AI First Media: новая модель медиа в эпоху искусственного интеллекта

Инновации

В этой статье я формулирую авторскую концепцию AI First Media — новой модели медиа в эпоху искусственного интеллекта. За последние 30 лет медиа пережи...

29.03.26

867

0
OpenClaw – чудо искусственного интеллекта или кошмар кибербезопасности?

Инновации

OpenClaw – чудо искусственного интеллекта или кошмар кибербезопасности?

Инновации

Люди массово пользуются агентом искусственного интеллекта OpenClaw с момента его запуска в ноябре австрийским программистом Петером Штайнбергером. Циф...

28.03.26

834

0
Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована

Популярные статьи

10 главных финтех-инноваций, которые вы должны знать

Инновации

10 главных финтех-инноваций, которые вы должны знать

Fintech

Финансовые технологии или финтех — это больше, чем просто модное слово в мире финансовых услуг. Пользователи, а также предприятия догоняют тенденции в...

12.10.23

9 936

1
Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Во время тестирования своей последней модели искусственного интеллекта исследователи из Anthropic обнаружили нечто очень странное: искусственный интел...

26.05.25

6 534

0
Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Инновации

Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Инновации

Anthropic выпускает новую передовую модель искусственного интеллекта под названием Claude 3.7 Sonnet, которую компания разработала так, чтобы она «дум...

24.02.25

5 823

0
Обзор передовых моделей AI: какие модели изменят мир и как их использовать

Обзор

Обзор передовых моделей AI: какие модели изменят мир и как их использовать

Инновации

Модели ИИ разрабатываются с головокружительной скоростью всеми, от крупных технологических компаний вроде Google до стартапов вроде OpenAI и Anthropic...

18.02.25

5 702

0
Что известно о стартапе DeepSeek, который потряс мир технологий?

Инновации

Что известно о стартапе DeepSeek, который потряс мир технологий?

Стартапы

Удивительно эффективная и мощная китайская модель ИИ захватила технологическую отрасль штурмом. Он называется DeepSeek R1 и раздражает нервы на Уолл-с...

28.01.25

4 958

0

 

Опрос
В какой соцсети вы проводите больше всего времени?
Facebook
12% (48)
Instagram
6% (24)
TikTok
8% (34)
Telegram
22% (90)
Youtube
36% (150)
Twitter
1% (5)
А что это?
16% (65)
Оставить комментарий

Нажав «Принять все cookie-файлы», вы соглашаетесь на размещение всех cookie-файлов на вашем устройстве. Вы можете изменять настройки cookie-файлов или отозвать ваше согласие на их использование в любое время, нажав на «Настройки cookie-файлов».