ШІ юристи різко прогресують: новий тест показав 30% проти колишніх 18%

08.02.26

0

1 609

0

Минулого місяця бенчмарк Mercor вимірював можливості агентів зі штучним інтелектом у професійних завданнях, таких як право та корпоративний аналіз. На той час результати були досить низькими, кожна велика лабораторія набрала менше 25%, тому дійшли висновку, що юристи застраховані від витіснення ШІ, принаймні наразі.

Але цього тижня випуск Opus 4.6 від Anthropic сколихнув таблиці лідерів: нова модель Anthropic набрала трохи менше 30% в одноразових випробуваннях і в середньому 45% після кількох додаткових спроб вирішення проблеми. Примітно, що реліз включав низку нових агентних функцій, включаючи «рої агентів», які, можливо, допомогли з таким багатоетапним вирішенням проблем.

Mercor
Mercor

Незважаючи на це, цей показник є величезним стрибком у порівнянні з попереднім сучасним рівнем, і свідчить про те, що прогрес у розробці моделей фундаменту не сповільнюється. Генеральний директор Mercor Брендан Фуді, який був особливо вражений, сказав, що стрибок з 18,4% до 29,8% за кілька місяців – це божевілля.

Тридцять відсотків – це ще далеко до 100%, тому юристам не варто хвилюватися, що наступного тижня їх замінять машини. Але вони мають бути набагато менш впевненими, ніж минулого місяця.

Залишити коментар

Актуальне

5 речей, які вам ніхто не розповість про те, як бути підприємцем

Бізнес

5 речей, які вам ніхто не розповість про те, як бути підприємцем

Бізнес

Підприємництво часто представляють як нагороду за хоробрість. Свобода, гнучкість, самореалізація. Ці речі можливі, але вони не є відправною точкою. Рі...

27.05.26

711

0
Як ШІ формує довіру до брендів і змінює правила гри для бізнесу

Інновації

Як ШІ формує довіру до брендів і змінює правила гри для бізнесу

Інновації

Ще кілька років тому процес вибору бренду нагадував повноцінне журналістське розслідування. Користувач відкривав Google, вивчав десятки посилань, порі...

25.05.26

796

0
Ви будуєте для себе, а не для них: головна помилка тих, хто відкриває бізнес за кордоном

Бізнес

Ви будуєте для себе, а не для них: головна помилка тих, хто відкриває бізнес за кордоном

Бізнес

Уявіть, що ви вклали всі свої заощадження в затишну кав'ярню. Свіжа плитка, смачна кава, дитячий куточок, паркування біля входу — усе те, про що мріял...

26.05.26

946

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

10 головних фінтех-інновацій, які ви повинні знати

Інновації

10 головних фінтех-інновацій, які ви повинні знати

Fintech

Фінансові технології або фінтех - це більше, ніж просто модне слово у світі фінансових послуг. Користувачі, а також підприємства наздоганяють тенденці...

12.10.23

11 524

1
Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Під час тестування своєї останньої моделі штучного інтелекту дослідники з Anthropic виявили щось дуже дивне: штучний інтелект був готовий і бажав вдав...

26.05.25

8 189

0
Огляд передових моделей AI : які моделі змінять світ і як їх використовувати

Огляд

Огляд передових моделей AI : які моделі змінять світ і як їх використовувати

Інновації

Моделі ШІ розробляються із запаморочливою швидкістю всіма, від великих технологічних компаній на кшталт Google до стартапів на кшталт OpenAI і Anthrop...

18.02.25

7 678

0
Anthropic запускає нову модель ШІ, яка «думає» стільки, скільки ви захочете

Інновації

Anthropic запускає нову модель ШІ, яка «думає» стільки, скільки ви захочете

Інновації

Anthropic випускає нову передову модель штучного інтелекту під назвою Claude 3.7 Sonnet, яку компанія розробила так, щоб вона «думала» над питаннями с...

24.02.25

7 455

0
Що відомо про стартап DeepSeek, який сколихнув світ технологій?

Інновації

Що відомо про стартап DeepSeek, який сколихнув світ технологій?

Стартапи

Напрочуд ефективна та потужна китайська модель ШІ захопила технологічну галузь штурмом. Він називається DeepSeek R1 і дратує нерви на Волл-стріт. Нов...

28.01.25

5 559

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
11% (48)
Instagram
6% (24)
TikTok
8% (34)
Telegram
22% (91)
Youtube
36% (150)
Twitter
1% (5)
А що це?
16% (66)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».