ШІ юристи різко прогресують: новий тест показав 30% проти колишніх 18%

08.02.26

0

855

0

Минулого місяця бенчмарк Mercor вимірював можливості агентів зі штучним інтелектом у професійних завданнях, таких як право та корпоративний аналіз. На той час результати були досить низькими, кожна велика лабораторія набрала менше 25%, тому дійшли висновку, що юристи застраховані від витіснення ШІ, принаймні наразі.

Але цього тижня випуск Opus 4.6 від Anthropic сколихнув таблиці лідерів: нова модель Anthropic набрала трохи менше 30% в одноразових випробуваннях і в середньому 45% після кількох додаткових спроб вирішення проблеми. Примітно, що реліз включав низку нових агентних функцій, включаючи «рої агентів», які, можливо, допомогли з таким багатоетапним вирішенням проблем.

Mercor
Mercor

Незважаючи на це, цей показник є величезним стрибком у порівнянні з попереднім сучасним рівнем, і свідчить про те, що прогрес у розробці моделей фундаменту не сповільнюється. Генеральний директор Mercor Брендан Фуді, який був особливо вражений, сказав, що стрибок з 18,4% до 29,8% за кілька місяців – це божевілля.

Тридцять відсотків – це ще далеко до 100%, тому юристам не варто хвилюватися, що наступного тижня їх замінять машини. Але вони мають бути набагато менш впевненими, ніж минулого місяця.

Залишити коментар

Актуальне

Культура копіювання: як підробки стали символом нової економіки

Бізнес

Культура копіювання: як підробки стали символом нової економіки

Бренди

Найпростіший спосіб створити чудовий витвір мистецтва – це скопіювати його. Копії, підробки, дублікати, репліки, бутлеги, пастиші, підробки, факсиміле...

26.02.26

646

0
Як засновнику контролювати бізнес у реальному часі: ERP для проєктної компанії як інструмент управління, а не бухгалтерії

Бізнес

Як засновнику контролювати бізнес у реальному часі: ERP для проєктної компанії як інструмент управління, а не бухгалтерії

Бізнес

Кожен власник проєктного бізнесу — чи то в IT, архітектурі, маркетингу чи консалтингу — рано чи пізно опиняється в «точці засліплення». Це момент, кол...

24.02.26

432

0
Звільнення без виправдань. Як перевести прощання зі співробітником із площини емоцій у цифри

Бізнес

Звільнення без виправдань. Як перевести прощання зі співробітником із площини емоцій у цифри

Бізнес

В управлінській практиці часто трапляється сценарій, коли звільнення співробітника відбувається за формулою «ми більше не зацікавлені у ваших послугах...

23.02.26

708

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

Для еліти будують бункер вартістю 300 мільйонів доларів на випадок Третьої світової війни

Бізнес

Для еліти будують бункер вартістю 300 мільйонів доларів на випадок Третьої світової війни

Нерухомість

У 2026 році планується відкрити розкішний бункер «судного дня», призначений лише для членів, з басейнами, охороною здоров’я на основі штучного інтелек...

25.01.25

47 218

0
10 головних фінтех-інновацій, які ви повинні знати

Інновації

10 головних фінтех-інновацій, які ви повинні знати

Fintech

Фінансові технології або фінтех - це більше, ніж просто модне слово у світі фінансових послуг. Користувачі, а також підприємства наздоганяють тенденці...

12.10.23

9 007

1
Google каже, що його новий квантовий чіп вказує на існування кількох всесвітів

Інновації

Google каже, що його новий квантовий чіп вказує на існування кількох всесвітів

Інновації

Google у понеділок анонсувала Willow, свій останній, найкращий квантовий обчислювальний чіп. Заяви Google щодо цього чіпа щодо швидкості та надійності...

11.12.24

8 083

1
Головні біотехнологічні інновації 2023 року

Головні біотехнологічні інновації 2023 року

BioTech

У світі біотехнології кожен рік приносить приголомшливі інновації та переломні моменти, що сприяють розв'язанню складних проблем і поліпшенню якості ж...

06.10.23

5 611

0
Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Під час тестування своєї останньої моделі штучного інтелекту дослідники з Anthropic виявили щось дуже дивне: штучний інтелект був готовий і бажав вдав...

26.05.25

5 440

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
12% (48)
Instagram
6% (24)
TikTok
8% (33)
Telegram
21% (88)
Youtube
36% (148)
Twitter
1% (5)
А що це?
16% (65)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».