Вілл Сміт їсть спагетті та інші дивні тести штучного інтелекту, які отримали популярність у 2024 році

02.01.25

0

2 598

0

Коли компанія випускає новий відеогенератор штучного інтелекту, невдовзі хтось використовує його, щоб зняти відео актора Вілла Сміта, який їсть спагетті.

Це стало чимось на кшталт мему, а також еталонним показником: перевірити, чи може новий відеогенератор реалістично відобразити Сміта, який сьорбає миску локшини. Сам Сміт спародіював цю тенденцію в публікації в Instagram.

тесты искусственного интеллекта, которые получили популярность в 2024 году
ШІ рік назад та зараз 

Уілл Сміт і макарони — лише один із кількох дивних «неофіційних» тестів, які захопили ШІ-спільноту штурмом у 2024 році. 16-річний розробник створив додаток, який дає ШІ контроль над Minecraft і перевіряє його здатність проектувати структури. В іншому місці британський програміст створив платформу, де штучний інтелект грає одна проти одної в такі ігри, як Pictionary і Connect 4.

Minecraft
Image Credits: ADONIS SINGH

Це не те, що більше немає академічних тестів продуктивності ШІ. Так чому ж дивніші вибухнули?

По-перше, багато галузевих стандартів ШІ мало що говорять пересічній людині. Компанії часто посилаються на здатність свого штучного інтелекту відповідати на запитання на іспитах з математичної олімпіади або знаходити вірогідні рішення для проблем рівня доктора філософії. Проте більшість людей — зокрема й ваш — використовують чат-ботів для таких речей, як  відповіді на електронні листи та фундаментальні дослідження.

Краудсорсингові показники галузі не обов’язково є кращими чи інформативнішими.

Візьмемо, наприклад, Chatbot Arena, загальнодоступний еталонний тест, за яким багато ентузіастів і розробників штучного інтелекту нав’язливо слідкують. Chatbot Arena дозволяє будь-кому в Інтернеті оцінювати, наскільки добре штучний інтелект виконує певні завдання, як-от створення веб-програми чи генерування зображення. Але оцінювачі, як правило, не є репрезентативними — більшість із них походять із кіл штучного інтелекту та індустрії технологій — і віддають свої голоси на основі особистих уподобань, які важко визначити.

Ітан Моллік, професор менеджменту Wharton, нещодавно вказав у дописі на X ще одну проблему з багатьма індустріальними тестами ШІ: вони не порівнюють продуктивність системи з продуктивністю середньої людини.

«Той факт, що немає 30 різних еталонних показників від різних організацій у медицині, законодавстві, якості консультацій тощо, є справжньою ганьбою, оскільки люди використовують системи для цих речей, незважаючи на це», — написав Моллік.

Джерело: TechCrunch

Залишити коментар

Актуальне

Розкіш більше не в моді? Чому акції LVMH почали рік найгірше в історії

Аналітика

Розкіш більше не в моді? Чому акції LVMH почали рік найгірше в історії

Аналітика

Акції LVMH почали рік найгірше за всю історію спостережень, оскільки вплив війни на Близькому Сході затьмарює світові економічні перспективи та посилю...

01.04.26

460

0
Не дайте їм сказати «прощавай»: як врятувати стосунки з клієнтом в останній момент

Бізнес

Не дайте їм сказати «прощавай»: як врятувати стосунки з клієнтом в останній момент

Бізнес

Щодня клієнти вирішують залишати компанії, які можуть навіть не усвідомлювати, що вони незадоволені. Зазвичай вони не надсилають гнівні електронні лис...

30.03.26

777

0
AI First Media: нова модель медіа в епоху штучного інтелекту

Інновації

AI First Media: нова модель медіа в епоху штучного інтелекту

Інновації

У цій статті я формулюю авторську концепцію AI First Media — нової моделі медіа в епоху штучного інтелекту. За останні 30 років медіа пережили кілька...

29.03.26

884

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

10 головних фінтех-інновацій, які ви повинні знати

Інновації

10 головних фінтех-інновацій, які ви повинні знати

Fintech

Фінансові технології або фінтех - це більше, ніж просто модне слово у світі фінансових послуг. Користувачі, а також підприємства наздоганяють тенденці...

12.10.23

9 947

1
Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Під час тестування своєї останньої моделі штучного інтелекту дослідники з Anthropic виявили щось дуже дивне: штучний інтелект був готовий і бажав вдав...

26.05.25

6 553

0
Anthropic запускає нову модель ШІ, яка «думає» стільки, скільки ви захочете

Інновації

Anthropic запускає нову модель ШІ, яка «думає» стільки, скільки ви захочете

Інновації

Anthropic випускає нову передову модель штучного інтелекту під назвою Claude 3.7 Sonnet, яку компанія розробила так, щоб вона «думала» над питаннями с...

24.02.25

5 841

0
Огляд передових моделей AI : які моделі змінять світ і як їх використовувати

Огляд

Огляд передових моделей AI : які моделі змінять світ і як їх використовувати

Інновації

Моделі ШІ розробляються із запаморочливою швидкістю всіма, від великих технологічних компаній на кшталт Google до стартапів на кшталт OpenAI і Anthrop...

18.02.25

5 715

0
Що відомо про стартап DeepSeek, який сколихнув світ технологій?

Інновації

Що відомо про стартап DeepSeek, який сколихнув світ технологій?

Стартапи

Напрочуд ефективна та потужна китайська модель ШІ захопила технологічну галузь штурмом. Він називається DeepSeek R1 і дратує нерви на Волл-стріт. Нов...

28.01.25

4 966

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
12% (48)
Instagram
6% (24)
TikTok
8% (34)
Telegram
22% (90)
Youtube
36% (150)
Twitter
1% (5)
А що це?
16% (65)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».