Інструменти штучного інтелекту для кодування переходять у нову якість: термінал

16.07.25

0

1 692

0

Роками інструменти редагування коду, такі як Cursor, Windsurf та Copilot від GitHub, були стандартом для розробки програмного забезпечення на базі штучного інтелекту. Але оскільки агентний ШІ стає потужнішим відбувся незначний зсув у взаємодії систем ШІ з програмним забезпеченням.

Замість роботи над кодом, вони все частіше взаємодіють безпосередньо з оболонкою будь-якої системи, в якій вони встановлені. Це суттєва зміна в тому, як відбувається розробка програмного забезпечення на основі штучного інтелекту, це може мати значні наслідки для подальшого розвитку цієї галузі.

Термінал найбільш відомий як чорно-білий екран, який ви пам'ятаєте з хакерських фільмів 90-х років — дуже старомодний спосіб запуску програм та маніпулювання даними. Він не такий візуально вражаючий, як сучасні редактори коду, але це надзвичайно потужний інтерфейс, якщо ви знаєте, як ним користуватися. І хоча агенти на основі коду можуть писати та налагоджувати код, інструменти терміналу часто потрібні, щоб перетворити програмне забезпечення з письмового коду на щось, що реально можна використовувати.

Інструменти штучного інтелекту для кодування
Image Credits: Pixabay

Найчіткішою ознакою переходу на термінал стали запуск у лютому Anthropic, DeepMind та OpenAI нових інструментів командного рядка (Claude Code, Gemini CLI та CLI Codex відповідно), і вони вже є одними з найпопулярніших продуктів компаній.

Цей зсув було легко не помітити, оскільки вони здебільшого працюють під тим самим брендом, що й попередні інструменти кодування. Але під капотом відбулися реальні зміни у взаємодії агентів з іншими комп'ютерами, як онлайн, так і офлайн.

«Ми сподіваємося, що в майбутньому 95% взаємодії між LLM та комп’ютером відбуватиметься через термінальний інтерфейс», — каже Майк Меррілл, співзасновник провідного термінально-орієнтованого бенчмарку Terminal-Bench .

Щоб зрозуміти, чим відрізняється новий підхід, може бути корисним поглянути на бенчмарки, що використовуються для їх вимірювання. Генерація інструментів на основі коду була зосереджена на вирішенні проблем GitHub, що є основою тесту SWE-Bench. Кожна проблема в SWE-Bench є по суті, фрагментом коду, який не працює.

Моделі починають зі зламаного коду та перетворюючи його на робочий код.

Термінальні інструменти мають ширший погляд, дивлячись не лише на код, а й на все середовище, в якому працює програма. Це включає кодування, а також завдання, більш орієнтовані на DevOps, такі як налаштування Git-сервера або усунення несправностей, чому скрипт не запускається.

«TerminalBench ускладнюється не лише питаннями, які ми ставимо агентам», — каже співзасновник Terminal-Bench Алекс Шоу. «Це середовище, в яке ми їх розміщуємо».

Найголовніше, що цей новий підхід означає покрокове вирішення проблеми — та сама навичка, яка робить агентний ШІ таким потужним. Але навіть найсучасніші агентні моделі не можуть впоратися з усіма цими середовищами. Warp отримав свій високий бал у Terminal-Bench, вирішивши трохи більше половини проблем — це ознака того, наскільки складним є бенчмарк і скільки роботи ще потрібно виконати, щоб розкрити весь потенціал терміналу.

Залишити коментар

Актуальне

Розкіш більше не в моді? Чому акції LVMH почали рік найгірше в історії

Аналітика

Розкіш більше не в моді? Чому акції LVMH почали рік найгірше в історії

Аналітика

Акції LVMH почали рік найгірше за всю історію спостережень, оскільки вплив війни на Близькому Сході затьмарює світові економічні перспективи та посилю...

01.04.26

431

0
Не дайте їм сказати «прощавай»: як врятувати стосунки з клієнтом в останній момент

Бізнес

Не дайте їм сказати «прощавай»: як врятувати стосунки з клієнтом в останній момент

Бізнес

Щодня клієнти вирішують залишати компанії, які можуть навіть не усвідомлювати, що вони незадоволені. Зазвичай вони не надсилають гнівні електронні лис...

30.03.26

771

0
AI First Media: нова модель медіа в епоху штучного інтелекту

Інновації

AI First Media: нова модель медіа в епоху штучного інтелекту

Інновації

У цій статті я формулюю авторську концепцію AI First Media — нової моделі медіа в епоху штучного інтелекту. За останні 30 років медіа пережили кілька...

29.03.26

880

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

10 головних фінтех-інновацій, які ви повинні знати

Інновації

10 головних фінтех-інновацій, які ви повинні знати

Fintech

Фінансові технології або фінтех - це більше, ніж просто модне слово у світі фінансових послуг. Користувачі, а також підприємства наздоганяють тенденці...

12.10.23

9 946

1
Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Під час тестування своєї останньої моделі штучного інтелекту дослідники з Anthropic виявили щось дуже дивне: штучний інтелект був готовий і бажав вдав...

26.05.25

6 549

0
Anthropic запускає нову модель ШІ, яка «думає» стільки, скільки ви захочете

Інновації

Anthropic запускає нову модель ШІ, яка «думає» стільки, скільки ви захочете

Інновації

Anthropic випускає нову передову модель штучного інтелекту під назвою Claude 3.7 Sonnet, яку компанія розробила так, щоб вона «думала» над питаннями с...

24.02.25

5 837

0
Огляд передових моделей AI : які моделі змінять світ і як їх використовувати

Огляд

Огляд передових моделей AI : які моделі змінять світ і як їх використовувати

Інновації

Моделі ШІ розробляються із запаморочливою швидкістю всіма, від великих технологічних компаній на кшталт Google до стартапів на кшталт OpenAI і Anthrop...

18.02.25

5 712

0
Що відомо про стартап DeepSeek, який сколихнув світ технологій?

Інновації

Що відомо про стартап DeepSeek, який сколихнув світ технологій?

Стартапи

Напрочуд ефективна та потужна китайська модель ШІ захопила технологічну галузь штурмом. Він називається DeepSeek R1 і дратує нерви на Волл-стріт. Нов...

28.01.25

4 966

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
12% (48)
Instagram
6% (24)
TikTok
8% (34)
Telegram
22% (90)
Youtube
36% (150)
Twitter
1% (5)
А що це?
16% (65)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».