Інструменти штучного інтелекту для кодування переходять у нову якість: термінал

16.07.25

0

1 537

0

Роками інструменти редагування коду, такі як Cursor, Windsurf та Copilot від GitHub, були стандартом для розробки програмного забезпечення на базі штучного інтелекту. Але оскільки агентний ШІ стає потужнішим відбувся незначний зсув у взаємодії систем ШІ з програмним забезпеченням.

Замість роботи над кодом, вони все частіше взаємодіють безпосередньо з оболонкою будь-якої системи, в якій вони встановлені. Це суттєва зміна в тому, як відбувається розробка програмного забезпечення на основі штучного інтелекту, це може мати значні наслідки для подальшого розвитку цієї галузі.

Термінал найбільш відомий як чорно-білий екран, який ви пам'ятаєте з хакерських фільмів 90-х років — дуже старомодний спосіб запуску програм та маніпулювання даними. Він не такий візуально вражаючий, як сучасні редактори коду, але це надзвичайно потужний інтерфейс, якщо ви знаєте, як ним користуватися. І хоча агенти на основі коду можуть писати та налагоджувати код, інструменти терміналу часто потрібні, щоб перетворити програмне забезпечення з письмового коду на щось, що реально можна використовувати.

Інструменти штучного інтелекту для кодування
Image Credits: Pixabay

Найчіткішою ознакою переходу на термінал стали запуск у лютому Anthropic, DeepMind та OpenAI нових інструментів командного рядка (Claude Code, Gemini CLI та CLI Codex відповідно), і вони вже є одними з найпопулярніших продуктів компаній.

Цей зсув було легко не помітити, оскільки вони здебільшого працюють під тим самим брендом, що й попередні інструменти кодування. Але під капотом відбулися реальні зміни у взаємодії агентів з іншими комп'ютерами, як онлайн, так і офлайн.

«Ми сподіваємося, що в майбутньому 95% взаємодії між LLM та комп’ютером відбуватиметься через термінальний інтерфейс», — каже Майк Меррілл, співзасновник провідного термінально-орієнтованого бенчмарку Terminal-Bench .

Щоб зрозуміти, чим відрізняється новий підхід, може бути корисним поглянути на бенчмарки, що використовуються для їх вимірювання. Генерація інструментів на основі коду була зосереджена на вирішенні проблем GitHub, що є основою тесту SWE-Bench. Кожна проблема в SWE-Bench є по суті, фрагментом коду, який не працює.

Моделі починають зі зламаного коду та перетворюючи його на робочий код.

Термінальні інструменти мають ширший погляд, дивлячись не лише на код, а й на все середовище, в якому працює програма. Це включає кодування, а також завдання, більш орієнтовані на DevOps, такі як налаштування Git-сервера або усунення несправностей, чому скрипт не запускається.

«TerminalBench ускладнюється не лише питаннями, які ми ставимо агентам», — каже співзасновник Terminal-Bench Алекс Шоу. «Це середовище, в яке ми їх розміщуємо».

Найголовніше, що цей новий підхід означає покрокове вирішення проблеми — та сама навичка, яка робить агентний ШІ таким потужним. Але навіть найсучасніші агентні моделі не можуть впоратися з усіма цими середовищами. Warp отримав свій високий бал у Terminal-Bench, вирішивши трохи більше половини проблем — це ознака того, наскільки складним є бенчмарк і скільки роботи ще потрібно виконати, щоб розкрити весь потенціал терміналу.

Залишити коментар

Актуальне

Культура копіювання: як підробки стали символом нової економіки

Бізнес

Культура копіювання: як підробки стали символом нової економіки

Бренди

Найпростіший спосіб створити чудовий витвір мистецтва – це скопіювати його. Копії, підробки, дублікати, репліки, бутлеги, пастиші, підробки, факсиміле...

26.02.26

705

0
Як засновнику контролювати бізнес у реальному часі: ERP для проєктної компанії як інструмент управління, а не бухгалтерії

Бізнес

Як засновнику контролювати бізнес у реальному часі: ERP для проєктної компанії як інструмент управління, а не бухгалтерії

Бізнес

Кожен власник проєктного бізнесу — чи то в IT, архітектурі, маркетингу чи консалтингу — рано чи пізно опиняється в «точці засліплення». Це момент, кол...

24.02.26

455

0
Звільнення без виправдань. Як перевести прощання зі співробітником із площини емоцій у цифри

Бізнес

Звільнення без виправдань. Як перевести прощання зі співробітником із площини емоцій у цифри

Бізнес

В управлінській практиці часто трапляється сценарій, коли звільнення співробітника відбувається за формулою «ми більше не зацікавлені у ваших послугах...

23.02.26

749

0
Підпишіться на нас

Раз на тиждень ми будемо надсилати Вам найцікавіші новини тижня

Конфіденційність гарантована

Популярні статті

Для еліти будують бункер вартістю 300 мільйонів доларів на випадок Третьої світової війни

Бізнес

Для еліти будують бункер вартістю 300 мільйонів доларів на випадок Третьої світової війни

Нерухомість

У 2026 році планується відкрити розкішний бункер «судного дня», призначений лише для членів, з басейнами, охороною здоров’я на основі штучного інтелек...

25.01.25

47 245

0
10 головних фінтех-інновацій, які ви повинні знати

Інновації

10 головних фінтех-інновацій, які ви повинні знати

Fintech

Фінансові технології або фінтех - це більше, ніж просто модне слово у світі фінансових послуг. Користувачі, а також підприємства наздоганяють тенденці...

12.10.23

9 036

1
Google каже, що його новий квантовий чіп вказує на існування кількох всесвітів

Інновації

Google каже, що його новий квантовий чіп вказує на існування кількох всесвітів

Інновації

Google у понеділок анонсувала Willow, свій останній, найкращий квантовий обчислювальний чіп. Заяви Google щодо цього чіпа щодо швидкості та надійності...

11.12.24

8 114

1
Головні біотехнологічні інновації 2023 року

Головні біотехнологічні інновації 2023 року

BioTech

У світі біотехнології кожен рік приносить приголомшливі інновації та переломні моменти, що сприяють розв'язанню складних проблем і поліпшенню якості ж...

06.10.23

5 647

0
Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Штучний інтелект може переглядати ваші електронні листи та виявляти, що у вас роман

Інновації

Під час тестування своєї останньої моделі штучного інтелекту дослідники з Anthropic виявили щось дуже дивне: штучний інтелект був готовий і бажав вдав...

26.05.25

5 477

0

 

Опитування
У якій соцмережі ви проводите найбільше часу?
Facebook
12% (48)
Instagram
6% (24)
TikTok
8% (33)
Telegram
21% (88)
Youtube
36% (148)
Twitter
1% (5)
А що це?
16% (65)
Залишити коментар

Натиснувши «Прийняти всі cookie-файли» ви погоджуєтесь на розміщення всіх cookie-файлів на вашому пристрої. Ви можете змінювати налаштування cookie-файлів або відкликати вашу згоду на їх використання у будь-який час натиснувши на «Налаштування cookie-файлів».