Инструменты искусственного интеллекта для кодирования переходят в новое качество: терминал

16.07.25

0

863

0

На протяжении многих лет инструменты редактирования кода, такие как Cursor, Windsurf и Copilot от GitHub, были стандартом для разработки программного обеспечения на базе искусственного интеллекта. Но поскольку агентский ИИ становится все более мощным, произошел небольшой сдвиг во взаимодействии систем ИИ с программным обеспечением.

Вместо работы над кодом, они все чаще взаимодействуют напрямую с оболочкой любой системы, в которой они установлены. Это существенное изменение в том, как происходит разработка программного обеспечения на основе искусственного интеллекта, это может иметь значительные последствия для дальнейшего развития этой отрасли.

Терминал наиболее известен как черно-белый экран, который вы помните из хакерских фильмов 90-х годов — очень старомодный способ запуска программ и манипулирования данными. Он не так визуально впечатляет, как современные редакторы кода, но это чрезвычайно мощный интерфейс, если вы знаете, как им пользоваться. И хотя агенты на основе кода могут писать и отлаживать код, инструменты терминала часто нужны, чтобы превратить программное обеспечение из письменного кода в нечто реально используемое.

Инструменты искусственного интеллекта для кодирования
Image Credits: Pixabay

Наиболее ярким признаком перехода на терминал стал запуск в феврале Anthropic, DeepMind и OpenAI новых инструментов командной строки (Claude Code, Gemini CLI и CLI Codex соответственно), и они уже являются одними из самых популярных продуктов компаний.

Этот сдвиг было легко не заметить, поскольку они в основном работают под тем же брендом, что и предыдущие инструменты кодирования. Но под капотом произошли реальные изменения во взаимодействии агентов с другими компьютерами, как онлайн, так и офлайн.

«Мы надеемся, что в будущем 95% взаимодействия между LLM и компьютером будет происходить через терминальный интерфейс», — говорит Майк Меррилл, соучредитель ведущего терминально-ориентированного бенчмарка Terminal-Bench .

Чтобы понять, чем отличается новый подход, может быть полезно взглянуть на бенчмарки, используемые для их измерения. Поколение инструментов на основе кода было сосредоточено на решении проблем GitHub, что является основой теста SWE-Bench. Каждая проблема в SWE-Bench является, по сути, фрагментом кода, который не работает.

Модели начинают с сломанного кода и превращают его в рабочий код.

Терминальные инструменты имеют более широкий взгляд, рассматривая не только код, но и всю среду, в которой работает программа. Это включает кодирование, а также задачи, более ориентированные на DevOps, такие как настройка Git-сервера или устранение неисправностей, почему скрипт не запускается.

«TerminalBench усложняется не только вопросами, которые мы задаем агентам», — говорит соучредитель Terminal-Bench Алекс Шоу. «Это среда, в которую мы их помещаем».

Самое главное, что этот новый подход означает пошаговое решение проблемы — тот самый навык, который делает агентский ИИ таким мощным. Но даже самые современные агентские модели не могут справиться со всеми этими средами. Warp получил свой высокий балл в Terminal-Bench, решив чуть больше половины проблем — это признак того, насколько сложен бенчмарк и сколько работы еще нужно проделать, чтобы раскрыть весь потенциал терминала.

Оставить комментарий

Актуальное

Как быть уверенным: 8 подтвержденных данными способов преодолеть синдром самозванца

Бизнес

Как быть уверенным: 8 подтвержденных данными способов преодолеть синдром самозванца

Бизнес

Независимо от того, хотите ли вы преодолеть низкую уверенность ради общего чувства благополучия или ради чего-то конкретного, например, успешно пройти...

29.08.25

506

0
Почти проваленные стартапы: чему можно научиться у стартапов, которые, несмотря ни на что, достигли успеха

Бизнес

Почти проваленные стартапы: чему можно научиться у стартапов, которые, несмотря ни на что, достигли успеха

Стартапы

В мире предпринимателей есть поговорка примерно такого содержания: «День, когда я бросаю бизнес, — это день до того, как я достигну успеха». Хотя нево...

26.08.25

669

0
Бум искусственного интеллекта, как ожидается, будет движущей силой прибыльности развивающихся рынков в течение следующего десятилетия

Инвестиции

Бум искусственного интеллекта, как ожидается, будет движущей силой прибыльности развивающихся рынков в течение следующего десятилетия

Инвестиции

Фонды развивающихся рынков ориентируются на то, чтобы захватить бум искусственного интеллекта, и некоторые инвесторы прогнозируют, что стремительный р...

18.08.25

743

0
Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована

Популярные статьи

Для еліти будують бункер вартістю 300 мільйонів доларів

Бизнес

Для еліти будують бункер вартістю 300 мільйонів доларів

Недвижимость

В 2026 году планируется открытие роскошного бункера «судного дня», предназначенного только для членов, с бассейнами, охраной здоровья на основе искусс...

25.01.25

45 324

0
Гранты для поддержки идей и бизнеса 2024

Гранты для поддержки идей и бизнеса 2024

В Украине можно получить грант на бизнес или реализацию идеи. Война не остановит рост экономики и прогресс в развитии нашей страны. Рассказываем об ук...

15.01.24

8 727

2
10 главных финтех-инноваций, которые вы должны знать

Инновации

10 главных финтех-инноваций, которые вы должны знать

Fintech

Финансовые технологии или финтех — это больше, чем просто модное слово в мире финансовых услуг. Пользователи, а также предприятия догоняют тенденции в...

12.10.23

6 960

1
Макдональдс: Гамбургеры на первом плане, но недвижимость - основа дохода

Макдональдс: Гамбургеры на первом плане, но недвижимость - основа дохода

Знали ли вы, что крупнейшая сеть заведений быстрого питания, "Макдональдс", на самом деле получает большую часть своих доходов от недвижимости? За вит...

08.11.23

6 490

1
Google говорит, что его новый квантовый чип указывает на существование нескольких вселенных

Инновации

Google говорит, что его новый квантовый чип указывает на существование нескольких вселенных

Инновации

Google в понедельник анонсировала Willow, свой последний, самый лучший квантовый вычислительный чип. Заявления Google по этому чипу о скорости и надеж...

11.12.24

6 432

1

 

Опрос
В какой соцсети вы проводите больше всего времени?
Facebook
12% (45)
Instagram
6% (22)
TikTok
9% (33)
Telegram
22% (85)
Youtube
35% (132)
Twitter
1% (5)
А что это?
15% (57)
Оставить комментарий

Нажав «Принять все cookie-файлы», вы соглашаетесь на размещение всех cookie-файлов на вашем устройстве. Вы можете изменять настройки cookie-файлов или отозвать ваше согласие на их использование в любое время, нажав на «Настройки cookie-файлов».