Новые модели ИИ OpenAI GPT-4.1 сосредоточены на кодировании

15.04.25

0

1 907

0

GPT-4.1, GPT-4.1 mini и GPT-4.1 nano, все из которых OpenAI говорит «отлично» в кодировании и последующих инструкциях. Мультимодальные модели, доступные через API OpenAI, но не через ChatGPT, имеют окно контекста в 1 миллион токенов, что означает, что они могут принимать примерно 750 000 слов за один раз.

GPT-4.1 появляется, когда конкуренты OpenAI, такие как Google и Anthropic, активизируют усилия по созданию сложных моделей программирования.

Недавно выпущенный Google Gemini 2.5 Pro, который также имеет контекстное окно в 1 миллион токенов, занимает высокие позиции в популярных тестах кодирования, пишет TechCrunch.  Так же как Claude 3.7 Sonnet от Anthropic и обновленный V3 китайского стартапа DeepSeek с искусственным интеллектом.

Целью многих технологических гигантов, включая OpenAI, является обучение моделей кодирования ИИ, способных выполнять сложные задачи разработки программного обеспечения. Большие амбиции OpenAI — создать «агентного программного инженера», как сказала финансовый директор Сара Фриар во время технического саммита в Лондоне в прошлом месяце. Компания утверждает, что ее будущие модели смогут сквозно программировать целые приложения, руководствуясь такими аспектами, как обеспечение качества, тестирование ошибок и написание документации.

GPT-4.1 является шагом в этом направлении.

OpenAI
OpenAI

«Мы оптимизировали GPT-4.1 для использования в реальном мире на основе прямой обратной связи, чтобы улучшить те сферы, которые больше всего интересуют разработчиков: интерфейсное кодирование, внесение меньшего количества сторонних правок, надежное соблюдение форматов, соблюдение структуры ответов и порядка, согласованное использование инструментов и т.д.», — представитель OpenAI. «Эти усовершенствования позволяют разработчикам создавать агенты, которые значительно лучше справляются с реальными задачами разработки программного обеспечения».

OpenAI утверждает, что полная модель GPT-4.1 превосходит свои модели GPT-4o и GPT-4o mini по тестам кодирования, включая SWE-bench. Говорят, что GPT-4.1 mini и nano являются более эффективными и более быстрыми за счет определенной точности, а OpenAI говорит, что GPT-4.1 nano является самой быстрой — и самой дешевой — моделью в истории.

GPT-4.1 стоит 2 доллара США за миллион входных токенов и 8 долларов США за миллион выходных токенов. GPT-4.1 mini составляет 0,40 долларов США/миллион входных токенов и 1,60 долларов США/миллион выходных токенов, а GPT-4.1 nano — 0,10 долларов США/миллион входных токенов и 0,40 долларов США/миллион выходных токенов.

Согласно внутреннему тестированию OpenAI, GPT-4.1, который может генерировать больше токенов одновременно, чем GPT-4o (32 768 против 16 384), набрал от 52% до 54,6% на SWE-bench Verified, проверенном человеком подмножестве SWE-bench. (OpenAI отметил в заметке в блоге, что некоторые решения проблем SWE-bench Verified не могут работать на его инфраструктуре, следовательно, диапазон баллов). Эти цифры немного ниже показателей, сообщенных Google и Anthropic для Gemini 2.5 Pro (63,8%) и Claude 3.7 Sonnet (62,3%), соответственно, по тому же тесту.

Оставить комментарий

Актуальное

Новый отчет показывает, что приложения на базе искусственного интеллекта испытывают проблемы с долгосрочным удержанием подписчиков

Аналитика

Новый отчет показывает, что приложения на базе искусственного интеллекта испытывают проблемы с долгосрочным удержанием подписчиков

Аналитика

Учитывая, что ведущие магазины приложений переполнены приложениями с искусственным интеллектом, разработчики могут полагать, что лучший способ получен...

19.03.26

584

0
Как распознать подлинную сущность: стратегия проверки окружения и бизнес-партнеров

Бизнес

Как распознать подлинную сущность: стратегия проверки окружения и бизнес-партнеров

Бизнес

Личный шарм — главный инструмент манипулятора. Профессиональные мошенники всегда выглядят безупречно, ведь их доход напрямую зависит от умения нравить...

18.03.26

560

0
Почему брендинг является одной из самых умных ранних инвестиций для нового бизнеса

Бизнес

Почему брендинг является одной из самых умных ранних инвестиций для нового бизнеса

Бизнес

Начало бизнеса — это увлекательное сочетание видения, настойчивости и тысячи решений. Вы думаете о том, что продавать, как устанавливать цены, где про...

16.03.26

787

0
Подпишитесь на нас

Раз в неделю мы будем отправлять Вам самые интересные новости недели

Конфиденциальность гарантирована

Популярные статьи

10 главных финтех-инноваций, которые вы должны знать

Инновации

10 главных финтех-инноваций, которые вы должны знать

Fintech

Финансовые технологии или финтех — это больше, чем просто модное слово в мире финансовых услуг. Пользователи, а также предприятия догоняют тенденции в...

12.10.23

9 565

1
Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Искусственный интеллект может просматривать ваши электронные письма и обнаруживать, что у вас роман

Инновации

Во время тестирования своей последней модели искусственного интеллекта исследователи из Anthropic обнаружили нечто очень странное: искусственный интел...

26.05.25

6 113

0
Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Инновации

Anthropic запускает новую модель ИИ, которая «думает» столько, сколько вы хотите

Инновации

Anthropic выпускает новую передовую модель искусственного интеллекта под названием Claude 3.7 Sonnet, которую компания разработала так, чтобы она «дум...

24.02.25

5 409

0
Обзор передовых моделей AI: какие модели изменят мир и как их использовать

Обзор

Обзор передовых моделей AI: какие модели изменят мир и как их использовать

Инновации

Модели ИИ разрабатываются с головокружительной скоростью всеми, от крупных технологических компаний вроде Google до стартапов вроде OpenAI и Anthropic...

18.02.25

5 179

0
Что известно о стартапе DeepSeek, который потряс мир технологий?

Инновации

Что известно о стартапе DeepSeek, который потряс мир технологий?

Стартапы

Удивительно эффективная и мощная китайская модель ИИ захватила технологическую отрасль штурмом. Он называется DeepSeek R1 и раздражает нервы на Уолл-с...

28.01.25

4 791

0

 

Опрос
В какой соцсети вы проводите больше всего времени?
Facebook
12% (48)
Instagram
6% (24)
TikTok
8% (34)
Telegram
21% (89)
Youtube
36% (150)
Twitter
1% (5)
А что это?
16% (65)
Оставить комментарий

Нажав «Принять все cookie-файлы», вы соглашаетесь на размещение всех cookie-файлов на вашем устройстве. Вы можете изменять настройки cookie-файлов или отозвать ваше согласие на их использование в любое время, нажав на «Настройки cookie-файлов».