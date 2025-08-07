OpenAI 7 августа объявила о запуске своей новой ИИ-модели GPT-5, которая станет доступна всем пользователям ChatGPT и разработчикам. Что известно о новой версии GPT, чем она лучше прошлой?

Что известно о GPT-5, чем она лучше GPT-4

Разработчики сообщили, что в GPT-5 все предыдущие разработки объединены в единую адаптивную архитектуру. Такая конструкция позволяет системе адаптировать «мыслительные усилия» к сложности каждой задачи, чтобы получать более надежные и точные ответы. Сегодня GPT-5 становится доступен для всех пользователей Plus, Pro, Team и даже для тех, кто пользуется бесплатной версией. Для клиентов Enterprise и Edu доступ откроется на следующей неделе.

OpenAI утверждает, что GPT-5 представляет собой целую систему. Для большинства запросов используется быстрая и эффективная GPT-5-main. Более сложные задачи решает GPT-5-thinking. Алгоритм в реальном времени выбирает, какую модель применить в зависимости от сложности вопроса, контекста разговора или подсказок пользователя, например «подумай об этом как следует». Алгоритм постоянно улучшается благодаря обратной связи от пользователей.

Пользователи Pro-версии получат доступ к GPT-5 Pro — версии, которая тратит больше времени на обдумывание сложных вопросов. В тестах эксперты в 67,8% сложных случаев отдавали предпочтение GPT-5 Pro, а не GPT-5-thinking.

Будет ли GPT-5 лучше в работе, чем прошлые версии

OpenAI указывает, что GPT-5 устанавливает новые стандарты в программировании, здравоохранении и писательском мастерстве. В задачах на программирование модель должна отлично справляться с созданием сложных интерфейсов и отладкой больших кодовых баз, и, по данным компании, GPT-5 достигает 74,9% на SWE-bench Verified и 88% на Aider Polyglot, снижая количество ошибок на 2/3 по сравнению с o3.

Модель также будет давать более точные ответы на вопросы, связанные со здоровьем, выступая в роли «активного собеседника», который задает уточняющие вопросы. В сложном тесте HealthBench Hard модель GPT-5 набрала 46,2% баллов по сравнению с 31,6% у o3, хотя OpenAI подчеркивает, что GPT-5 не заменит доктора. Другие тесты показывают аналогичные результаты, в том числе 94,6% на AIME 2025 (математика, без инструментов) и 84,2% на MMMU (мультимодальное понимание). Также GPT-5 Pro набирает 88,4% на тесте GPQA, где нужно ответить на очень сложные научные вопросы.

Опасна ли GPT-5, часто ли она ошибается

Модель разработана таким образом, чтобы честно признавать свои ограничения. В одном из тестов моделям задавали вопросы о несуществующих изображениях из бенчмарка CharXiv. По данным OpenAI, o3 в 86,7% случаев давала уверенные, выдуманные ответы, в то время как GPT-5 делала это только в 9% случаев. В целом доля ложных ответов в диалогах снизилась с 4,8% у o3 до 2,1% у GPT-5.

В GPT-5 появилась система безопасности Safe Completions, которая отказывается от бинарной логики «разрешено/запрещено» в ответах. Теперь система не откажется отвечать на запрос, но результат будет безопасным и полезным в сценариях dual-use (например, в биологии, кибербезопасности и химии). OpenAI посчитала старый метод «жесткого отказа» слишком категоричным в сложных и неоднозначных темах.

По данным OpenAI, эксперты сочли этот подход более полезным и сбалансированным. Модель GPT-5-thinking получила оценку «высокая производительность» в биологии и химии по итогам тестирования

Кроме того, в API добавлены несколько новых функций и разработчики смогут настраивать сложность рассуждений модели. Custom Tools можно вызывать с помощью обычного текста, а не строгой команды, что должно уменьшить количество ошибок при работе со сложными входными данными. API предлагает три размера моделей: GPT-5, GPT-5-mini и GPT-5-nano. OpenAI утверждает, что GPT-5 — это самый мощный вариант «мышления», стоимость которого начинается от 1,25 доллара за миллион входных токенов и 10 долларов за миллион выходных токенов.

Сам ChatGPT претерпевает некоторые изменения: модель стала менее «подхалимской» — по данным OpenAI, такое поведение сократилось с 14,5% до менее чем 6% во время тестов. Пользователи смогут настраивать внешний вид чатов и в качестве предварительной версии выбирать одну из четырех предустановленных модальностей общения, таких как «Циник» или «Ботаник».

