AI

OpenAI выпустила GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper — новые голосовые нейросети

показала три модели для голосовых интерфейсов и -агентов: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Первая отвечает за живой голосовой диалог с ризонингом уровня GPT-5, вторая — за синхронный перевод речи, третья — за потоковую транскрипцию с низкой задержкой.

Все модели работают через Realtime API. GPT-Realtime-2 стоит $32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных. Cached input — $0,40 за 1 млн токенов. GPT-Realtime-Translate оценивается в $0,034 за минуту, GPT-Realtime-Whisper — в $0,017 за минуту. Детали в материале Postium.

Читайте также: 6 нейросетей для озвучки текста голосом

Что умеет GPT-Realtime-2 и как работает

GPT-Realtime-2 — новая флагманская модель OpenAI для голосовых агентов. В отличие от прошлых realtime-моделей, она не только быстро отвечает голосом, но и рассуждает в процессе, держит длинный и параллельно работает с инструментами.

Модель может проговаривать промежуточные действия. Вместо молчания во время обработки она говорит «секунду, проверяю» или «смотрю календарь». Это важно для сценариев, где агент вызывает внешние сервисы и ответ занимает время.

Появились параллельные tool calls: модель может одновременно искать информацию, проверять календарь, обращаться к CRM и другим сервисам и озвучивать действия по ходу работы.

OpenAI отдельно акцентирует graceful recovery. Если инструмент сломался или запрос не удалось обработать, модель сообщает об этом голосом, а не зависает в тишине.

Контекстное окно выросло с 32K до 128K токенов. В голосовых сценариях это позволяет удерживать длинный диалог, историю обращений и контекст встречи без агрессивной обрезки. Разработчики получили управление уровнем ризонинга: minimal, low, medium, high и xhigh. По умолчанию — low, чтобы удержать баланс между качеством ответа и задержкой.

Компания заявляет, что модель лучше работает со специализированной терминологией, именами собственными и медицинскими терминами. Для голосовых интерфейсов это критично: ошибки в названиях, фамилиях или препаратах быстро подрывают доверие.

Тон ответа можно задавать отдельно: например, спокойный — для решения проблемы, более эмпатичный — если пользователь раздражён.

На бенчмарке Big Bench Audio GPT-Realtime-2 в режиме high набрала 96,6% против 81,4% у GPT-Realtime-1.5. На Audio MultiChallenge для instruction following — 48,5% против 34,7% у прошлой версии в режиме xhigh.

OpenAI также приводит Zillow: после оптимизации промптов под новую модель успешность звонков на внутреннем бенчмарке выросла с 69% до 95%.

GPT-Realtime-Translate отвечает за синхронный speech-to-speech перевод. Модель принимает более 70 языков на входе и переводит в 13 языков на выходе, включая русский, английский, испанский, французский, немецкий, китайский, японский и корейский.

GPT-Realtime-Whisper — отдельная модель для потоковой транскрипции. Текст появляется прямо во время речи, без ожидания конца фразы или аудиофайла. OpenAI продвигает её для live-субтитров, заметок во время встреч, трансляций и голосовых агентов с непрерывным пониманием пользователя.

Почему это важно? Голосовые модели начали вести себя как агенты: объясняют задержки, не теряются при ошибках, держат длинный контекст и параллельно работают с инструментами.

Это особенно важно для поддержки, продаж, бронирований, медицины и внутренних корпоративных сценариев, где голосовой интерфейс должен не просто отвечать, а выполнять действия во время разговора.

OpenAI также пытается решить старую проблему голосовых AI-систем — ощущение «пустоты» во время ожидания ответа. Preambles и озвучка действий делают поведение агента более предсказуемым, особенно в длинных цепочках запросов.

Realtime API OpenAI развивает с конца 2024 года. Компания постепенно движется от классического voice mode к realtime-агентам, которые работают с инструментами, памятью и внешними сервисами прямо во время разговора.

На фоне рынка это ещё и попытка закрепиться в инфраструктуре голосовых AI-продуктов. За этот сегмент борются OpenAI, , ElevenLabs, Anthropic и несколько стартапов. OpenAI делает ставку на связку «голос + агент + инструменты», а не только на качество синтеза речи или скорость транскрипции.

Итог: OpenAI собрала в Realtime API полноценный стек для голосовых продуктов: разговорный агент с ризонингом, синхронный speech-to-speech перевод и потоковую транскрипцию в реальном времени.

Источник

Добавить комментарий

Кнопка «Наверх»