Американский стартап Cartesia запустил Sonic-3 — новую нейросеть генерации речи из текста, способную говорить с эмоциями и реагировать в реальном времени. Модель генерирует речь всего за 0,19 секунды, поддерживает 42 языка, умеет смеяться и менять интонацию.
Одновременно Cartesia сообщила о привлечении $100 млн инвестиций от фондов Kleiner Perkins, Index Ventures, Lightspeed и NVIDIA. Компания планирует использовать средства для масштабирования Sonic-3 и развития своей архитектуры. Подробности в материале Postium.
Читайте также: 6 нейросетей для озвучки текста голосом
Нейросеть Sonic-3 — что это и что умеет
Главное отличие Sonic-3 от других ИИ-генераторов речи (text-to-speech) — в том, как она думает. Вместо привычных трансформеров, которые перед каждым словом пересчитывают весь предыдущий контекст, Sonic-3 построена на архитектуре State Space Models (SSM).
Эта технология позволяет модели помнить состояние разговора, а не «пересматривать» всё с начала. Благодаря этому Sonic-3 отвечает мгновенно, а речь звучит естественно и плавно, без механических пауз и «роботизированных» интонаций.
Ключевые особенности:
- Естественность речи. Модель добавляет смех, паузы, эмоции и даже «реакции» на интонацию собеседника.
- Скорость. Средняя латентность — 90 мс для модели и 190 мс end-to-end, что быстрее, чем у конкурентов.
- Мультиязычность. Поддержка 42 языков, включая 9 индийских — от английского и французского до хинди и бенгали.
- Контекстное восприятие. Sonic корректно читает акронимы и названия вроде NASA или UNESCO, «понимает» эмоциональный контекст и ритм диалога.
Sonic-3 также умеет клонировать голоса — создавать индивидуальные варианты звучания под бренд, диктора или персонажа. Это позволяет компаниям использовать единый «тон голоса» в поддержке, рекламе или интерфейсах.
Кроме естественности и скорости, Sonic-3 отличается масштабируемостью — она поддерживает потоковую генерацию, выдерживает миллионы одновременных запросов и может работать в продуктивных системах без потери качества.
Доступность: Sonic-3 уже доступен всем пользователям, включая Россию. Бесплатно дают 20 000 кредитов — хватит, чтобы протестировать модель и использовать её для личных проектов.
Минимальный платный план — от $5 в месяц, он открывает коммерческое использование и доступ к API. Нейросеть работает прямо в браузере и не требует установки.
Статья в тему: Как купить подписку на Suno AI в России
Как пользоваться нейросетью Sonic-3 и генерировать озвучку текста голосом
Проверить, как работает Sonic-3, можно прямо на сайте cartesia.ai/sonic — без установки и регистрации. Редакция Postium протестировала нейросеть и показывает, как всё выглядит изнутри.
Шаг 1. Зайдите на сайте и выберите пункт «Try for free» или нажмите любую кнопку входа в правом верхнем углу. Войти можно с помощью Google-аккаунта или аккаунта в GitHub.
Шаг 2. Откроется интерфейс, где можно протестировать модель. Введите текст, который нужно озвучить. В текстовом поле напишите любую фразу — от короткого приветствия до сложного диалога. Модель понимает 42 языка, поэтому можно использовать русский, английский, испанский и другие.
Шаг 3. Выберите голос. Sonic-3 предлагает несколько вариантов — мужские и женские, с разными тембрами и стилем речи.
При выборе голоса, для удобства используйте фильтр. Например, можно найти голоса для озвучки текста на русском языке и сразу же их прослушать. Также есть голоса, подходящие для ассистентов, дикторов, персонажей или эмоциональных сценариев.
Шаг 4. Настройте дополнительные параметры генерации речи. Ниже, под выбором голоса можно выбрать скорость и громкость голоса, а также задать настроение: радость, грусть, удивление, смех. Это отличает Sonic-3 от обычных TTS — эмоции синтезируются естественно, без искажений.
Шаг 5. Нажмите «Speak». Модель мгновенно сгенерирует звук и начнёт говорить. Задержка минимальная — около 0,2 секунды, речь звучит плавно, без механических пауз и «роботизированных» интонаций. Здесь же можно скачать аудиодорожку — кнопка «Download».
Вот, что получилось у нас (звучит очень круто и профессионально):
https://postium.ru/wp-content/uploads/2025/10/cartesia_audio_2025-10-29T16_33_3002_00.wav
Также на сайте также доступен раздел Playground — «песочница» для разработчиков. Там можно протестировать потоковую генерацию речи (streaming TTS), подключить API и экспортировать результат в код.
- через Playground — онлайн-интерфейс с настройками и примерами;
- с функцией Voice Cloning — для создания собственного фирменного голоса;
- в Enterprise-режиме — для корпоративных клиентов с повышенными требованиями к безопасности (SOC 2, HIPAA, PCI).
Почему это важно?
Классические системы синтеза речи — например, у ElevenLabs или OpenAI Voice Engine — основаны на трансформерах. Они анализируют всю историю разговора перед каждым новым словом, из-за чего генерация получается тяжёлой и относительно медленной.
Sonic-3 использует другую архитектуру — State Space Models (SSM). Она не пересчитывает контекст заново, а «запоминает» состояние диалога и обновляет его по мере разговора, как это делает человек. Поэтому речь звучит плавно и естественно, а ответы приходят почти мгновенно — с задержкой около 0,19 секунды, что быстрее, чем у ElevenLabs.
Такой подход особенно полезен в голосовых ассистентах, колл-центрах, медицине и сервисах бронирования, где даже небольшая пауза портит впечатление от общения.
По данным Cartesia, Sonic-3 уже используется в компаниях ServiceNow, Cresta и Decagon, где система ежемесячно обрабатывает миллионы разговоров.
Итог: По сути, Sonic-3 — это новая модель синтеза речи, которая говорит быстрее и естественнее обычных TTS-систем. Она умеет передавать эмоции и подходит для практического применения — в голосовых ассистентах, колл-центрах, сервисах поддержки или озвучке контента.









