Meta AI* объявила о запуске Omnilingual ASR — новой системы автоматического распознавания речи, которая работает сразу с 1 600 языками/strong>.
Впервые в истории ИИ в одном проекте объединили такое количество языков, включая около 500 редких, для которых раньше не существовало качественных систем транскрибации. Postium собрал детали.
Читайте также: Нейросети для озвучивания текста голосом
Что умеет Omnilingual ASR и как ей пользоваться?
Omnilingual ASR способна превращать речь в текст огромного количества языков — от английского и русского до диалектов, которые редко встречаются в интернете. При этом она показывает высокую точность: в тестах для 78% языков ошибка распознавания составила менее 10 символов на 100 — это уровень современных коммерческих систем для популярных языков.
В основе технологии — обновлённая версия модели wav2vec 2.0, увеличенная до 7 миллиардов параметров. Это своего рода «мозг», который умеет понимать звуковые паттерны и различать языки без заранее размеченных данных.
Как это работает
Meta* разработала два типа декодеров — модулей, которые превращают звуковой сигнал в текст:
- CTC-декодер — лёгкий и быстрый, подходит для простых задач и слабых устройств;
- LLM-ASR-декодер — использует принципы больших языковых моделей (LLM), поэтому лучше справляется со сложными языками и длинными записями.
Эта архитектура позволила не только улучшить качество распознавания, но и впервые добавить функцию «обучения на примерах». Теперь, если система не знает язык, её можно «научить» — достаточно нескольких записей речи с расшифровками. То есть любой носитель может помочь добавить свой язык — без громоздких датасетов и сложного обучения.
Статья в тему: Что такое токены и окно контекста в нейросетях
Открытая база
Одновременно Meta* выпустила Omnilingual ASR Corpus — крупнейшую в мире базу записей речи и транскрипций примерно на 350 малоресурсных языках. Эти данные собирались совместно с носителями языка, лингвистами и организациями вроде Mozilla Common Voice и Lanfrica/NaijaVoices.
Корпус открыт под лицензией CC-BY, а модели — под Apache 2.0, что означает, что их можно свободно использовать и адаптировать под свои проекты — от голосовых интерфейсов до инструментов по сохранению исчезающих языков.
Почему это важно?
Большинство современных систем распознавания речи хорошо работают только с языками, на которых в сети много контента — английский, китайский, испанский. В итоге миллионы людей, говорящих на региональных языках, выпадают из цифрового пространства: они не могут использовать голосовой ввод, автосубтитры или голосовых ассистентов на своём языке.
Omnilingual ASR призвана исправить этот дисбаланс. Она делает технологии речи доступными для всех — независимо от того, насколько распространён их язык.
Meta* выложила демо Omnilingual ASR в открытый доступ, можно посмотреть, какие языки уже поддерживаются и как система справляется с разными акцентами.Все модели, данные и инструкции доступны на GitHub и Hugging Face.
Если сравнивать с другими подобными решениями, то Omnilingual ASR от Meta* — самая масштабная система распознавания речи на сегодня: 1 600+ языков против десятков у Whisper, Google и Microsoft, и около десятка у Alibaba Qwen3-ASR. Плюс, её можно научить новому языку по нескольким примерам, чего пока не умеет ни одно другое решение.
Ранее Freepik запустил функцию «Camera Angles», которая позволяет менять ракурс на фото.
*Meta признана в России экстремистской организацией и запрещена.




