AI

Meta* представила Omnilingual ASR — нейросеть, которая распознаёт речь на 1 600+ языках

Meta* представила Omnilingual ASR — нейросеть, которая распознаёт речь на 1 600+ языках

Meta AI* объявила о запуске Omnilingual ASR — новой системы автоматического распознавания речи, которая работает сразу с 1 600 языками/strong>.

Впервые в истории в одном проекте объединили такое количество языков, включая около 500 редких, для которых раньше не существовало качественных систем транскрибации. Postium собрал детали.

Читайте также: Нейросети для озвучивания текста голосом

Что умеет Omnilingual ASR и как ей пользоваться?

Omnilingual ASR способна превращать речь в текст огромного количества языков — от английского и русского до диалектов, которые редко встречаются в интернете. При этом она показывает высокую точность: в тестах для 78% языков ошибка распознавания составила менее 10 символов на 100 — это уровень современных коммерческих систем для популярных языков.

В основе технологии — обновлённая версия модели wav2vec 2.0, увеличенная до 7 миллиардов параметров. Это своего рода «мозг», который умеет понимать звуковые паттерны и различать языки без заранее размеченных данных.

Как это работает

Meta* разработала два типа декодеров — модулей, которые превращают звуковой сигнал в текст:

  • CTC-декодер — лёгкий и быстрый, подходит для простых задач и слабых устройств;
  • LLM-ASR-декодер — использует принципы больших языковых моделей (LLM), поэтому лучше справляется со сложными языками и длинными записями.

Meta* представила Omnilingual ASR — нейросеть, которая распознаёт речь на 1 600+ языках

Meta* представила Omnilingual ASR — нейросеть, которая распознаёт речь на 1 600+ языках

Эта архитектура позволила не только улучшить качество распознавания, но и впервые добавить функцию «обучения на примерах». Теперь, если система не знает язык, её можно «научить» — достаточно нескольких записей речи с расшифровками. То есть любой носитель может помочь добавить свой язык — без громоздких датасетов и сложного обучения.

Статья в тему: Что такое токены и окно а в нейросетях

Открытая база

Одновременно Meta* выпустила Omnilingual ASR Corpus — крупнейшую в мире базу записей речи и транскрипций примерно на 350 малоресурсных языках. Эти данные собирались совместно с носителями языка, лингвистами и организациями вроде Mozilla Common Voice и Lanfrica/NaijaVoices.

Корпус открыт под лицензией CC-BY, а модели — под Apache 2.0, что означает, что их можно свободно использовать и адаптировать под свои проекты — от голосовых интерфейсов до инструментов по сохранению исчезающих языков.

Почему это важно?

Большинство современных систем распознавания речи хорошо работают только с языками, на которых в сети много контента — английский, китайский, испанский. В итоге миллионы людей, говорящих на региональных языках, выпадают из цифрового пространства: они не могут использовать голосовой ввод, автосубтитры или голосовых ассистентов на своём языке.

Omnilingual ASR призвана исправить этот дисбаланс. Она делает технологии речи доступными для всех — независимо от того, насколько распространён их язык.

Meta* выложила демо Omnilingual ASR в открытый доступ, можно посмотреть, какие языки уже поддерживаются и как система справляется с разными акцентами.Все модели, данные и инструкции доступны на GitHub и Hugging Face.

Если сравнивать с другими подобными решениями, то Omnilingual ASR от Meta* — самая масштабная система распознавания речи на сегодня: 1 600+ языков против десятков у Whisper, и Microsoft, и около десятка у Alibaba Qwen3-ASR. Плюс, её можно научить новому языку по нескольким примерам, чего пока не умеет ни одно другое решение.

Ранее Freepik запустил функцию «Camera Angles», которая позволяет менять ракурс на фото.

*Meta признана в России экстремистской организацией и запрещена.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

8 + тринадцать =

Кнопка «Наверх»