На конференции Baidu World 2025 компания Baidu представила ERNIE 5.0 — нативно мультимодальную модель, которая с нуля обучалась работать сразу с текстом, изображениями, аудио и видео/strong>.
По заявлениям компании, модель стала заметно сильнее в понимании контекста, следовании инструкциям, креативном письме и мультимодальном анализе. Postium выделил главное.
Читайте также: Лучшие чат-боты на базе ИИ
Что нового в ERNIE 5.0
Baidu говорит, что ERNIE 5.0 делает шаг к «единым» ИИ-моделям, которым не нужны отдельные модули для каждого типа данных. Это важно для задач вроде анализа документов, чтения диаграмм, распознавания мелкого текста на изображениях и генерации мультимедийного контента.
Внутренние тесты компании ставят ERNIE 5.0 примерно на один уровень с Google Gemini 2.5 Pro и OpenAI GPT-5-High.
Возможности ERNIE 5.0:
- Нативная мультимодальность. Модель работает с текстом, фото, аудио и видео. Это сокращает количество «прослоек» между ними и улучшает качество анализа.
- Упор на логику и связность. По данным китайских медиа, модель получила 2,4 трлн параметров и улучшенные механизмы рассуждений — лучше память, последовательность и точность.
- Режим «мышления по изображению». ERNIE 5.0 может зумиться в нужные фрагменты картинки, читать мелкие элементы и сочетать визуальный анализ с поиском. Это нужно для работы с диаграммами, документами и редкими фактами.
- Экосистема над моделью. ERNIE 5.0 становится ядром целой линейки продуктов Baidu: виртуальные ведущие и консультанты, no-code-конструктор Miaoda, агенты GenFlow и новый Famou, рабочее пространство Oreate и сервис MeDo.
Доступность: Модель уже представлена и используется в обновлённом Ernie Bot 5.0 и сервисах Baidu Cloud. Доступность на международных рынках пока не раскрывается — Baidu ограничилась обещанием вывести часть продуктов за пределы Китая.
Почему это важно? Для индустрии ИИ это показатель, что китайские компании переходят от догоняющей стратегии к конкурентной наравне с глобальными игроками. Baidu делает ставку на собственную вертикаль: свои модели, свои чипы (M100 и M300), свои суперузлы. Это снижает зависимость от NVIDIA и укрепляет позицию компании на внутреннем рынке.
Линейка ERNIE развивается с 2019 года. В 2023-м Baidu показала ERNIE Bot — китайский аналог ChatGPT, а затем ERNIE 4.0, который по заявлениям компании сопоставим с GPT-4.
В 2024–2025 годах Baidu активно обновляла линейку, снизила цены и сделала Ernie Bot бесплатным, чтобы конкурировать с китайскими игроками вроде DeepSeek. ERNIE 5.0 — логичное продолжение этой стратегии: крупная мультимодальная модель, заточенная под широкий спектр задач — от личных агентов до корпоративных ИИ-систем.
Итог: ERNIE 5.0 делает упор на глубокий мультимодальный анализ. Она не просто понимает текст, но и умеет «думать по картинкам»: читать мелкие детали, разбирать схемы, анализировать видео. По уровню Baidu ставит её в один ряд с GPT-5 и Gemini. Модель станет основой для агентов и сервисов Baidu на внутреннем рынке, но может появится и на зарубежных.
Ранее OpenAI показала обновлённую флагманскую модель GPT-5.1.




