Команда LongCat из Meituan представила новую открытую видеомодель LongCat-Video — мощную архитектуру с 13,6 млрд параметров, которая умеет генерировать видео из текста, изображений и продолжать уже существующие ролики.
Главная особенность — генерация длинных видео/strong>. LongCat-Video способна создавать многоминутные ролики 720p/30fps, сохраняя связность сцен, цветовую стабильность и детализацию — без деградации, которая обычно появляется при длинной генерации. Postium собрал ключевые детали.
Читайте также: 5 нейросетей для генерации видео бесплатно
Что умеет нейросеть LongCat-Video
LongCat-Video — это единая архитектура, совмещающая три задачи:
- Text-to-Video — создание роликов на основе текстового описания.
- Image-to-Video — «оживление» статичных изображений.
- Video-Continuation — продолжение видео, включая интерактивное продление по новым промптам.
Раньше такие задачи решались разными моделями, но здесь они объединены в одну — что упрощает использование и делает результат более цельным.
Как работает ИИ-модель LongCat-Video
- Архитектура DiT (Diffusion Transformer). Модель построена на плотной (dense) архитектуре без «смеси экспертов» (MoE). Это делает её стабильнее и предсказуемее при длинной генерации.
- Обучение на продолжении видео. В отличие от многих конкурентов, LongCat-Video изначально обучалась на задачах Video Continuation. Благодаря этому она уверенно справляется с длинными роликами — не теряя связность кадров, не «дрейфуя» по цвету и не размывая детали.
- Быстрая генерация. Используется Coarse-to-Fine pipeline — сначала грубая версия видео, затем уточнение деталей. Плюс Block Sparse Attention, оптимизирующий память и ускоряющий инференс на высоком разрешении. Результат — 189 кадров 720p за 142 секунды на GPU H800 (примерно 16 шагов диффузии с Flash Attention 3).
- Повышение качества через RLHF. Обучение шло с подкреплением по методу GRPO (Generalized Rank Preference Optimization) — тому же, что использовался в BLIP3o-NEXT. Это форма RLHF, которая помогает модели выбирать визуально более реалистичные и «человеческие» результаты.
Почему это важно? LongCat-Video приближает открытые модели к уровню коммерческих генераторов вроде Runway Gen-3, Pika и Kling AI.
По качеству и стабильности она уже догоняет лидера опенсорса WAN 2.2, но выигрывает в компактности (13,6B против 28B у WAN) и универсальности — одна модель вместо трёх.
Это также важный шаг в сторону «world models» — нейросетей, способных понимать динамику окружающего мира, а не просто строить кадры по описанию. До LongCat-Video в открытом сегменте видеогенерации доминировали WAN 2.2 (от ByteDance) и VideoCrafter 2, но обе ограничены короткими клипами и требуют отдельных моделей под разные задачи.
Доступность: Модель полностью открыта и бесплатна:
- Лицензия: MIT.
- Исходный код и веса: на GitHub и Hugging Face.
- Поддержка фреймворков: PyTorch, FlashAttention 2/3, xFormers.
- Примеры использования: готовые скрипты для генерации по тексту, изображению и продолжения видео.
Итог: LongCat-Video выводит опенсорс-видеогенерацию на новый уровень — одна модель создаёт и продолжает длинные ролики без потери качества. Это шаг к «world models» — нейросетям, которые понимают динамику мира, а не просто строят кадры по описанию.
Ранее Tencent запустила нейросеть Hunyuan World 1.1 для создания 3D-сцен.



