RhymesAI объявила о запуске модели Allegro AI, которая может генерировать видео на основе текстовых описаний. Allegro может генерировать 6-секундное видео с разрешением 720p и частотой 15 кадров в секунду.
Модель превосходно справляется с созданием реалистичных и фантастических сцен: от крупных планов активности животных до причудливых сцен, таких как космонавт, едущий на лошади по пустыне. При этом данная модель использует всего 9,3 ГБ оперативной памяти, что делает ее очень компактной и эффективной при использовании на современных графических процессорах.
Allegro сочетает в себе несколько передовых технологий: обработку больших объемов видеоданных, использование специально разработанного VideoVAE для сжатия видео в визуальные маркеры и использование диффузионного преобразователя (VideoDiT) для создания видеокадров. С помощью этих методов модель может создавать реалистичные динамические видеоролики, преобразуя текстовые описания в визуальные сцены.
Ключевые особенности моделей Allegro AI:
- Открытый исходный код: доступен на GitHub под лицензией Apache 2.0.
- Возможности генерации видео: от реалистичных сцен с людьми и животными до захватывающих историй.
- высокое качество: создавайте 6-секундные видеоролики с разрешением 720p и масштабированием до 30 кадров в секунду.
- Эффективное использование ресурсов: компактная модель, требующая минимальных вычислительных мощностей для создания видео.
В будущем мы планируем добавить генерацию видео из изображений, управление движением объектов и создание более длинных видеороликов с историями. Открытый доступ к модели и исходному коду позволяет разработчикам экспериментировать с технологией и способствовать ее развитию.
Модель уже доступна для скачивания на платформе Hugging Face, а полное техническое описание можно найти в отчете команды RhymesAI на arXiv.
Ранее Pika Labs выпустила обновление модели ИИ PIKA 1.5, добавив возможность применять эффекты к объектам в видеороликах.



