Allegro : открытая text-to-video модель генерации видео в 720p. Allegro - модель от Rhymes AI для генерации видео по текстовому
Allegro : открытая text-to-video модель генерации видео в 720p.
Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены.
Allegro основана на трех ключевых технологиях:
Обработка больших объемов видеоданных.
Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями.
Сжатие видео в визуальные токены.
В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16.
Масштабируемая архитектура Diffusion Transformer.
Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32.
Для локального запуска потребуются : Python >= , PyTorch >= 2.4, CUDA >= 12.4
Интерполяция до 30 FPS возможна с помощью EMA-VFI .
С использованием параметра —enable_cpu_offload, инференс возможен на VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM.
Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания.
Параметры инференса в CLI:
python
--user_prompt ’%prompt%’
--save_path ’%full path for output file%’
--vae ’%path to VAE’
--dit ’%path to DiT%’
--text_encoder ’%path to text encoder%’
--tokenizer ’%path to text tokenizer%’
--guidance_scale 7.5
--num_sampling_steps 100
--seed 42
Лицензирование: Apache 2.0 license.
Страница проекта
Модель
Arxiv
Сообщество в Discord
Demo
GitHub
5 views
11
3
2 days ago 01:42:23 1
Krystian Zimerman - Chopin & Schubert
2 days ago 00:32:00 9
Grieg - Piano concerto - Gilels / Amsterdam / Jochum
3 weeks ago 01:55:44 5
Классика. Петр Ильич Чайковский. Лучшее
1 month ago 00:23:08 17
Francis Poulenc - Cello Sonata [With score]
1 month ago 00:02:46 1
Stacja lutownicza ♨️ TOUCHBGA GM490 z kamerą inspekcyjną i ekranem LCD 5,45kW | EN /CZ SUB
1 month ago 00:02:09 1
Stacja lutownicza 𝗕𝗚𝗔 WISDOMSHOW 𝗪𝗗𝗦-𝟱𝟮𝟬 | ☑ᥧ
1 month ago 00:02:31 1
✅ MECHANIC 861DW MAX+ ♨️ Hot-Air 1000W z kolorowym ekranem LCD | EN /CZ SUB
1 month ago 00:02:31 1
☑️ Stacja lutownicza hot-air SUGON 8610D+ 👉 Moc: 1000W, 4 dysze w zestawie ❗️ | EN /CZ SUB