Allegro : открытая text-to-video модель генерации видео в 720p. Allegro - модель от Rhymes AI для генерации видео по текстовому

Allegro : открытая text-to-video модель генерации видео в 720p. Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены. Allegro основана на трех ключевых технологиях: Обработка больших объемов видеоданных. Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями. Сжатие видео в визуальные токены. В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16. Масштабируемая архитектура Diffusion Transformer. Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32. Для локального запуска потребуются : Python >= , PyTorch >= 2.4, CUDA >= 12.4 Интерполяция до 30 FPS возможна с помощью EMA-VFI . С использованием параметра —enable_cpu_offload, инференс возможен на VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM. Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания. Параметры инференса в CLI: python --user_prompt ’%prompt%’ --save_path ’%full path for output file%’ --vae ’%path to VAE’ --dit ’%path to DiT%’ --text_encoder ’%path to text encoder%’ --tokenizer ’%path to text tokenizer%’ --guidance_scale 7.5 --num_sampling_steps 100 --seed 42 Лицензирование: Apache 2.0 license. Страница проекта Модель Arxiv Сообщество в Discord Demo GitHub
Back to Top