Hunyuan Video - новый опенсорс 13B видео генератор от Tencent Качество офигенное, даже для 13B модели

Hunyuan Video - новый опенсорс 13B видео генератор от Tencent Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса. Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps. По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame’а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени. Сама модель очень похожа га Flux, где сначала идут two-stream блоки как в SD3 , где картиночные и текстовые токены обрабатываются параллельно, а затем идёт сермя обычныз DiT блоков. В качестве текстового энкодера используют Clip и Multimodal LLM ( llava-llama-3-8b ) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment. Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён. Статья занятная, стоит прочитать в деталях. Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10. Демка (нужен китайский номер) Веса Пейпер
Back to Top