Реалтаймовый нейролипсинк() Есть такая опен-сорсная библиотека wav2lip. Она основана на коде из ст
Реалтаймовый нейролипсинк(?)
Есть такая опен-сорсная библиотека wav2lip.
Она основана на коде из статьи: A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild, опубликованной на ACM Multimedia 2020.
Она перестала обновляться 3 года назад.
А пару недель назад там обновилось Readme.
Где появилась ссылка на сайт
И на YCombinator
На первом сайте сходу просят денег.
На втором висит очень плохое некачественное демо.
Губы дрожат даже когда персонажи молчат.
Ну то есть внешне это выглядит плохо: “мы когда-то написали wav2lip, бросили ее, а теперь расчехлили обратно и хотим денег, демонстрируя очень плохое качество“.
Меня зацепило слово realtime, которое они постоянно обозначают на сайте - пока реалтайма нет ни у кого, и сюда все стремятся. Есть много в разы более качественных проектов типа или атомных обещаний от Алибабы с убойным качеством.
Также они манифестируют on-device real-time video translation - и тут я не сильно верю, что это можно сделать в нормальном качестве, да еще и в реалтайме.
Дальше идет футуризм и довольно интересные идеи:
мы можем вывести человеко-компьютерный интерфейс за рамки текстовых чатов
Возможно, встраивание контекста в выражения и язык тела при вводе/выводе данных поможет нам взаимодействовать с компьютерами более человечным образом.
Звучит, конечно, интригующе, но пока выглядит как попытка сделать подписочную модель на коде четырехлетней давности с очень плохим итоговым результатом.
Если у вас есть опыт работы с wav2lip - пишите в комментарии.
Подробнее:
Games:
Крипто:
Pressa24:
Celebs: