LLaMA-Omni : Речевое управление LLM LLaMA-Omni - модель, построенная на основе Llama-3
LLaMA-Omni : Речевое управление LLM
LLaMA-Omni - модель, построенная на основе , которая поддерживает голосовое взаимодействие с низкой задержкой ответа и высоким качеством синтеза аудио, одновременно генерируя текстовые и речевые ответы на основе голосовых инструкций.
LLaMA-Omni не требует транскрипции речи, напрямую передавая адаптированное речевое представление в LLM. LLM генерирует текстовый ответ, и, параллельно декодер речи генерирует соответствующие дискретные речевые единицы, используя скрытые состояния инференса LLM. Применение этой конструктивной особенности значительно сокращает задержку ответа до в 226 мс на chunk-size размерности 10.
Для установки и локального запуска понадобятся GPU => 20GB и набор :
Модель
Модель Whisper-large-v3;
HiFi-GAN вокодер;
Тулкит Fairseq;
Flash-attention.
Примечания:
Gradio плохо воспроизводит потоковое аудио, поэтому автовоспроизведение в нем отключено;
Чтобы запустить СLI-инференс локально, организуйте файлы речевых инструкций в соответствии с форматом в omni_speech/infer/examples, а затем обратитесь скрипту omni_speech/infer/.
Установка :
git clone LLaMA-Omni
cd LLaMA-Omni
conda create -n llama-omni python=
conda activate llama-omni
pip install pip==24.0
pip install -e .
git clone
cd fairseq
pip install -e . —no-build-isolation
pip install flash-attn —no-build-isolation
Выполните команды, описанные в разделах
21 view
25
4
3 months ago 00:00:36 22
LLaMA-Omni : Речевое управление LLM LLaMA-Omni - модель, построенная на основе Llama-3
4 months ago 00:02:16 1
ChatGPT 4 бесплатно в телеграм боте
2 years ago 00:14:13 1
Llama M82: Gabilondo Copies the Beretta (But More Complicated)