bark voice cloning HuBERT quantizer скачать - bark voice cloning HuBERT quantizer Скачать исходный код

bark voice cloning HuBERT quantizer

Другой исходный код

1.0.0

Скачать

Клонирование голоса коры

Пожалуйста, прочитайте

Этот код работает на Python 3.10, я не проверял его на других версиях. У некоторых более старых версий будут проблемы.

Голосовой клонирование с корой в высоком качестве?

Теперь это возможно.

Примеры_BIDEN_EXAMEL.MOV

Как мне клонировать голос?

Для разработчиков:

Примеры кода на странице модели HuggingFice

Для всех:

Аудио-вебуй с корой и клонированием голоса
Онлайн -клонирование онлайн -клонирования голоса
Интерактивный ноутбук Python

Голоса клонированные не очень убедительны, почему клонированные голоса других людей лучше моих?

Убедитесь, что эти вещи не в вашем голосовом вводе: (в любом конкретном порядке)

Шум (вы можете использовать шум с удалением шума)
Музыка (есть также инструменты для удаления музыки) (если вы не хотите музыку в фоновом режиме)
Отстранение в конце (это заставит его попытаться продолжить поколение)
Несмотря на 1 секунду учебных данных (я лично предлагаю около 10 секунд для хорошего потенциала, но у меня были отличные результаты и 5 секунд.)

Что делает для хорошего быстрого звука? (в любом конкретном порядке)

Четко сказано
Нет странных фоновых шумов
Только один динамик
Аудио, которое заканчивается после заканчивания предложения
Регулярный/общий голос (они обычно имеют больший успех, он все еще способен клонировать сложные голоса, но не так хорошо в этом)
Около 10 секунд данных

Предварительные модели

Официальный

Имя	Модель Хьюберта	Версия квантоза	Эпоха	Язык	Набор данных
Quantifier_hubert_base_ls960.pth	База Хьюберта	0	3	Англ	Гитмило/кора-семантическая тренировка
Quantifier_hubert_base_ls960_14.pth	База Хьюберта	0	14	Англ	Гитмило/кора-семантическая тренировка
Quantifier_v1_hubert_base_ls960_23.pth	База Хьюберта	1	23	Англ	Гитмило/кора-семантическая тренировка

Сообщество

Автор	Имя	Модель Хьюберта	Версия квантоза	Эпоха	Язык	Набор данных
Хобиспл	Польский-Хуберт-Quantizer_8_EPOCH.PTH	База Хьюберта	1	8	Поли	Hobis/Bark-Polish-Semantic Wav Training
C0untfloyd	Германии-Хуберт-Квантайзер_14_EPOCH.PTH	База Хьюберта	1	14	Герм	Countfloyd/Bark-German-Semantic-Wav Training

Для разработчиков: реализация голосового клонирования в ваших проектах коры

Просто скопируйте файлы из этого каталога в ваш проект.
Hubert Manager содержит методы для загрузки Hubert и пользовательскую модель Quantizer.
Загрузка Customhubert должна быть довольно простой
Ноутбук содержит код для использования на CUDA или CPU. Вместо просто ЦП.

 from hubert . pre_kmeans_hubert import CustomHubert
import torchaudio

# Load the HuBERT model,
# checkpoint_path should work fine with data/models/hubert/hubert.pt for the default config
hubert_model = CustomHubert ( checkpoint_path = 'path/to/checkpoint' )

# Run the model to extract semantic features from an audio file, where wav is your audio file
wav , sr = torchaudio . load ( 'path/to/wav' ) # This is where you load your wav, with soundfile or torchaudio for example

if wav . shape [ 0 ] == 2 :  # Stereo to mono if needed
    wav = wav . mean ( 0 , keepdim = True )

semantic_vectors = hubert_model . forward ( wav , input_sample_hz = sr )

Загрузка и запуск пользовательских Kmeans

 import torch
from hubert . customtokenizer import CustomTokenizer

# Load the CustomTokenizer model from a checkpoint
# With default config, you can use the pretrained model from huggingface
# With the default setup from HuBERTManager, this will be in data/models/hubert/tokenizer.pth
tokenizer = CustomTokenizer . load_from_checkpoint ( 'data/models/hubert/tokenizer.pth' )  # Automatically uses the right layers

# Process the semantic vectors from the previous HuBERT run (This works in batches, so you can send the entire HuBERT output)
semantic_tokens = tokenizer . get_token ( semantic_vectors )

# Congratulations! You now have semantic tokens which can be used inside of a speaker prompt file.

Как мне тренировать его сам?

Просто запустите учебные команды.

Простой способ создать семантические данные и волны для обучения-это сценарий: Bark-Data-Gen. Но помните, что создание WAVS займет примерно в то же время, если не дольше, чем создание семантики. Это может занять некоторое время, чтобы генерировать из -за этого.

Например, если у вас есть набор данных с ZIP, содержащими аудиофайлы, один Zip для семантики и один для файлов WAV. Внутри папки под названием «Литература»

Вы должны запустить process.py --path Literature --mode prepare

Вы должны запустить process.py --path Literature --mode prepare2

Вы должны запустить process.py --path Literature --mode train

И когда ваша модель достаточно обучена, вы можете запустить process.py --path Literature --mode test , чтобы проверить последнюю модель.