Этот код работает на Python 3.10, я не проверял его на других версиях. У некоторых более старых версий будут проблемы.
Теперь это возможно.
Для разработчиков:
Для всех:
Убедитесь, что эти вещи не в вашем голосовом вводе: (в любом конкретном порядке)
Что делает для хорошего быстрого звука? (в любом конкретном порядке)
| Имя | Модель Хьюберта | Версия квантоза | Эпоха | Язык | Набор данных |
|---|---|---|---|---|---|
| Quantifier_hubert_base_ls960.pth | База Хьюберта | 0 | 3 | Англ | Гитмило/кора-семантическая тренировка |
| Quantifier_hubert_base_ls960_14.pth | База Хьюберта | 0 | 14 | Англ | Гитмило/кора-семантическая тренировка |
| Quantifier_v1_hubert_base_ls960_23.pth | База Хьюберта | 1 | 23 | Англ | Гитмило/кора-семантическая тренировка |
| Автор | Имя | Модель Хьюберта | Версия квантоза | Эпоха | Язык | Набор данных |
|---|---|---|---|---|---|---|
| Хобиспл | Польский-Хуберт-Quantizer_8_EPOCH.PTH | База Хьюберта | 1 | 8 | Поли | Hobis/Bark-Polish-Semantic Wav Training |
| C0untfloyd | Германии-Хуберт-Квантайзер_14_EPOCH.PTH | База Хьюберта | 1 | 14 | Герм | Countfloyd/Bark-German-Semantic-Wav Training |
from hubert . pre_kmeans_hubert import CustomHubert
import torchaudio
# Load the HuBERT model,
# checkpoint_path should work fine with data/models/hubert/hubert.pt for the default config
hubert_model = CustomHubert ( checkpoint_path = 'path/to/checkpoint' )
# Run the model to extract semantic features from an audio file, where wav is your audio file
wav , sr = torchaudio . load ( 'path/to/wav' ) # This is where you load your wav, with soundfile or torchaudio for example
if wav . shape [ 0 ] == 2 : # Stereo to mono if needed
wav = wav . mean ( 0 , keepdim = True )
semantic_vectors = hubert_model . forward ( wav , input_sample_hz = sr ) import torch
from hubert . customtokenizer import CustomTokenizer
# Load the CustomTokenizer model from a checkpoint
# With default config, you can use the pretrained model from huggingface
# With the default setup from HuBERTManager, this will be in data/models/hubert/tokenizer.pth
tokenizer = CustomTokenizer . load_from_checkpoint ( 'data/models/hubert/tokenizer.pth' ) # Automatically uses the right layers
# Process the semantic vectors from the previous HuBERT run (This works in batches, so you can send the entire HuBERT output)
semantic_tokens = tokenizer . get_token ( semantic_vectors )
# Congratulations! You now have semantic tokens which can be used inside of a speaker prompt file. Просто запустите учебные команды.
Простой способ создать семантические данные и волны для обучения-это сценарий: Bark-Data-Gen. Но помните, что создание WAVS займет примерно в то же время, если не дольше, чем создание семантики. Это может занять некоторое время, чтобы генерировать из -за этого.
Например, если у вас есть набор данных с ZIP, содержащими аудиофайлы, один Zip для семантики и один для файлов WAV. Внутри папки под названием «Литература»
Вы должны запустить process.py --path Literature --mode prepare
Вы должны запустить process.py --path Literature --mode prepare2
Вы должны запустить process.py --path Literature --mode train
И когда ваша модель достаточно обучена, вы можете запустить process.py --path Literature --mode test , чтобы проверить последнюю модель.
Я не отвечаю за сгенерированную аудио с использованием семантики, созданной этой моделью. Только не используйте его для незаконных целей.