Descarga de whisper vits japanese - Descargar el código fuente de whisper vits japanese

whisper vits japanese

Código Fuente de IA

1.0.0

Descargar

Susurros-vits-japonés

El tutorial está aquí: https://www.bilibili.com/video/bv19e4y167dx/?spm_id_from=333.999.0.0

Tarea	Computadora portátil
Whisper_vits_japanese (conjunto de datos de Ella incorporado)

2023.01.31 Actualizado la nueva especificación. El apto genera automáticamente una nueva especificación. Pit después de que se dañe para mejorar la tasa de tolerancia de fallas de la capacitación de recuperación del disco de la red

Este proyecto utiliza el proyecto Whisper de Google como el procesador de datos VITS. Al modificar el Transcribe.py del proyecto Whisper, genera el archivo SRT correspondiente para el audio (el PR eliminado se usa aquí y el PR ya no se encuentra, por lo que no se puede hacer referencia al autor original). Al mismo tiempo, el límite de Whisper solo puede leer unos pocos archivos de audio está relajado hasta el punto en que puede atravesar todos los archivos de audio en la carpeta. Whisper puede emitir SRT para hacer posible la entrada de audio largo, y los usuarios ya no necesitan cortar el audio en piezas, o incluso transferir el texto de audio largo. Confiamos directamente en Whisper para el reconocimiento de voz y la preparación de datos, cortamos automáticamente en audio corto, generamos automáticamente archivos de transcripción y luego los enviamos al proceso de capacitación VITS. Teniendo en cuenta que el sonido seco de audio a largo plazo es más fácil de obtener, las barreras de entrada VITS se reducen considerablemente nuevamente.

El proceso de procesamiento es más o menos el siguiente: el archivo SRT reconocido por Whisper será procesado por Auto.py. El proceso de procesamiento se refiere a Tobiasrordorf/SRT-to-CSV-and-Audio-Split: divide los archivos de audio largos basados en subtitle-info en el archivo SRT (transcripción guardada en CSV) (github.com). El archivo de audio se convierte primero en 22050Hz y 16 bits, y luego las marcas de tiempo del archivo SRT con el mismo nombre y la transcripción de reconocimiento de voz se convierten en un archivo CSV. El archivo CSV tiene la hora de inicio y el tiempo de finalización de cada segmento del audio, así como las rutas de transcripción y archivo de audio correspondientes. Luego, el paquete de audiencias se usa para dividir el audio largo de acuerdo con la hora de inicio y la hora de finalización, y los archivos de audio con sufijos se generan en el orden de las cortes, como A_0.WAV y A_1.WAV, etc. Todos los audio en rodajas se almacenarán en la carpeta SLICE_AUDIO, y luego el archivo de txt con "ruta | traducción requerida por los ritmos se generará en la carpeta de filelistas. El flujo de datos posterior se puede conectar directamente a la parte VITS.

El limpiador Vits y el símbolo que uso ahora es Cjangcjengh/Vits: VITS Implementación de japonés, chino, coreano y sánscrito (github.com) como la versión inicial del período de la creación de Dios. Ahora su almacén ha actualizado más limpiadores y símbolos, pero soy una persona muy nostálgica, y extraño el momento en que todos llegaron a Vits al principio, así que todavía uso la versión original. VITS tiene dos preprocesos principales, uno es Monotonic Aline y el otro es Preprocess.py, y luego puede comenzar Train.py. Puse todos los procesos en whisper-vits-japanese.ipynb, y solo necesito hacerles clic en paso a paso para ejecutar. Lo único que necesita que el usuario cambie es reemplazar mi ruta de cremallera de audio con su propia zip de audio, y el resto de las piezas no necesitan ser modificadas. Finalmente, también agregué las instrucciones para guardar el modelo y los archivos procesados en el disco de red, y para restaurar el último último punto de control desde el disco de red durante la próxima capacitación.

La siguiente parte de entrenamiento multijugador se completa con MR47121836, y expresamos nuestra gratitud

Además, los reconocimientos especiales incluyen problemas portuarios, versión numpy y problemas de preprocesamiento de texto señalados por la pérdida de rastreo.

2023.02.02 agregó auto_ms.py, ms.json archivo. Para el entrenamiento multijugador, debe ejecutar auto_ms.py

Preprocesamiento:

Simplemente nombre el formato de archivo de audio SpeakerID_XXXX.WAV y cárguelo a la carpeta de audio. Luego siga los pasos generales para ejecutarlo. Cuando se realice el procesamiento de audio, ejecute el archivo auto_ms.py, y el archivo txt se generará automáticamente, con la ruta de formato | speakerID | text.

Nota: Si usa auto_ms.py para generar TXT, debe modificarlo al código en el paso de alineación y conversión de texto: (porque el text_index no es 1 sino 2 cuando se capacita para varias personas)

 python preprocess.py --text_index 2 --text_cleaners japanese_cleaners --filelists /content/whisper-vits-japanese/filelists/train_filelist.txt /content/whisper-vits-japanese/filelists/val_filelist.txt

tren:

 python train_ms.py -c configs/ms.json -m ms

La parte de la interfaz del modelo multijugador usa:

 hps = utils.get_hparams_from_file("./configs/ms.json")

net_g = SynthesizerTrn(
    len(symbols),  
    hps.data.filter_length // 2 + 1,  
    hps.train.segment_size // hps.data.hop_length,  
    n_speakers=hps.data.n_speakers,  
    **hps.model).cuda()  
_ = net_g.eval()  

_ = utils.load_checkpoint("/root/autodl-tmp/logs/ms/G_29000.pth", net_g, None)

stn_tst = get_text("ごめんね優衣", hps)
with torch.no_grad():  
    x_tst = stn_tst.cuda().unsqueeze(0)  
    x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).cuda()  
    sid = torch.LongTensor([11]).cuda() //11指speakerId为11，如果有12个n_speaker,编号就从0-11  
    audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()  
ipd.display(ipd.Audio(audio, rate=hps.data.sampling_rate, normalize=False))

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 488.76KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
BROMA

2024-02-26

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo