Download voicefixer - Download de código fonte voicefixer

? VoiceFixer
- Demonstração
- Uso
  - Linha de comando
  - App de desktop
  - Exemplos de Python
  - Docker
  - Outros recursos
- Materiais
- Alterar log

? VoiceFixer

O Bowfixer pretende restaurar a fala humana, independentemente de quão grave sua degradada. Pode lidar com ruído, revelação, baixa resolução (2kHz ~ 44,1kHz) e efeito de corte (limite de 0,1-1,0) em um modelo.

Este pacote fornece:

Um exopanhador pré -terenciado, que é construído baseado no vocoder neural.
Um vocoder neural independente de falador universal de 44,1 mil.

principal

Se você achou este repo útil, considere citar ou

 @misc { liu2021voicefixer ,   
     title = { VoiceFixer: Toward General Speech Restoration With Neural Vocoder } ,   
     author = { Haohe Liu and Qiuqiang Kong and Qiao Tian and Yan Zhao and DeLiang Wang and Chuanzeng Huang and Yuxuan Wang } ,  
     year = { 2021 } ,  
     eprint = { 2109.13731 } ,  
     archivePrefix = { arXiv } ,  
     primaryClass = { cs.SD }  
 }

Demonstração

Visite a página de demonstração para ver o que o VoiceFixer pode fazer.

Uso

Executar modos

Modo	Descrição
`0`	Modelo original (sugerido por padrão)
`1`	Adicione o módulo de pré -processamento (remova uma frequência mais alta)
`2`	Modo de trem (pode funcionar às vezes em discurso real seriamente degradado)
`all`	Execute todos os modos - produzirá 1 arquivo WAV para cada modo suportado.

Linha de comando

Primeiro, instale o VoiceFixer via PIP:

pip install git+https://github.com/haoheliu/voicefixer.git

Processe um arquivo:

 # Specify the input .wav file. Output file is outfile.wav.
voicefixer --infile test/utterance/original/original.wav
# Or specify a output path
voicefixer --infile test/utterance/original/original.wav --outfile test/utterance/original/original_processed.wav

Processar arquivos em uma pasta:

voicefixer --infolder /path/to/input --outfolder /path/to/output

Modo de mudança (o modo padrão é 0):

voicefixer --infile /path/to/input.wav --outfile /path/to/output.wav --mode 1

Execute todos os modos:

 # output file saved to `/path/to/output-modeX.wav`.
voicefixer --infile /path/to/input.wav --outfile /path/to/output.wav --mode all

Pré-carregue os pesos apenas sem nenhum processamento real:

voicefixer --weight_prepare

Para mais informações auxiliares, execute:

voicefixer -h

App de desktop

Demonstração no YouTube (obrigado @Justin John)

Instale o VoiceFixer via PIP:

pip install voicefixer

Você pode testar amostras de áudio na sua área de trabalho executando o site (alimentado por streamlit)

Clone o repo primeiro.

git clone https://github.com/haoheliu/voicefixer.git
cd voicefixer

️ Para usuários do Windows , verifique se você instalou o WGET e adicionou o comando wget ao caminho do sistema (obrigado @Justinjohn0306).

Inicialize e inicie a página da Web.

 # Run streamlit 
streamlit run test/streamlit.py

Se você correr pela primeira vez: a página da web pode deixar em branco por vários minutos para baixar modelos. Você pode conferir o terminal para download progredir.
Você pode usar este arquivo de fala de baixa qualidade que fornecemos para uma execução de teste. A página após o processamento será a seguinte.

figura

Para usuários da China da Terra Principal, se você tiver dificuldade em baixar o ponto de verificação. Você pode acessá -los alternativamente em 百度网盘 (提取密码: qis6). Faça o download dos dois pontos de verificação dentro e coloque -os na pasta a seguir.
- Coloque VF.CKPT dentro ~/.cache/voodfixer/analysal_module/pontos de verificação . (O "~" representa seu diretório doméstico)
- Place modelo.ckpt-1490000_trimed.pt Inside ~/.cache/bookfixer/synthesis_module/44100 . (O "~" representa seu diretório doméstico)

Exemplos de Python

Primeiro, instale o VoiceFixer via PIP:

pip install voicefixer

Em seguida, execute os seguintes scripts para uma execução de teste:

git clone https://github.com/haoheliu/voicefixer.git ; cd voicefixer
python3 test/test.py # test script

Esperamos que isso lhe dê a seguinte saída:

Initializing VoiceFixer...
Test voicefixer mode 0, Pass
Test voicefixer mode 1, Pass
Test voicefixer mode 2, Pass
Initializing 44.1kHz speech vocoder...
Test vocoder using groundtruth mel spectrogram...
Pass

test/test.py contém principalmente o teste das duas APIs a seguir:

VoiceFixer.restore
vocoder.oracle

...

# TEST VOICEFIXER
## Initialize a voicefixer
print ( "Initializing VoiceFixer..." )
voicefixer = VoiceFixer ()
# Mode 0: Original Model (suggested by default)
# Mode 1: Add preprocessing module (remove higher frequency)
# Mode 2: Train mode (might work sometimes on seriously degraded real speech)
for mode in [ 0 , 1 , 2 ]:
    print ( "Testing mode" , mode )
    voicefixer . restore ( input = os . path . join ( git_root , "test/utterance/original/original.flac" ), # low quality .wav/.flac file
                       output = os . path . join ( git_root , "test/utterance/output/output_mode_" + str ( mode ) + ".flac" ), # save file path
                       cuda = False , # GPU acceleration
                       mode = mode )
    if ( mode != 2 ):
        check ( "output_mode_" + str ( mode ) + ".flac" )
    print ( "Pass" )

# TEST VOCODER
## Initialize a vocoder
print ( "Initializing 44.1kHz speech vocoder..." )
vocoder = Vocoder ( sample_rate = 44100 )

### read wave (fpath) -> mel spectrogram -> vocoder -> wave -> save wave (out_path)
print ( "Test vocoder using groundtruth mel spectrogram..." )
vocoder . oracle ( fpath = os . path . join ( git_root , "test/utterance/original/p360_001_mic1.flac" ),
               out_path = os . path . join ( git_root , "test/utterance/output/oracle.flac" ),
               cuda = False ) # GPU acceleration

...

Você pode clonar este repositório e tentar executar test.py dentro da pasta de teste .

Docker

Atualmente, a imagem do Docker não é publicada e precisa ser construída localmente, mas dessa maneira você garante que a executa com toda a configuração esperada. O tamanho da imagem gerado é de cerca de 10 GB e isso se deve principalmente às dependências que consomem cerca de 9,8 GB por conta própria.

No entanto, a camada que contém voicefixer é a última camada adicionada, tornando qualquer reconstrução se você alterar as fontes relativamente pequenas (~ 200 MB por vez, à medida que os pesos são atualizados na construção da imagem).

O Dockerfile pode ser visto aqui.

Depois de clonar o repositório:

OS agnóstico

 # To build the image
cd voicefixer
docker build -t voicefixer:cpu .

# To run the image
docker run --rm -v " $( pwd ) /data:/opt/voicefixer/data " voicefixer:cpu < all_other_cli_args_here >

# # Example: docker run --rm -v "$(pwd)/data:/opt/voicefixer/data" voicefixer:cpu --infile data/my-input.wav --outfile data/my-output.mode-all.wav --mode all

Script Wrapper: Linux e MacOS

 # To build the image
cd voicefixer
./docker-build-local.sh

# To run the image
./run.sh < all_other_cli_args_here >

# # Example: ./run.sh --infile data/my-input.wav --outfile data/my-output.mode-all.wav --mode all

Outros recursos

Como usar seu próprio vocoder, como o Hifi-Gan pré-treinado?

Primeiro, você precisa escrever uma função auxiliar seguinte com seu modelo. Semelhante à função ajudante neste repo: https://github.com/haoheliu/voicefixer/blob/main/voicefixer/vocoder/base.py#l35

    def convert_mel_to_wav(mel):
        " " "
        :param non normalized mel spectrogram: [batchsize, 1, t-steps, n_mel]
        :return: [batchsize, 1, samples]
        " " "
        return wav

Em seguida, passe esta função para o botefixer.restore , por exemplo:

 voicefixer.restore(input="", # input wav file path
                   output="", # output wav file path
                   cuda=False, # whether to use gpu acceleration
                   mode = 0,
                   your_vocoder_func = convert_mel_to_wav)

Observação:

Para compatibilidade, seu vocoder deve trabalhar na onda de 44,1khz com caixas de frequência MEL 128.
O espectrograma MEL de entrada para a função auxiliar não deve ser normalizado pela largura de cada filtro MEL.