| Índice | Descrição |
|---|---|
| Isenção de responsabilidade | Coisas para saber/isenções de responsabilidade/avisos/etc. |
| Para fazer a lista | Coisas para fazer |
| Colaboradores | Pessoas que ajudaram no projeto ou contribuíram para o projeto. |
| Instalação/configuração | Como instalar e configurar a ferramenta. |
| Misc | Argumentos de uso e arquivo - Exemplos - servidor da web |
| Solução de problemas | Problemas comuns e como corrigi -los. |
| Informações adicionais | Informações adicionais sobre a ferramenta. |
| Demos de vídeo | Demonstrações de vídeo da ferramenta. |
| Notas extras | Notas extras sobre a ferramenta. |
Atualmente, essa ferramenta de tradução movida a IA é um trabalho em andamento e está sendo desenvolvido ativamente para melhorar sua precisão e funcionalidade ao longo do tempo. Os usuários devem estar cientes de que, embora a ferramenta funcione de maneira eficaz em muitos cenários, ela não é perfeita e pode ocasionalmente produzir erros ou erros de tradução. Esses problemas estão sendo abordados continuamente sempre que possível, e as atualizações serão lançadas para aprimorar o desempenho da ferramenta. Por exemplo, você pode encontrar situações em que a tradução está ligeiramente desligada ou onde ocorrem falhas técnicas, mas espera -se que elas diminuam à medida que as melhorias são feitas.
A precisão das traduções é significativamente maior quando a fala de entrada é clara e lenta. Se o alto -falante falar muito rápido ou murmurar, a ferramenta poderá lutar para fornecer uma tradução precisa, embora ainda tente oferecer uma saída útil. Por exemplo, ao usar a ferramenta em um ambiente tranquilo com fala clara e deliberada, os resultados geralmente são mais precisos. No entanto, em ambientes ruidosos ou quando o discurso é apressado, você pode ver uma queda de precisão. O ruído de fundo, como a música alta, também pode interferir na capacidade da ferramenta de traduzir de maneira eficaz.
É importante observar que essa ferramenta foi projetada para uso casual e não profissional. É ideal para fins como aprendizado de idiomas, envolvimento em conversas informais ou compreensão de conteúdo estrangeiro para entretenimento. No entanto, não se destina a altos postos ou traduções profissionais, como documentos legais, textos médicos ou comunicações oficiais. Por exemplo, embora a ferramenta possa ser divertida e educacional para aprender um novo idioma ou assistir à mídia estrangeira, ela não deve ser confiada em tarefas especializadas ou críticas, onde a precisão é fundamental.
Como usuário, você é responsável por garantir que a ferramenta seja usada ética e não para fins, como espalhar desinformação ou discurso de ódio. Se houver uma discrepância entre a tradução e o discurso original, é crucial que você verifique a saída antes de compartilhá -la com outras pessoas. Por exemplo, se a ferramenta produzir uma tradução enganosa, é sua responsabilidade verificar o conteúdo antes de usá-lo ou distribuí-lo ainda mais.
Os usuários também devem estar cientes de que estão usando a ferramenta por seu próprio risco. O proprietário do repositório não pode ser responsabilizado por danos, problemas ou consequências não intencionais que surgem do uso dessa ferramenta. Por exemplo, se a ferramenta falha ou fornecer uma tradução imprecisa que leva a um mal -entendido, os colaboradores do desenvolvedor não serão responsáveis por quaisquer resultados que ocorram como resultado disso. Você, como usuário, assume toda a responsabilidade por suas ações enquanto usa a ferramenta.
Esta ferramenta não se destina a substituir tradutores humanos, principalmente para conteúdo complexo ou especializado. Embora possa ser útil para uso casual e diário, um tradutor profissional deve ser consultado para tarefas mais complexas, como traduzir acordos legais ou manuais técnicos. Por exemplo, se você precisar de uma tradução precisa de um contrato comercial, é recomendável procurar assistência de um tradutor humano qualificado, em vez de depender apenas dessa ferramenta.
Em termos de desempenho, a eficácia da ferramenta pode variar dependendo da sua configuração de hardware. Uma CPU ou GPU mais rápida levará a melhores resultados, enquanto sistemas mais lentos podem sofrer atrasos ou desempenho reduzido. No entanto, outros fatores, como velocidade de conexão com a Internet ou qualidade do microfone, têm um efeito mínimo em sua funcionalidade. Por exemplo, se você estiver executando a ferramenta em um computador de alto desempenho, provavelmente experimentará traduções mais suaves em comparação com usá-la em uma máquina mais antiga e lenta.
Por fim, é importante lembrar que essa é uma ferramenta , não um serviço . Se o uso viola os termos de serviço de qualquer plataforma ou causa problemas, a responsabilidade se enquadra apenas no usuário. Por exemplo, se o uso da ferramenta resultar na violação de regras em uma plataforma - como usar a ferramenta para traduzir linguagem inadequada - você é responsável por quaisquer penalidades ou restrições impostas como resultado.
| Pendência | Subtareu | Status |
|---|---|---|
| Adicione suporte para GPUs AMD. | Suporte ROCM - Somente WSL 2.0/Linux | ✅ |
| Suporte OpenCL - apenas Linux | ✅ | |
| Adicione o acesso da API de suporte. | ✅ | |
| Servidor Web de localhost personalizado. | ✅ | |
| Adicione a tradução reversa. | ✅ | |
| Localize o script em outros idiomas. (Ocorrerá após traduções reversas.) | ||
| Suporte de dicionário personalizado. | ||
| GUI. | ✅ | |
| Criação sub -título | ✅ | |
| Suporte ao Linux. | ✅ | |
| Melhorar o desempenho. | ||
| Formato de modelo compactado para usuários mais baixos de RAM | ✅ | |
| Melhor velocidade de carregamento de modelo grande | ✅ | |
| Modelo dividido em vários pedaços com base no uso | ||
| Stream Audio do URL | ✅ | |
| Aumentar a precisão da troca de modelo. | ||
| Não é necessário microfone | Módulo de streaming | ✅ |
| Painel de controle do servidor | Atualmente sob trabalho, será lançado em um lançamento futuro. Eu quero divulgar isso o mais rápido possível, mas tenho encontrado blocos de estradas. Este é um recurso mais alto, fique de olho em um futuro blog de desenvolvimento sobre mais detalhes e visualizações! | ? |
| GPUs suportadas | Descrição |
|---|---|
| Nvidia gráficos dedicados | Suportado |
| Nvidia Gráficos integrados | Testado - não suportado |
| AMD/ATI | * Linux Verificado |
| Intel Arc | Não suportado |
| Intel HD | Não suportado |
| Intel Igpu | Não suportado |
Você pode encontrar uma lista completa de GPUs NVIDA suportadas aqui:
| Exigência | Mínimo | Moderado | Recomendado | Melhor desempenho |
|---|---|---|---|---|
| Núcleos da CPU | 2 | 6 | 8 | 16 |
| Velocidade do relógio da CPU (GHZ) | 2.5 ou superior | 3.0 ou superior | 3,5 ou superior | 4.0 ou superior |
| RAM (GB) | 4 ou superior | 8 ou superior | 16 ou superior | 16 ou superior |
| GPU VRAM (GB) | 2 ou superior | 6 ou superior | 8 ou superior | 12 ou superior |
| Espaço livre em disco (GB) | 15 ou superior | 15 ou superior | 15 ou superior | 15 ou superior |
| A GPU (sugerida) enquanto a GPU que você possui estiver dentro da especificação VRAM, deve funcionar bem. | Nvidia GTX 1050 ou superior | Nvidia GTX 1660 ou superior | Nvidia RTX 3070 ou superior | Nvidia RTX 3090 ou superior |
Observação:
A ferramenta funcionará em qualquer sistema que atenda aos requisitos mínimos. A ferramenta funcionará melhor em sistemas que atendem aos requisitos recomendados. A ferramenta funcionará melhor em sistemas que atendam aos melhores requisitos de desempenho. Você pode misturar e combinar os requisitos para obter o melhor desempenho. Por exemplo, você pode ter uma CPU que atenda aos melhores requisitos de desempenho e uma GPU que atenda aos requisitos moderados. A ferramenta funcionará melhor em sistemas que atendam aos melhores requisitos de desempenho.
--stream para transmitir áudio a partir de um fluxo HLS. Veja exemplos para obter mais informações.setup.batsetup.bashgcc e portaudio19-dev instalado (ou portaudio-devel para algumas máquinas)Este script usa o ArgParse para aceitar argumentos da linha de comando. As seguintes opções estão disponíveis:
| Bandeira | Descrição |
|---|---|
--ram | Altere a quantidade de RAM para usar. O padrão é 4 GB. As opções são "1 GB", "2GB", "4GB", "6GB", "12GB-V2", "12GB-V3". |
--ramforce | Use este sinalizador para forçar o script a usar o VRAM desejado. Pode fazer com que o script falhe se não houver VRAM suficiente disponível. |
--fp16 | Isso permite que informações mais precisas sejam passadas para o processo. Isso concederá ao AL a capacidade de processar mais informações ao custo da velocidade. Você não verá um forte impacto em hardware mais forte. Combine sinalizadores de 12 GB-V3 + FP16 (modo de precisão na GUI) para obter a experiência final. |
--energy_threshold | Defina o nível de energia para o microfone detectar. O padrão é 100. Escolha de 1 a 1000; Qualquer coisa mais alta será mais difícil de acionar a detecção de áudio. |
--mic_calibration_time | Quanto tempo para calibrar o microfone por segundos. Para pular a entrada do usuário Tipo 0 e o tempo será definido como 5 segundos. |
--record_timeout | Defina o tempo em segundos para gravação em tempo real. O padrão é de 2 segundos. |
--phrase_timeout | Defina o tempo em segundos para o espaço vazio entre as gravações antes de considerá -lo uma nova linha na transcrição. O padrão é 1 segundo. |
--translate | Traduza as transcrições para o inglês. Ativa a tradução. |
--transcribe | Transcreva o áudio para um idioma de destino definido. São necessário sinalizador de idiomas de destino. |
--target_language | Selecione o idioma para se traduzir. As opções disponíveis são uma lista de idiomas no formato ISO 639-1, bem como seus nomes em inglês. |
--language | Selecione o idioma para traduzir. As opções disponíveis são uma lista de idiomas no formato ISO 639-1, bem como seus nomes em inglês. |
--auto_model_swap | Troque automaticamente o modelo com base no idioma detectado. Ativa a troca automática de modelos. |
--device | Selecione o dispositivo a ser usado para o modelo. O padrão é "CUDA", se disponível. As opções disponíveis são "CPU" e "CUDA". Ao configurar para a CPU, você pode escolher qualquer tamanho de RAM, desde que tenha RAM suficiente. A opção CPU é otimizada para multi-threading; portanto, se você tiver 16 núcleos, 32 threads, poderá ver bons resultados. |
--cuda_device | Selecione o dispositivo CUDA a ser usado para o modelo. O padrão é 0. |
--discord_webhook | Defina o Discord Webhook para enviar a transcrição. |
--list_microphones | Liste microfones disponíveis e saída. |
--set_microphone | Defina o microfone padrão para usar. Você pode definir o nome ou seu número de identificação da lista. |
--microphone_enabled | Ativa o uso do microfone. Adicione true após a bandeira. |
--auto_language_lock | Bloquear automaticamente o idioma com base no idioma detectado após 5 detecções. Ativa o bloqueio automático de idiomas. Ajudará a reduzir a latência. Use este sinalizador se estiver usando não inglês e se não conhece o idioma falado atual. |
--model_dir | A localização padrão é a pasta "Model". Você pode usar esse argumento para alterar a localização. |
--use_finetune | |
--no_log | Faz com que apenas a última coisa traduzida/transcrita seja mostrada na lista de estilo de log. |
--updatebranch | Verifique qual ramificação do repo para verificar se há atualizações. O padrão é o mestre , as opções são mestres e testes de desenvolvimento e sangramento abaixo do trabalho . Para desativar as verificações de atualização, use desativar . O trabalho de sangramento é basicamente as mudanças mais recentes e pode quebrar a qualquer momento. |
--keep_temp | Mantém arquivos de áudio na pasta OUT . Isso ocupará espaço ao longo do tempo. |
--portnumber | Defina o número da porta para o servidor da Web. Se nenhum número estiver definido, o servidor da Web não será iniciado. |
--retry | EXPETIVAS TRADUÇÕES E TRANSCRIÇÃO Se elas falharem. |
--about | Shows sobre o aplicativo. |
--save_transcript | Salva a transcrição em um arquivo de texto. |
--save_folder | Defina a pasta para salvar a transcrição. |
--stream | Stream áudio de um fluxo HLS. |
--stream_language | Linguagem do fluxo. O padrão é inglês. |
--stream_target_language | Idioma para traduzir o fluxo. O padrão é inglês. Necessário para --stream_transcribe |
--stream_translate | Traduza o fluxo. |
--stream_transcribe | Transcreva o fluxo para diferentes idiomas. Use --stream_target_language para alterar a saída. |
--stream_original_text | Mostre o texto original detectado. |
--stream_chunks | Quantos pedaços para dividir o fluxo. O padrão é 5 é recomendado entre 3 e 5 anos. Os fluxos do YouTube devem ser 1 ou 2, o Twitch deve ser de 5 a 10. Quanto maior o número, mais preciso, mas também mais lento e atrasado a tradução e a transcrição será. |
--cookies | Nome do arquivo de cookies, assim como Twitch, YouTube, Twitchacc1, TwitchAcczed |
--makecaptions | Definir o programa para o modo de legendas, requer file_input, file_output, file_output_name |
--file_input | Localização do arquivo para a entrada para fazer legendas, quase todo o formato de vídeo/áudio suportado (usa FFMPEG) |
--file_output | Localização da pasta para exportar as legendas |
--file_output_name | Nome do arquivo a ser exportado como sem ext. |
--ignorelist | O uso é " --ignorelist "C:quotedpathtowordlist.txt" " |
--condition_on_previous_text | Ajudará o modelo a se repetir, mas pode desacelerar o processo. |
--remote_hls_password_id | ID de senha para o servidor da web. Geralmente, como 'id' ou 'chave'. A chave é padrão para o programa, por isso, quando solicitar ID/senha, o Synthalingua será key=000000 - key = id - 0000000 = password 16 chars long. |
--remote_hls_password | Senha para o servidor da Web HLS. |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" Com a lista --ignorelist , você pode carregar uma lista de frases ou palavras a serem ignoradas na saída da API e na janela de legenda. Esta lista já está cheia de frases comuns que a IA pensará que ouviu. Você pode ajustar esta lista como você, por favor ou adicionar mais palavras ou frases a ela.
Alguns fluxos podem exigir um conjunto de cookies, você precisará salvar cookies como formato Netscape na pasta cookies como um arquivo .txt. Se uma pasta não existir, crie -a. Você pode salvar cookies usando este https://cookie-editor.com/ ou qualquer outro editor de cookies, mas deve estar no formato Netscape.
Exemplo de uso --cookies twitchacc1 não inclui a extensão do arquivo .txt.
O que você nomeou o arquivo de texto na pasta Cookies, precisará usar esse nome como argumento.
Com o comando sinalizador --port 4000 , você pode usar parâmetros de consulta como ?showoriginal , ?showtranslation e ?showtranscription para mostrar elementos específicos. Se qualquer outro parâmetro de consulta for usado ou não houver parâmetros de consulta, todos os elementos serão mostrados por padrão. Você pode escolher outro número diferente de 4000 se quiser. Você pode misturar os parâmetros de consulta para mostrar elementos específicos, deixar em branco para mostrar todos os elementos.
Por exemplo:
http://localhost:4000?showoriginal mostrará o texto detectado original .http://localhost:4000?showtranslation mostrará o texto translated .http://localhost:4000?showtranscription mostrará o texto transcribed .http://localhost:4000/?showoriginal&showtranscription mostrará o texto original e transcribed .http://localhost:4000 ou http://localhost:4000?otherparam=value mostrará todos os elementos por padrão. Isso criará legendas, com a opção 12 GB-V3 e salvará para downloads.
Observe que as legendas serão apenas em inglês (limitação do modelo), embora você sempre possa usar outros programas para se traduzir em outros idiomas
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
Você tem uma GPU de 12 GB e deseja transmitir o áudio a partir de uma transmissão ao vivo https://www.twitch.tv/somereamerhere e deseja traduzi -lo para o inglês. Você pode executar o seguinte comando:
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
Fontes de fluxo do YouTube e Twitch são suportadas. Você também pode usar qualquer outra fonte de fluxo que suporta HLS/M3U8.
Você tem uma GPU com 6 GB de memória e deseja usar o modelo japonês. Você também deseja traduzir a transcrição para o inglês. Você também deseja enviar a transcrição para um canal Discord. Você também deseja definir o limite de energia para 300. Você pode executar o seguinte comando:
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
Ao escolher RAM, você pode escolher apenas 1 GB, 2 GB, 4 GB, 6 GB, 12 GB-V2, 12 GB-V3. Não há betweens.
Você tem uma GPU de 12 GB e deseja traduzir para o espanhol do inglês, pode executar o seguinte comando para v3 substituir v3 por v2 se preferir o original:
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
Digamos que você tenha vários dispositivos de áudio e deseja usar o que não é o padrão. Você pode executar o seguinte comando: python transcribe_audio.py --list_microphones Este comando listará todos os dispositivos de áudio e seu índice. Você pode usar o índice para definir o dispositivo de áudio padrão. Por exemplo, se você deseja usar o segundo dispositivo de áudio, poderá executar o seguinte comando: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti" para definir o dispositivo para ouvir. *Por favor, observe o que o nome é necessário.
Exemplo, digamos que eu tenho esses dispositivos:
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
Eu colocaria python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi" para definir o dispositivo para ouvir. -ou- Eu colocaria python transcribe_audio.py --set_microphone 4 para definir o dispositivo para ouvir.
Se você encontrar algum problema com a ferramenta, aqui estão alguns problemas comuns e suas soluções:
transformers instalado executando pip install transformers .python -m pip install transformers . Argumentos da linha de comando usados. --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
Argumentos da linha de comando usados. --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500