| Tabla de contenido | Descripción |
|---|---|
| Descargo de responsabilidad | Cosas que deben saber/renunciar/advertencias/etc. |
| Lista de tareas | Cosas que hacer |
| Colaboradores | Personas que ayudaron con el proyecto o contribuyeron al proyecto. |
| Instalación/configuración | Cómo instalar y configurar la herramienta. |
| Maga | Uso y argumentos de archivo - ejemplos - servidor web |
| Solución de problemas | Problemas comunes y cómo solucionarlos. |
| Información adicional | Información adicional sobre la herramienta. |
| Demostraciones de video | Demostraciones de video de la herramienta. |
| Notas adicionales | Notas adicionales sobre la herramienta. |
Esta herramienta de traducción con AI es actualmente un trabajo en progreso y se está desarrollando activamente para mejorar su precisión y funcionalidad con el tiempo. Los usuarios deben tener en cuenta que, si bien la herramienta funciona de manera efectiva en muchos escenarios, no es perfecto y ocasionalmente puede producir errores o errores de traducción. Estos problemas se abordan continuamente cuando sea posible, y las actualizaciones se implementarán para mejorar el rendimiento de la herramienta. Por ejemplo, puede encontrar situaciones en las que la traducción está ligeramente apagada o donde ocurren problemas técnicos, pero se espera que disminuyan a medida que se realizan mejoras.
La precisión de las traducciones es significativamente mayor cuando el discurso de entrada es claro y lento. Si el altavoz habla demasiado rápido o murmura, la herramienta podría tener dificultades para proporcionar una traducción precisa, aunque aún intentará ofrecer una salida útil. Por ejemplo, cuando se usa la herramienta en un entorno tranquilo con un habla clara y deliberada, los resultados son generalmente más precisos. Sin embargo, en entornos ruidosos o cuando se apresura el discurso, puede ver una caída en la precisión. El ruido de fondo, como la música fuerte, también puede interferir con la capacidad de la herramienta para traducirse de manera efectiva.
Es importante tener en cuenta que esta herramienta está diseñada para uso casual y no profesional. Es ideal para fines como el aprendizaje de idiomas, participar en conversaciones informales o comprender el contenido extranjero para el entretenimiento. Sin embargo, no está destinado a traducciones profesionales o de alto riesgo, como documentos legales, textos médicos o comunicaciones oficiales. Por ejemplo, si bien la herramienta puede ser divertida y educativa para aprender un nuevo idioma o ver medios extranjeros, no debe confiarse para tareas especializadas o críticas donde la precisión es primordial.
Como usuario, usted es responsable de garantizar que la herramienta se use éticamente y no para fines como la difusión de información errónea o de odio. Si hay una discrepancia entre la traducción y el discurso original, es crucial que verifique el resultado antes de compartirlo con otros. Por ejemplo, si la herramienta produce una traducción engañosa, es su responsabilidad verificar el contenido antes de usarla o distribuirla más.
Los usuarios también deben ser conscientes de que están utilizando la herramienta bajo su propio riesgo. El propietario del repositorio no puede responsabilizarse por los daños, problemas o consecuencias no deseadas que surgen del uso de esta herramienta. Por ejemplo, si la herramienta no funciona mal o proporciona una traducción inexacta que conduce a un malentendido, los desarrolladores contribuyentes no son responsables de ningún resultado que ocurra como resultado de esto. Usted, como usuario, asume toda la responsabilidad de sus acciones mientras usa la herramienta.
Esta herramienta no está destinada a reemplazar los traductores humanos, particularmente por contenido complejo o especializado. Si bien puede ser útil para el uso casual y cotidiano, se debe consultar a un traductor profesional para tareas más complejas, como traducir acuerdos legales o manuales técnicos. Por ejemplo, si necesita una traducción precisa de un contrato comercial, se recomienda buscar asistencia de un traductor humano calificado en lugar de confiar únicamente en esta herramienta.
En términos de rendimiento, la efectividad de la herramienta puede variar según la configuración de su hardware. Una CPU o GPU más rápida conducirá a mejores resultados, mientras que los sistemas más lentos pueden experimentar retrasos o un rendimiento reducido. Sin embargo, otros factores, como la velocidad de conexión a Internet o la calidad del micrófono, tienen un efecto mínimo en su funcionalidad. Por ejemplo, si está ejecutando la herramienta en una computadora de alto rendimiento, es probable que experimente traducciones más suaves en comparación con usarla en una máquina más antigua y lenta.
Por último, es importante recordar que esta es una herramienta , no un servicio . Si usarlo viola los términos de servicio de cualquier plataforma o causa algún problema, la responsabilidad recae únicamente en el usuario. Por ejemplo, si el uso de la herramienta resulta en violar las reglas en una plataforma, como usar la herramienta para traducir un lenguaje inapropiado, usted es responsable de cualquier penalización o restricción impuesta como resultado.
| Hacer | Subasta | Estado |
|---|---|---|
| Agregue soporte para las GPU AMD. | Soporte ROCM - WSL 2.0/Linux solamente | ✅ |
| Soporte de OpenCl - solo Linux | ✅ | |
| Agregue el acceso a la API de soporte. | ✅ | |
| Servidor web localizado localhost. | ✅ | |
| Agregar traducción inversa. | ✅ | |
| Localizar el script en otros idiomas. (Tendrá lugar después de las traducciones inversas). | ||
| Soporte de diccionario personalizado. | ||
| Gui. | ✅ | |
| Creación de subtítulo | ✅ | |
| Soporte de Linux. | ✅ | |
| Mejorar el rendimiento. | ||
| Formato de modelo comprimido para usuarios de RAM más bajo | ✅ | |
| Mejor velocidad de carga de modelo grande | ✅ | |
| Dividir el modelo en múltiples fragmentos basados en el uso | ||
| Transmitir audio desde URL | ✅ | |
| Aumente la precisión de intercambio de modelos. | ||
| No se requiere micrófono | Módulo de transmisión | ✅ |
| Panel de control del servidor | Actualmente bajo trabajo, saldrá en un lanzamiento futuro. Quiero sacar esto lo antes posible, pero he estado corriendo a los bloqueos de carretera. Esta es una característica de Prio más alta, ¡esté atento a un futuro blog de desarrollo sobre más detalles y avances! | ? |
| GPU compatibles | Descripción |
|---|---|
| Gráficos dedicados por Nvidia | Compatible |
| Gráficos integrados nvidia | Probado - no compatible |
| AMD/ATI | * Linux verificado |
| Arco Intel | No compatible |
| Intel HD | No compatible |
| Intel IGPU | No compatible |
Puede encontrar una lista completa de GPU NVIDA compatibles aquí:
| Requisito | Mínimo | Moderado | Recomendado | Mejor rendimiento |
|---|---|---|---|---|
| Núcleos de CPU | 2 | 6 | 8 | 16 |
| Velocidad del reloj de la CPU (GHz) | 2.5 o más | 3.0 o superior | 3.5 o más | 4.0 o superior |
| RAM (GB) | 4 o más | 8 o superior | 16 o superior | 16 o superior |
| GPU VRAM (GB) | 2 o superior | 6 o superior | 8 o superior | 12 o más |
| Espacio de disco gratis (GB) | 15 o superior | 15 o superior | 15 o superior | 15 o superior |
| GPU (sugerido) siempre que la GPU que tenga está dentro de la especificación de VRAM, debería funcionar bien. | Nvidia gtx 1050 o superior | Nvidia gtx 1660 o superior | Nvidia rtx 3070 o superior | Nvidia rtx 3090 o superior |
Nota:
La herramienta funcionará en cualquier sistema que cumpla con los requisitos mínimos. La herramienta funcionará mejor en los sistemas que cumplan con los requisitos recomendados. La herramienta funcionará mejor en sistemas que cumplan con los mejores requisitos de rendimiento. Puede mezclar y combinar los requisitos para obtener el mejor rendimiento. Por ejemplo, puede tener una CPU que cumpla con los mejores requisitos de rendimiento y una GPU que cumpla con los requisitos moderados. La herramienta funcionará mejor en sistemas que cumplan con los mejores requisitos de rendimiento.
--stream para transmitir audio desde una transmisión HLS. Ver ejemplos para obtener más información.setup.batsetup.bashgcc y portaudio19-dev (o portaudio-devel para algunas máquinas)Este script usa Argparse para aceptar argumentos de línea de comandos. Las siguientes opciones están disponibles:
| Bandera | Descripción |
|---|---|
--ram | Cambie la cantidad de RAM a usar. El valor predeterminado es 4GB. Las opciones son "1GB", "2GB", "4GB", "6GB", "12GB-V2", "12GB-V3". |
--ramforce | Use esta bandera para obligar al script a usar el VRAM deseado. Puede hacer que el script se bloquee si no hay suficiente VRAM disponible. |
--fp16 | Esto permite pasar una información más precisa al proceso. Esto le otorgará a la AL la capacidad de procesar más información a costa de velocidad. No verá un gran impacto en el hardware más fuerte. Combine las banderas 12GB-V3 + FP16 (modo de precisión en la GUI) para la experiencia final. |
--energy_threshold | Establezca el nivel de energía para que el micrófono detecte. El valor predeterminado es 100. Elija entre 1 a 1000; Cualquier cosa más alta será más difícil para activar la detección de audio. |
--mic_calibration_time | Cuánto tiempo calibrar el micrófono durante segundos. Para omitir la entrada del usuario, el tipo y el tiempo se establecerán en 5 segundos. |
--record_timeout | Establezca el tiempo en segundos para la grabación en tiempo real. El valor predeterminado es de 2 segundos. |
--phrase_timeout | Establezca el tiempo en segundos para el espacio vacío entre grabaciones antes de considerarlo una nueva línea en la transcripción. El valor predeterminado es 1 segundo. |
--translate | Traducir las transcripciones al inglés. Habilita la traducción. |
--transcribe | Transcribe el audio a un lenguaje de destino establecido. Se requiere un indicador de lenguaje de destino. |
--target_language | Seleccione el idioma para traducir. Las opciones disponibles son una lista de idiomas en formato ISO 639-1, así como sus nombres de inglés. |
--language | Seleccione el idioma para traducir desde. Las opciones disponibles son una lista de idiomas en formato ISO 639-1, así como sus nombres de inglés. |
--auto_model_swap | Intercambie automáticamente el modelo basado en el lenguaje detectado. Habilita el intercambio automático del modelo. |
--device | Seleccione el dispositivo para usar para el modelo. El valor predeterminado es "CUDA" si está disponible. Las opciones disponibles son "CPU" y "CUDA". Al configurar en CPU, puede elegir cualquier tamaño de RAM siempre que tenga suficiente RAM. La opción de CPU está optimizada para múltiples subprocesos, por lo que si tiene como 16 núcleos, 32 hilos, puede ver buenos resultados. |
--cuda_device | Seleccione el dispositivo CUDA para usar para el modelo. El valor predeterminado es 0. |
--discord_webhook | Establezca Discord Webhook para enviar la transcripción. |
--list_microphones | Lista de micrófonos y salida disponibles. |
--set_microphone | Establezca el micrófono predeterminado para usar. Puede establecer el nombre o su número de identificación de la lista. |
--microphone_enabled | Habilita el uso de micrófonos. Agregue true después de la bandera. |
--auto_language_lock | Bloquear automáticamente el lenguaje en función del lenguaje detectado después de 5 detecciones. Habilita el bloqueo de lenguaje automático. Ayudará a reducir la latencia. Use este indicador si está utilizando no inglés y si no conoce el lenguaje hablado actual. |
--model_dir | La ubicación predeterminada es la carpeta "modelo". Puede usar este argumento para cambiar la ubicación. |
--use_finetune | |
--no_log | Lo hace para que solo lo último traducido/transcrito se muestra más bien una lista de estilo de registro. |
--updatebranch | Verifique qué rama del repositorio verificar las actualizaciones. El valor predeterminado es maestro , las opciones son maestras y pruebas de desarrollo y sangrado bajo trabajo . Para desactivar las verificaciones de actualización, use Disable . Bleeding-Under-Work son básicamente los últimos cambios y pueden romper en cualquier momento. |
--keep_temp | Mantiene archivos de audio en la carpeta Out . Sin embargo, esto ocupará espacio con el tiempo. |
--portnumber | Establezca el número de puerto para el servidor web. Si no se establece ningún número, el servidor web no se iniciará. |
--retry | Realiza las traducciones y la transcripción si fallan. |
--about | Muestra sobre la aplicación. |
--save_transcript | Guarda la transcripción a un archivo de texto. |
--save_folder | Establezca la carpeta para guardar la transcripción. |
--stream | Transmitir audio desde una transmisión HLS. |
--stream_language | Lenguaje de la transmisión. Default is English. |
--stream_target_language | Lenguaje para traducir la transmisión a. El valor predeterminado es el inglés. Necesario para --stream_transcribe |
--stream_translate | Traducir la transmisión. |
--stream_transcribe | Transcribe la transmisión a un lenguaje diferente. Use --stream_target_language para cambiar la salida. |
--stream_original_text | Muestre el texto original detectado. |
--stream_chunks | En cuántos trozos para dividir la corriente. Se recomienda que el valor predeterminado sea 5 entre 3 y 5. Las transmisiones de YouTube deben ser 1 o 2, Twitch debe ser de 5 a 10. Cuanto mayor sea el número, más preciso, pero también más lento y retrasado, la traducción y la transcripción de la corriente serán. |
--cookies | Nombre del archivo de cookies, al igual que Twitch, YouTube, Twitchacc1, Twitchacczed |
--makecaptions | Establecer el programa en modo de subtítulos, requiere file_input, file_output, file_output_name |
--file_input | Ubicación del archivo para la entrada para hacer subtítulos, casi todos los formatos de video/audio compatibles (usa FFMPEG) |
--file_output | Ubicación de la carpeta para exportar los subtítulos |
--file_output_name | Nombre del archivo para exportar como sin ningún ext. |
--ignorelist | El uso es " --ignorelist "C:quotedpathtowordlist.txt" " |
--condition_on_previous_text | Ayudará al modelo a repetirse, pero puede ralentizar el proceso. |
--remote_hls_password_id | ID de contraseña para el servidor web. Por lo general, como 'ID' o 'clave'. Sin embargo, la clave es predeterminada para el programa, por lo que cuando solicita ID/contraseña, Synthalingua será key=000000 - key = id - 0000000 = password 16 caracteres de largo. |
--remote_hls_password | Contraseña para el servidor web HLS. |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" Con la bandera --ignorelist ahora puede cargar una lista de frases o palabras para ignorar en la ventana de salida de API y subtítulo. Esta lista ya está llena de frases comunes que la IA pensará que escuchó. Puede ajustar esta lista como usted, por favor o agregarle más palabras o frases.
Algunas transmisiones pueden requerir cookies establecidas, deberá guardar cookies como formato NetScape en la carpeta cookies como un archivo .txt. Si no existe una carpeta, creala. Puede guardar cookies usando este https://cookie-editor.com/ o cualquier otro editor de cookies, pero debe estar en formato NetScape.
Ejemplo de uso --cookies twitchacc1 no incluye la extensión del archivo .txt.
Cualquiera que haya llamado el archivo de texto en la carpeta Cookies, deberá usar ese nombre como argumento.
Con ?showtranscription indicador de comando --port 4000 , puede usar parámetros ?showtranslation consulta como ?showoriginal Si se usa algún otro parámetro de consulta o no se especifican los parámetros de consulta, todos los elementos se mostrarán por defecto. Puede elegir otro número que no sea 4000 si lo desea. Puede mezclar los parámetros de consulta para mostrar elementos específicos, deje en blanco para mostrar todos los elementos.
Por ejemplo:
http://localhost:4000?showoriginal mostrará el texto original detectado.http://localhost:4000?showtranslation mostrará el texto translated .http://localhost:4000?showtranscription mostrará el texto transcribed .http://localhost:4000/?showoriginal&showtranscription mostrará el texto original y transcribed .http://localhost:4000 o http://localhost:4000?otherparam=value mostrará todos los elementos por defecto. Esto creará subtítulos, con la opción 12GB-V3 y guardar en las descargas.
Tenga en cuenta que los subtítulos solo estarán en inglés (limitación del modelo), aunque siempre puede usar otros programas para traducirse en otros idiomas
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
Tiene una GPU de 12 GB y desea transmitir el audio desde una transmisión en vivo https://www.twitch.tv/somestreamerhere y quiere traducirlo al inglés. Puede ejecutar el siguiente comando:
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
Se admiten fuentes de transmisión de YouTube y Twitch. También puede usar cualquier otra fuente de flujo que admita HLS/M3U8.
Tienes una GPU con 6 GB de memoria y desea usar el modelo japonés. También desea traducir la transcripción al inglés. También desea enviar la transcripción a un canal Discord. También desea establecer el umbral de energía en 300. Puede ejecutar el siguiente comando:
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
Al elegir RAM, solo puede elegir 1GB, 2GB, 4GB, 6GB, 12GB-V2, 12GB-V3. No hay in-betweens.
Tiene una GPU de 12 GB y desea traducir al español desde el inglés, puede ejecutar el siguiente comando para V3 Reemplazar V3 con V2 si prefiere el original:
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
Digamos que tiene múltiples dispositivos de audio y desea usar el que no es el valor predeterminado. Puede ejecutar el siguiente comando: python transcribe_audio.py --list_microphones Este comando enumerará todos los dispositivos de audio y su índice. Luego puede usar el índice para establecer el dispositivo de audio predeterminado. Por ejemplo, si desea usar el segundo dispositivo de audio, puede ejecutar el siguiente comando: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti" para establecer el dispositivo para escuchar. *Tenga en cuenta las citas sobre el nombre del dispositivo. Esto se requiere para evitar errores. Se pueden cortar algunos nombres, exactamente lo que está en las citas de las cotizas de la lista.
Ejemplo digamos que tengo estos dispositivos:
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
Pusiría python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi" python transcribe_audio.py --set_microphone 4 configurar el dispositivo para escuchar.
Si encuentra algún problema con la herramienta, aquí hay algunos problemas comunes y sus soluciones:
transformers instalado ejecutando pip install transformers .python -m pip install transformers . Argumentos de línea de comandos utilizados. --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
Argumentos de línea de comandos utilizados. --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500