| Table des matières | Description |
|---|---|
| Clause de non-responsabilité | Choses à savoir / avertissements / avertissements / etc. |
| Liste de faire | Des choses à faire |
| Contributeurs | Les personnes qui ont aidé avec le projet ou ont contribué au projet. |
| Installation / configuration | Comment installer et configurer l'outil. |
| Mission | Arguments d'utilisation et de fichier - Exemples - serveur Web |
| Dépannage | Problèmes courants et comment les réparer. |
| Informations supplémentaires | Informations supplémentaires sur l'outil. |
| Démos vidéo | Démonstations vidéo de l'outil. |
| Notes supplémentaires | Notes supplémentaires sur l'outil. |
Cet outil de traduction alimenté par l'IA est actuellement un travail en cours et est activement développé pour améliorer sa précision et sa fonctionnalité au fil du temps. Les utilisateurs doivent être conscients que si l'outil fonctionne efficacement dans de nombreux scénarios, il n'est pas parfait et peut parfois produire des erreurs de traduction ou des bogues. Ces problèmes sont en continu en cours de résolution dans la mesure du possible, et les mises à jour seront déployées pour améliorer les performances de l'outil. Par exemple, vous pouvez rencontrer des situations où la traduction est légèrement éteinte ou où des problèmes techniques se produisent, mais ceux-ci devraient diminuer à mesure que des améliorations sont apportées.
La précision des traductions est significativement plus élevée lorsque la parole d'entrée est claire et lente. Si l'orateur parle trop rapidement ou marmonne, l'outil peut avoir du mal à fournir une traduction précise, bien qu'elle tentera toujours d'offrir une sortie utile. Par exemple, lorsque vous utilisez l'outil dans un environnement calme avec une parole claire et délibérée, les résultats sont généralement plus précis. Cependant, dans des paramètres bruyants ou lorsque le discours est précipité, vous pourriez voir une baisse de précision. Le bruit de fond, comme la musique forte, peut également interférer avec la capacité de l'outil à traduire efficacement.
Il est important de noter que cet outil est conçu pour une utilisation décontractée et non professionnelle. Il est idéal à des fins telles que l'apprentissage des langues, l'engagement dans des conversations informelles ou la compréhension du contenu étranger pour le divertissement. Cependant, il n'est pas destiné à des enjeux élevés ou à des traductions professionnelles, telles que des documents juridiques, des textes médicaux ou des communications officielles. Par exemple, bien que l'outil puisse être amusant et éducatif pour apprendre une nouvelle langue ou regarder les médias étrangers, il ne doit pas être invoqué pour des tâches spécialisées ou critiques où la précision est primordiale.
En tant qu'utilisateur, vous êtes responsable de vous assurer que l'outil est utilisé de manière éthique et non à des fins telles que la diffusion de la désinformation ou du discours de haine. S'il y a une différence entre la traduction et le discours d'origine, il est crucial que vous vérifiiez la sortie avant de la partager avec d'autres. Par exemple, si l'outil produit une traduction trompeuse, il est de votre responsabilité de revérifier le contenu avant de l'utiliser ou de le distribuer davantage.
Les utilisateurs doivent également savoir qu'ils utilisent l'outil à leurs propres risques. Le propriétaire du référentiel ne peut pas être tenu responsable des dommages, des problèmes ou des conséquences involontaires qui découlent de l'utilisation de cet outil. Par exemple, si l'outil fonctionne mal ou fournit une traduction inexacte qui conduit à un malentendu, les contributeurs de développeurs ne sont pas responsables des résultats qui se produisent à la suite de cela. En tant qu'utilisateur, vous assumez toute la responsabilité de vos actions lors de l'utilisation de l'outil.
Cet outil n'est pas destiné à remplacer les traducteurs humains, en particulier pour un contenu complexe ou spécialisé. Bien qu'il puisse être utile pour un usage occasionnel et quotidien, un traducteur professionnel doit être consulté pour des tâches plus complexes, telles que la traduction des accords juridiques ou des manuels techniques. Par exemple, si vous avez besoin d'une traduction précise d'un contrat commercial, il est recommandé de demander l'aide d'un traducteur humain qualifié plutôt que de compter uniquement sur cet outil.
En termes de performances, l'efficacité de l'outil peut varier en fonction de votre configuration matérielle. Un processeur ou un GPU plus rapide entraînera de meilleurs résultats, tandis que les systèmes plus lents peuvent subir des retards ou une réduction des performances. Cependant, d'autres facteurs, tels que la vitesse de connexion Internet ou la qualité des microphones, ont un effet minimal sur sa fonctionnalité. Par exemple, si vous exécutez l'outil sur un ordinateur haute performance, vous ressentirez probablement des traductions plus lisses par rapport à l'utiliser sur une machine plus ancienne et plus lente.
Enfin, il est important de se rappeler qu'il s'agit d'un outil , pas d'un service . Si l'utiliser viole les conditions d'utilisation d'une plate-forme ou cause des problèmes, la responsabilité incombe uniquement à l'utilisateur. Par exemple, si l'utilisation de l'outil entraîne la violation des règles sur une plate-forme, comme l'utilisation de l'outil pour traduire un langage inapproprié - vous êtes responsable des pénalités ou restrictions imposées en conséquence.
| Faire | Tâche | Statut |
|---|---|---|
| Ajoutez une prise en charge des GPU AMD. | Prise en charge du ROCM - WSL 2.0 / Linux uniquement | ✅ |
| Prise en charge d'OpenCL - Linux uniquement | ✅ | |
| Ajouter l'accès à l'API de support. | ✅ | |
| Serveur Web localhost personnalisé. | ✅ | |
| Ajouter une traduction inverse. | ✅ | |
| Localiser le script dans d'autres langues. (Se déroulera après les traductions inversées.) | ||
| Support de dictionnaire personnalisé. | ||
| GUI | ✅ | |
| Création de sous-titre | ✅ | |
| Prise en charge Linux. | ✅ | |
| Améliorer les performances. | ||
| Format de modèle comprimé pour les utilisateurs de RAM inférieurs | ✅ | |
| Meilleur grand modèle de vitesse de chargement | ✅ | |
| Diviser le modèle en plusieurs morceaux en fonction de l'utilisation | ||
| Stream audio de l'URL | ✅ | |
| Augmenter la précision d'échange de modèles. | ||
| Aucun microphone requis | Module de streaming | ✅ |
| Panneau de configuration du serveur | Actuellement sous travail, sortira dans un prochain communiqué. Je veux en sortir bientôt le plus possible, mais je suis tombé sur des barrages routiers. Ceci est une fonctionnalité PRIO supérieure, veuillez garder un œil sur un futur blog de développement sur plus de détails et de prévisualisation! | ? |
| GPU pris en charge | Description |
|---|---|
| Graphiques dédiés à Nvidia | Soutenu |
| Graphiques intégrés NVIDIA | Testé - non pris en charge |
| AMD / ATI | * Linux vérifié |
| Arc Intel | Non pris en charge |
| Intel HD | Non pris en charge |
| Intel IGPU | Non pris en charge |
Vous pouvez trouver une liste complète des GPU NVIDA pris en charge ici:
| Exigence | Minimum | Modéré | Recommandé | Meilleure performance |
|---|---|---|---|---|
| Cœurs de processeur | 2 | 6 | 8 | 16 |
| Vitesse d'horloge du CPU (GHZ) | 2,5 ou plus | 3,0 ou plus | 3,5 ou plus | 4,0 ou plus |
| Ram (GB) | 4 ou plus | 8 ou plus | 16 ou plus | 16 ou plus |
| GPU VRAM (GB) | 2 ou plus | 6 ou plus | 8 ou plus | 12 ou plus |
| Espace disque gratuit (GB) | 15 ou plus | 15 ou plus | 15 ou plus | 15 ou plus |
| GPU (suggéré) Tant que le GPU que vous avez est dans VRAM Spec, cela devrait bien fonctionner. | Nvidia gtx 1050 ou plus | Nvidia GTX 1660 ou plus | Nvidia rtx 3070 ou plus | Nvidia rtx 3090 ou plus |
Note:
L'outil fonctionnera sur tout système qui répond aux exigences minimales. L'outil fonctionnera mieux sur les systèmes qui répondent aux exigences recommandées. L'outil fonctionnera mieux sur les systèmes qui répondent aux meilleures exigences de performance. Vous pouvez mélanger et faire correspondre les exigences pour obtenir les meilleures performances. Par exemple, vous pouvez avoir un CPU qui répond aux meilleures exigences de performance et à un GPU qui répond aux exigences modérées. L'outil fonctionnera mieux sur les systèmes qui répondent aux meilleures exigences de performance.
--stream pour diffuser l'audio à partir d'un flux HLS. Voir des exemples pour plus d'informations.setup.batsetup.bashgcc soit installé et portaudio19-dev installé (ou portaudio-devel pour certaines machines)Ce script utilise ArgParse pour accepter les arguments de ligne de commande. Les options suivantes sont disponibles:
| Drapeau | Description |
|---|---|
--ram | Modifiez la quantité de RAM à utiliser. La valeur par défaut est de 4 Go. Les choix sont "1 Go", "2 Go", "4 Go", "6 Go", "12 Go-V2", "12 Go-V3". |
--ramforce | Utilisez ce drapeau pour forcer le script à utiliser VRAM souhaité. Peut entraîner le plantage du script s'il n'y a pas assez de VRAM disponible. |
--fp16 | Cela permet de transmettre des informations plus précises au processus. Cela accordera à l'AL la possibilité de traiter plus d'informations au coût de la vitesse. Vous ne verrez pas un impact important sur le matériel plus fort. Combinez des drapeaux 12 Go-V3 + FP16 (mode de précision sur l'interface graphique) pour l'expérience ultime. |
--energy_threshold | Réglez le niveau d'énergie pour le microphone à détecter. La valeur par défaut est 100. Choisissez de 1 à 1000; Tout ce qui est plus élevé sera plus difficile de déclencher la détection audio. |
--mic_calibration_time | Combien de temps pour calibrer le micro en quelques secondes. Pour sauter le type d'entrée utilisateur 0 et le temps sera défini sur 5 secondes. |
--record_timeout | Réglez le temps en quelques secondes pour l'enregistrement en temps réel. La valeur par défaut est de 2 secondes. |
--phrase_timeout | Réglez le temps en quelques secondes pour l'espace vide entre les enregistrements avant de le considérer comme une nouvelle ligne dans la transcription. La valeur par défaut est de 1 seconde. |
--translate | Traduire les transcriptions en anglais. Permet la traduction. |
--transcribe | Transcrire l'audio à une langue cible définie. Un drapeau de langue cible est requis. |
--target_language | Sélectionnez la langue pour traduire vers. Les choix disponibles sont une liste de langues au format ISO 639-1, ainsi que leurs noms anglais. |
--language | Sélectionnez la langue à traduire. Les choix disponibles sont une liste de langues au format ISO 639-1, ainsi que leurs noms anglais. |
--auto_model_swap | Échangez automatiquement le modèle en fonction de la langue détectée. Permet l'échange automatique du modèle. |
--device | Sélectionnez l'appareil à utiliser pour le modèle. La valeur par défaut est "CUDA" si disponible. Les options disponibles sont "CPU" et "CUDA". Lorsque vous définissez sur CPU, vous pouvez choisir n'importe quelle taille de RAM tant que vous avez suffisamment de RAM. L'option CPU est optimisée pour le multi-threading, donc si vous avez environ 16 cœurs, 32 threads, vous pouvez voir de bons résultats. |
--cuda_device | Sélectionnez le périphérique CUDA à utiliser pour le modèle. La valeur par défaut est 0. |
--discord_webhook | Définissez la Discord WebHook pour envoyer la transcription à. |
--list_microphones | Liste des microphones disponibles et de la sortie. |
--set_microphone | Définissez le microphone par défaut à utiliser. Vous pouvez définir le nom ou son numéro d'identification à partir de la liste. |
--microphone_enabled | Permet l'utilisation du microphone. Ajoutez true après le drapeau. |
--auto_language_lock | Verrouillez automatiquement la langue en fonction de la langue détectée après 5 détections. Permet le verrouillage automatique du langage. Aidera à réduire la latence. Utilisez ce drapeau si vous utilisez non l'anglais et si vous ne connaissez pas la langue parlée actuelle. |
--model_dir | L'emplacement par défaut est le dossier "modèle". Vous pouvez utiliser cet argument pour modifier l'emplacement. |
--use_finetune | |
--no_log | Le fait que seule la dernière chose traduite / transcrite est montrée plutôt que la liste de style de journal. |
--updatebranch | Vérifiez quelle branche du dépôt pour vérifier les mises à jour. La valeur par défaut est maître , les choix sont maître et les tests de développement et le saignement sous le travail . Pour désactiver les vérifications de mise à jour, utilisez la désactivation . Le saignement sous le travail est essentiellement les derniers changements et peut se casser à tout moment. |
--keep_temp | Continue des fichiers audio dans le dossier OUT . Cela prendra de la place au fil du temps. |
--portnumber | Définissez le numéro de port pour le serveur Web. Si aucun numéro n'est défini, le serveur Web ne démarre pas. |
--retry | Récupère les traductions et la transcription en cas d'échec. |
--about | Montre l'application. |
--save_transcript | Enregistre la transcription dans un fichier texte. |
--save_folder | Définissez le dossier pour enregistrer la transcription. |
--stream | Stream Audio à partir d'un flux HLS. |
--stream_language | Langue du flux. La valeur par défaut est l'anglais. |
--stream_target_language | Langue pour traduire le flux vers. La valeur par défaut est l'anglais. Nécessaire pour --stream_transcribe |
--stream_translate | Traduire le flux. |
--stream_transcribe | Transcrire le flux à une langue différente. Utilisez --stream_target_language pour modifier la sortie. |
--stream_original_text | Afficher le texte original détecté. |
--stream_chunks | Combien de morceaux pour diviser le flux. La valeur par défaut est recommandée entre 3 et 5. Les flux YouTube doivent être de 1 ou 2, Twitch doit être de 5 à 10. Plus le nombre est élevé, plus il sera précis, mais plus le lenteur et le retard de la traduction et de la transcription seront. |
--cookies | Nom de fichier cookies, tout comme Twitch, YouTube, Twitchacc1, TwitchAcczed |
--makecaptions | Définir le programme en mode légendes, nécessite un fichier_input, file_output, file_output_name |
--file_input | Emplacement du fichier pour l'entrée pour effectuer des légendes, presque tous les formats vidéo / audio pris en charge (utilise ffmpeg) |
--file_output | Emplacement du dossier pour exporter les légendes |
--file_output_name | Nom de fichier à exporter comme sans aucune ext. |
--ignorelist | L'utilisation est " --ignorelist "C:quotedpathtowordlist.txt" " |
--condition_on_previous_text | Aidera le modèle à se répéter, mais peut ralentir le processus. |
--remote_hls_password_id | ID de mot de passe pour le serveur Web. Généralement comme «id», ou «clé». La clé est par défaut pour le programme, donc lorsqu'il demande l'identifiant / le mot de passe, Synthalingua sera key=000000 - key = id - 0000000 = password 16 Chars. |
--remote_hls_password | Mot de passe pour le serveur Web HLS. |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" Avec le drapeau --ignorelist vous pouvez désormais charger une liste de phrases ou de mots à ignorer dans la sortie de l'API et la fenêtre de sous-titre. Cette liste est déjà remplie de phrases communes que l'IA pensera qu'elle aura entendue. Vous pouvez ajuster cette liste comme vous s'il vous plaît ou y ajoutez plus de mots ou de phrases.
Certains flux peuvent nécessiter des cookies, vous devrez enregistrer des cookies sous forme de format NetScape dans le dossier cookies en tant que fichier .txt. Si un dossier n'existe pas, créez-le. Vous pouvez enregistrer des cookies en utilisant cet https://cookie-editor.com/ ou tout autre éditeur de cookies, mais il doit être au format Netscape.
Exemple d'utilisation --cookies twitchacc1 n'incluent pas l'extension de fichier .txt.
Quel que soit le nom du fichier texte dans le dossier des cookies, vous devrez utiliser ce nom comme argument.
Avec le drapeau de commande --port 4000 , vous pouvez utiliser des paramètres de requête comme ?showoriginal ,? ?showtranslation et ?showtranscription pour afficher des éléments spécifiques. Si un autre paramètre de requête est utilisé ou si aucun paramètre de requête n'est spécifié, tous les éléments seront affichés par défaut. Vous pouvez choisir un autre numéro autre que 4000 si vous le souhaitez. Vous pouvez mélanger les paramètres de requête pour afficher des éléments spécifiques, laisser vide pour afficher tous les éléments.
Par exemple:
http://localhost:4000?showoriginal affichera le texte détecté original .http://localhost:4000?showtranslation affichera le texte translated .http://localhost:4000?showtranscription affichera le texte transcribed .http://localhost:4000/?showoriginal&showtranscription affichera le texte original et transcribed .http://localhost:4000 ou http://localhost:4000?otherparam=value affichera tous les éléments par défaut. Cela créera des légendes, avec l'option 12 Go-V3 et enregistrera aux téléchargements.
Veuillez noter que les légendes ne seront qu'en anglais (limitation du modèle), bien que vous puissiez toujours utiliser d'autres programmes pour se traduire dans d'autres langues
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
Vous avez un GPU de 12 Go et vous souhaitez diffuser l'audio à partir d'un flux en direct https://www.twitch.tv/somestreamerhere et souhaitez le traduire en anglais. Vous pouvez exécuter la commande suivante:
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
Les sources de flux de YouTube et Twitch sont prises en charge. Vous pouvez également utiliser n'importe quelle autre source de flux qui prend en charge HLS / M3U8.
Vous avez un GPU avec 6 Go de mémoire et vous souhaitez utiliser le modèle japonais. Vous souhaitez également traduire la transcription en anglais. Vous souhaitez également envoyer la transcription à un canal Discord. Vous souhaitez également définir le seuil d'énergie sur 300. Vous pouvez exécuter la commande suivante:
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
Lorsque vous choisissez RAM, vous ne pouvez choisir que 1 Go, 2 Go, 4 Go, 6 Go, 12 Go-V2, 12 Go-V3. Il n'y a pas de bassement.
Vous avez un GPU de 12 Go et vous souhaitez traduire en espagnol de l'anglais, vous pouvez exécuter la commande suivante pour V3 Remplacer V3 par V2 si vous préférez l'original:
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
Disons que vous avez plusieurs appareils audio et que vous souhaitez utiliser celui qui n'est pas la valeur par défaut. Vous pouvez exécuter la commande suivante: python transcribe_audio.py --list_microphones Cette commande répertorie tous les périphériques audio et leur index. Vous pouvez ensuite utiliser l'index pour définir le périphérique audio par défaut. Par exemple, si vous souhaitez utiliser le deuxième périphérique audio, vous pouvez exécuter la commande suivante: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti" pour définir le périphérique pour écouter.
Exemple disons que j'ai ces appareils:
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
Je mettrais python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi" pour définir l'appareil pour écouter. -Or- Je mettrais python transcribe_audio.py --set_microphone 4 pour définir l'appareil pour écouter.
Si vous rencontrez des problèmes avec l'outil, voici quelques problèmes courants et leurs solutions:
transformers a installé en exécutant pip install transformers .python -m pip install transformers . Arguments de ligne de commande utilisés. --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
Arguments de ligne de commande utilisés. --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500