| Inhaltsverzeichnis | Beschreibung |
|---|---|
| Haftungsausschluss | Dinge zu wissen/Haftungsausschlüsse/Warnungen/etc. |
| LISTE | Dinge zu tun |
| Mitwirkende | Menschen, die beim Projekt geholfen oder zum Projekt beigetragen haben. |
| Installieren/Setup | So installieren und richten Sie das Tool ein. |
| Miser | Verwendungs- und Dateiargumente - Beispiele - Webserver |
| Fehlerbehebung | Häufige Probleme und wie man sie behebt. |
| Zusätzliche Informationen | Zusätzliche Informationen zum Tool. |
| Video Demos | Videovorführungen des Tools. |
| Zusätzliche Notizen | Zusätzliche Anmerkungen zum Werkzeug. |
Dieses KI-betriebene Übersetzungstool ist derzeit in Arbeit und wird aktiv entwickelt, um seine Genauigkeit und Funktionalität im Laufe der Zeit zu verbessern. Benutzer sollten sich bewusst sein, dass das Tool zwar in vielen Szenarien effektiv funktioniert, es jedoch nicht perfekt ist und gelegentlich Übersetzungsfehler oder Fehler erzeugt. Diese Probleme werden nach Möglichkeit kontinuierlich behandelt, und Updates werden eingeführt, um die Leistung des Tools zu verbessern. Zum Beispiel können Sie auf Situationen stoßen, in denen die Übersetzung leicht abgesetzt ist oder in denen technische Störungen auftreten. Es wird jedoch erwartet, dass diese nach Verbesserungen abnehmen.
Die Genauigkeit der Übersetzungen ist signifikant höher, wenn die Eingangssprache klar und langsam ist. Wenn der Sprecher zu schnell oder murmelt, könnte das Tool Schwierigkeiten haben, eine genaue Übersetzung zu liefern, obwohl es weiterhin versucht, eine nützliche Ausgabe anzubieten. Wenn Sie beispielsweise das Tool in einer ruhigen Umgebung mit klarer, absichtlicher Sprache verwenden, sind die Ergebnisse im Allgemeinen genauer. In lauten Einstellungen oder wenn die Rede überstürzt ist, sehen Sie möglicherweise einen Rückgang der Genauigkeit. Hintergrundgeräusche wie laute Musik können auch die Fähigkeit des Werkzeugs beeinträchtigen, effektiv zu übersetzen.
Es ist wichtig zu beachten, dass dieses Tool für den lässigen, nicht professionellen Gebrauch ausgelegt ist. Es ist ideal für Zwecke wie Sprachlernen, informelle Gespräche oder das Verständnis von ausländischen Inhalten für Unterhaltung. Es ist jedoch nicht für hohe Einsätze oder professionelle Übersetzungen wie Rechtsdokumente, medizinische Texte oder offizielle Kommunikation bestimmt. Während das Tool zum Beispiel Spaß und lehrreich für das Erlernen einer neuen Sprache oder das Ansehen von ausländischen Medien sein kann, sollte es sich nicht auf spezielle oder kritische Aufgaben verlassen, bei denen die Genauigkeit von größter Bedeutung ist.
Als Benutzer sind Sie dafür verantwortlich, dass das Tool ethisch und nicht für Zwecke wie die Verbreitung von Fehlinformationen oder Hassreden verwendet wird. Wenn es eine Diskrepanz zwischen der Übersetzung und der ursprünglichen Sprache gibt, ist es entscheidend, dass Sie die Ausgabe überprüfen, bevor Sie sie mit anderen teilen. Wenn das Tool beispielsweise eine irreführende Übersetzung erzeugt, liegt es in Ihrer Verantwortung, den Inhalt zu überprüfen, bevor Sie sie verwenden oder weiter verteilen.
Benutzer sollten sich auch bewusst sein, dass sie das Tool auf eigenes Risiko verwenden. Der Repository -Eigentümer kann für Schäden, Probleme oder unbeabsichtigte Konsequenzen, die sich aus der Verwendung dieses Tools ergeben, nicht zur Rechenschaft gezogen werden. Wenn das Tool beispielsweise fehlt oder eine ungenaue Übersetzung liefert, die zu einem Missverständnis führt, haften die Entwickler (en) Mitwirkenden nicht für Ergebnisse, die aufgrund dieser Ergebnisse auftreten. Sie als Benutzer übernehmen alle Verantwortung für Ihre Aktionen, während Sie das Tool verwenden.
Dieses Tool soll nicht menschliche Übersetzer ersetzen, insbesondere für komplexe oder spezialisierte Inhalte. Obwohl es für den lässigen und täglichen Gebrauch hilfreich sein kann, sollte ein professioneller Übersetzer für kompliziertere Aufgaben konsultiert werden, z. B. für die Übersetzung von Rechtsvereinbarungen oder technischen Handbüchern. Wenn Sie beispielsweise eine genaue Übersetzung eines Geschäftsvertrags benötigen, wird empfohlen, bei einem qualifizierten menschlichen Übersetzer um Hilfe zu bitten, anstatt sich ausschließlich auf dieses Tool zu verlassen.
In Bezug auf die Leistung kann die Effektivität des Tools je nach Hardware -Setup variieren. Eine schnellere CPU oder eine GPU führt zu besseren Ergebnissen, während langsamere Systeme Verzögerungen oder eine verringerte Leistung aufweisen können. Andere Faktoren wie Internetverbindungsgeschwindigkeit oder Mikrofonqualität haben jedoch einen minimalen Einfluss auf seine Funktionalität. Wenn Sie beispielsweise das Tool auf einem leistungsstarken Computer ausführen, haben Sie wahrscheinlich eine glattere Übersetzungen im Vergleich dazu, es auf einer älteren, langsameren Maschine zu verwenden.
Schließlich ist es wichtig, sich daran zu erinnern, dass dies ein Tool ist, kein Service . Wenn die Verwendung der Nutzungsbedingungen einer Plattform verstößt oder Probleme verursacht, liegt die Verantwortung ausschließlich auf den Benutzer. Wenn beispielsweise die Verwendung des Tools dazu führt, dass Regeln auf einer Plattform verstoßen - wie das Tool zur Übersetzung unangemessener Sprache - sind Sie für Strafen oder Beschränkungen verantwortlich, die infolgedessen auferlegt werden.
| Todo | Unteraufgabe | Status |
|---|---|---|
| Fügen Sie Unterstützung für AMD -GPUs hinzu. | ROCM -Unterstützung - nur WSL 2.0/Linux | ✅ |
| OpenCL -Unterstützung - nur Linux | ✅ | |
| Fügen Sie Support -API -Zugriff hinzu. | ✅ | |
| Benutzerdefinierte localhost Webserver. | ✅ | |
| Fügen Sie umgekehrte Übersetzung hinzu. | ✅ | |
| Lokalisieren Sie das Skript in anderen Sprachen. (Wird nach umgekehrten Übersetzungen stattfinden.) | ||
| Benutzerdefinierte Wörterbuchunterstützung. | ||
| GUI. | ✅ | |
| Erstellung von Untertiteln | ✅ | |
| Linux -Unterstützung. | ✅ | |
| Leistung verbessern. | ||
| Komprimiertes Modellformat für niedrigere RAM -Benutzer | ✅ | |
| Bessere große Modellladegeschwindigkeit | ✅ | |
| Teilen Sie das Modell auf, die auf der Verwendung in mehreren Brocken basieren | ||
| Stream Audio aus der URL | ✅ | |
| Erhöhen Sie die Genauigkeit der Modelltausch. | ||
| Kein Mikrofon erforderlich | Streaming -Modul | ✅ |
| Server -Bedienfeld | Derzeit wird in einer zukünftigen Veröffentlichung veröffentlicht. Ich möchte das bald wie möglich herausholen, aber ich bin auf Straßenblöcke gestoßen. Dies ist eine höhere PRIO -Funktion. Bitte halten Sie Ausschau nach einem zukünftigen Entwicklungsblog für weitere Details und Voransichten! | ? |
| Unterstützter GPUs | Beschreibung |
|---|---|
| NVIDIA DEVICE GRAFIKE | Unterstützt |
| Nvidia Integrierte Grafiken | Getestet - nicht unterstützt |
| AMD/ATI | * Linux verifiziert |
| Intel Arc | Nicht unterstützt |
| Intel HD | Nicht unterstützt |
| Intel IGPU | Nicht unterstützt |
Hier finden Sie eine vollständige Liste der unterstützten NVIDA -GPUs:
| Erfordernis | Minimum | Mäßig | Empfohlen | Beste Leistung |
|---|---|---|---|---|
| CPU -Kerne | 2 | 6 | 8 | 16 |
| CPU -Taktgeschwindigkeit (GHz) | 2,5 oder höher | 3.0 oder höher | 3,5 oder höher | 4.0 oder höher |
| RAM (GB) | 4 oder höher | 8 oder höher | 16 oder höher | 16 oder höher |
| GPU VRAM (GB) | 2 oder höher | 6 oder höher | 8 oder höher | 12 oder höher |
| Freier Speicherplatz (GB) | 15 oder höher | 15 oder höher | 15 oder höher | 15 oder höher |
| GPU (vorgeschlagen) Solange die GPU, die Sie haben, befindet sich die VRAM -Spezifikation, sollte es gut funktionieren. | Nvidia GTX 1050 oder höher | Nvidia GTX 1660 oder höher | Nvidia RTX 3070 oder höher | Nvidia RTX 3090 oder höher |
Notiz:
Das Tool funktioniert an jedem System, das den Mindestanforderungen entspricht. Das Tool funktioniert besser auf Systemen, die den empfohlenen Anforderungen entsprechen. Das Tool funktioniert am besten für Systeme, die den besten Leistungsanforderungen entsprechen. Sie können die Anforderungen mischen und entsprechen, um die beste Leistung zu erzielen. Sie können beispielsweise eine CPU haben, die den besten Leistungsanforderungen erfüllt, und eine GPU, die den moderaten Anforderungen entspricht. Das Tool funktioniert am besten für Systeme, die den besten Leistungsanforderungen entsprechen.
--stream verwenden, um Audio aus einem HLS -Stream zu streamen. Weitere Informationen finden Sie unter Beispiele.setup.batsetup.bashgcc installiert ist und portaudio19-dev installiert (oder portaudio-devel für einige Maschinen ").Dieses Skript verwendet ArgParse, um die Befehlszeilenargumente zu akzeptieren. Die folgenden Optionen sind verfügbar:
| Flagge | Beschreibung |
|---|---|
--ram | Ändern Sie die zu verwendende Menge an RAM. Standard ist 4 GB. Die Auswahl ist "1 GB", "2 GB", "4 GB", "6 GB", "12 GB-V2", "12 GB-V3". |
--ramforce | Verwenden Sie dieses Flag, um das Skript zu zwingen, um das gewünschte VRAM zu verwenden. Kann das Skript zum Absturz bringen, wenn nicht genügend VRAM verfügbar ist. |
--fp16 | Dies ermöglicht eine genauere Informationen, die an den Prozess übergeben werden. Dadurch wird dem Al die Möglichkeit gewährt, weitere Informationen auf Kosten der Geschwindigkeit zu verarbeiten. Sie werden keine starken Auswirkungen auf stärkere Hardware sehen. Kombinieren Sie 12 GB-V3 + FP16-Flags (Präzisionsmodus der GUI) für die ultimative Erfahrung. |
--energy_threshold | Stellen Sie das Energieniveau für das Erkennung von Mikrofon ein. Standard ist 100. Wählen Sie zwischen 1 und 1000; Alles höher ist schwieriger, die Audioerkennung auszulösen. |
--mic_calibration_time | Wie lange kann das Mikrofon für Sekunden kalibrieren. So werden Benutzereingangstyp 0 und die Zeit auf 5 Sekunden eingestellt. |
--record_timeout | Legen Sie die Zeit in Sekunden für Echtzeitaufnahmen ein. Standard ist 2 Sekunden. |
--phrase_timeout | Legen Sie die Zeit in Sekunden für den leeren Raum zwischen den Aufnahmen ein, bevor Sie sie als eine neue Linie in der Transkription betrachten. Standard ist 1 Sekunde. |
--translate | Übersetzen Sie die Transkriptionen in Englisch. Ermöglicht die Übersetzung. |
--transcribe | Transkribieren Sie das Audio in eine festgelegte Zielsprache. Zielsprachflag ist erforderlich. |
--target_language | Wählen Sie die Sprache aus, zu der übersetzt werden soll. Die verfügbaren Auswahlmöglichkeiten sind eine Liste von Sprachen im ISO 639-1-Format sowie deren englische Namen. |
--language | Wählen Sie die Sprache aus, aus der sie übersetzt werden soll. Die verfügbaren Auswahlmöglichkeiten sind eine Liste von Sprachen im ISO 639-1-Format sowie deren englische Namen. |
--auto_model_swap | Tauschen Sie das Modell automatisch anhand der erkannten Sprache aus. Ermöglicht automatische Modelltausch. |
--device | Wählen Sie das Gerät für das Modell aus. Der Standard ist "cuda", falls verfügbar. Verfügbare Optionen sind "CPU" und "CUDA". Wenn Sie sich auf die CPU einstellen, können Sie jede RAM -Größe auswählen, solange Sie über genügend RAM verfügen. Die CPU-Option ist für Multi-Threading optimiert. Wenn Sie also 16 Kerne und 32 Threads haben, können Sie gute Ergebnisse sehen. |
--cuda_device | Wählen Sie das CUDA -Gerät für das Modell aus. Standard ist 0. |
--discord_webhook | Legen Sie den Discord Webhook fest, um die Transkription an zu senden. |
--list_microphones | Listen Sie verfügbare Mikrofone auf und beenden Sie. |
--set_microphone | Legen Sie das Standardmikrofon ein. Sie können den Namen oder seine ID -Nummer aus der Liste festlegen. |
--microphone_enabled | Ermöglicht die Verwendung von Mikrofon. Fügen Sie true nach der Flagge hinzu. |
--auto_language_lock | Sperren Sie die Sprache automatisch anhand der erkannten Sprache nach 5 Erkennungen. Ermöglicht die automatische Sprachversperrung. Wird dazu beitragen, die Latenz zu verringern. Verwenden Sie dieses Flag, wenn Sie nicht englisch verwenden und die aktuelle gesprochene Sprache nicht kennen. |
--model_dir | Der Standardspeicherort ist "Modell" -Firde. Sie können dieses Argument verwenden, um den Standort zu ändern. |
--use_finetune | |
--no_log | Macht es so nur das letztes übersetzt/transkribiert wird eher log stile liste angezeigt. |
--updatebranch | Überprüfen Sie, welche Filiale vom Repo vom Repo nach Updates suchen. Standard ist Master , Auswahlmöglichkeiten sind Master- und Devesting- und Blutungsarbeit . Um Update -Checks auszuschalten, verwenden Sie Deaktivierung . Bleeding-unter-Arbeit sind im Grunde die neuesten Änderungen und können jederzeit brechen. |
--keep_temp | Hält Audiodateien im Out -Ordner. Dies wird im Laufe der Zeit jedoch Platz einnehmen. |
--portnumber | Legen Sie die Portnummer für den Webserver fest. Wenn keine Nummer festgelegt ist, startet der Webserver nicht. |
--retry | Übersetzungen und Transkription, wenn sie versagen. |
--about | Shows über die App. |
--save_transcript | Speichert das Transkript in einer Textdatei. |
--save_folder | Stellen Sie den Ordner ein, um das Transkript auf zu speichern. |
--stream | Stream Audio aus einem HLS -Stream. |
--stream_language | Sprache des Streams. Standard ist Englisch. |
--stream_target_language | Sprache, um den Stream auf zu übersetzen. Standard ist Englisch. Benötigt für --stream_transcribe |
--stream_translate | Übersetzen Sie den Stream. |
--stream_transcribe | Transkribieren Sie den Stream in eine andere Sprache. Verwenden Sie --stream_target_language um die Ausgabe zu ändern. |
--stream_original_text | Zeigen Sie den erkannten Originaltext. |
--stream_chunks | Wie viele Teile, um den Strom aufzuteilen. Der Standardwert wird empfohlen, zwischen 3 und 5 zu liegen. YouTube -Streams sollten 1 oder 2 sein, zu Twitch sollte 5 bis 10 sein. Je höher die Zahl, desto genauer, aber auch umso langsamer und verzögert die Stromübersetzung und Transkription. |
--cookies | Cookies -Dateiname, genau wie Twitch, YouTube, Twitchacc1, TwitchAcczed |
--makecaptions | Setzen Sie das Programm auf den Bildungsmodus, benötigt Datei_input, File_Output, File_Output_Name |
--file_input | Ort der Datei für die Eingabe, um Bildunterschriften für fast das gesamte Video/Audio -Format zu erstellen (verwendet FFMPEG) |
--file_output | Position des Ordners zum Exportieren der Bildunterschriften |
--file_output_name | Dateiname zum Exportieren wie ohne ext. |
--ignorelist | Verwendung ist " --ignorelist "C:quotedpathtowordlist.txt" " |
--condition_on_previous_text | Hilft dem Modell, sich selbst zu wiederholen, kann aber den Prozess verlangsamen. |
--remote_hls_password_id | Passwort -ID für den Webserver. Normalerweise wie 'ID' oder 'Schlüssel'. Der Schlüssel ist jedoch für das Programm standardmäßig. Wenn es also nach ID/Kennwort verlangt, ist Synthalua key=000000 - key = id - 0000000 = password 16 Zeichen lang. |
--remote_hls_password | Passwort für den HLS -Webserver. |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" Mit der Flagge --ignorelist können Sie jetzt eine Liste von Phrasen oder Wörtern laden, um das Fenster API -Ausgabe und Untertitel zu ignorieren. Diese Liste ist bereits mit allgemeinen Sätzen gefüllt, die die KI denken wird, die sie gehört hat. Sie können diese Liste als Sie bitte anpassen oder weitere Wörter oder Phrasen hinzufügen.
Einige Streams erfordern möglicherweise Cookies eingestellt. Sie müssen Cookies als NetScape -Format in den cookies -Ordner als .txt -Datei speichern. Wenn es keinen Ordner gibt, erstellen Sie ihn. Sie können Cookies mit diesem https://cookie-editor.com/ oder einem anderen Cookie-Editor speichern, es muss jedoch im Netscape-Format sein.
Beispiel Verwendung --cookies twitchacc1 enthalten nicht die .txt -Dateierweiterung.
Was auch immer Sie die Textdatei im Ordner cookies benannten, müssen diesen Namen als Argument verwenden.
Mit dem Befehlsflag --port 4000 können Sie Abfragungsparameter wie ?showoriginal , ?showtranslation und ?showtranscription verwenden, um bestimmte Elemente anzuzeigen. Wenn ein anderer Abfrageparameter verwendet wird oder keine Abfrageparameter angegeben werden, werden alle Elemente standardmäßig angezeigt. Sie können eine andere Nummer als 4000 auswählen, wenn Sie möchten. Sie können die Abfrageparameter mischen, um bestimmte Elemente anzuzeigen und leer zu lassen, um alle Elemente anzuzeigen.
Zum Beispiel:
http://localhost:4000?showoriginal zeigt den original erkannten Text an.http://localhost:4000?showtranslation zeigt den translated Text an.http://localhost:4000?showtranscription zeigt den transcribed Text.http://localhost:4000/?showoriginal&showtranscription zeigt den original und transcribed Text.http://localhost:4000 oder http://localhost:4000?otherparam=value zeigt standardmäßig alle Elemente an. Dadurch werden Untertitel mit der 12GB-V3-Option erstellt und auf Downloads gespeichert.
Bitte beachten Sie, dass Bildunterschriften nur in englischer Sprache (Modellbeschränkung) sein, obwohl Sie immer andere Programme verwenden können, um in andere Sprachen übersetzt zu werden
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
Sie haben eine 12 -GB -GPU und möchten das Audio aus einem Live -Stream https://www.twitch.tv/somestreamerhere streamen und möchten sie in Englisch übersetzen. Sie können den folgenden Befehl ausführen:
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
Stream -Quellen von YouTube und Twitch werden unterstützt. Sie können auch jede andere Stream -Quelle verwenden, die HLS/M3U8 unterstützt.
Sie haben eine GPU mit 6 GB Speicher und möchten das japanische Modell verwenden. Sie möchten auch die Transkription in Englisch übersetzen. Sie möchten die Transkription auch an einen Discord -Kanal senden. Sie möchten auch den Energieschwellenwert auf 300 festlegen. Sie können den folgenden Befehl ausführen:
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
Bei der Auswahl von RAM können Sie nur 1 GB, 2 GB, 4 GB, 6 GB, 12 GB-V2, 12 GB-V3 auswählen. Es gibt keine In-Between.
Sie haben eine 12 -GB -GPU und möchten auf Spanisch von Englisch übersetzen. Sie können den folgenden Befehl für v3 ausführen. Ersetzen Sie V3 durch V2, wenn Sie das Original bevorzugen:
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
Nehmen wir an, Sie haben mehrere Audiogeräte und möchten denjenigen verwenden, der nicht die Standardeinstellung ist. Sie können den folgenden Befehl ausführen: python transcribe_audio.py --list_microphones In diesem Befehl wird alle Audiogeräte und deren Index aufgeführt. Sie können dann den Index verwenden, um das Standard -Audio -Gerät festzulegen. Wenn Sie beispielsweise das zweite Audio-Gerät verwenden möchten, können Sie den folgenden Befehl ausführen: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti" Um das Gerät zum Anhören zu legen. *Bitte beachten Sie die Zitate um den Gerätenamen.
Beispiel sagen wir, ich habe diese Geräte:
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
Ich würde python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi" einstellen, um das Gerät zu hören. -Or- Ich würde python transcribe_audio.py --set_microphone 4 für das Anhören einstellen.
Wenn Sie Probleme mit dem Tool begegnen, finden Sie hier einige häufige Probleme und deren Lösungen:
transformers -Modul durch Ausführen pip install transformers installiert ist.python -m pip install transformers . Befehlszeilenargumente verwendet. --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
Befehlszeilenargumente verwendet. --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500