chatgpt subtitle translator Download - chatgpt subtitle translator Quellcode herunterladen

chatgpt subtitle translator

Anderer Quellcode

v2.16.2

Herunterladen

Chatgpt API SRT -Untertitelübersetzer

Chatgpt hat auch seine Fähigkeiten als robuster Übersetzer demonstriert, der nicht nur gemeinsame Sprachen, sondern auch unkonventionelle Formen des Schreibens wie Emojis und Wortkrampfe umgehen kann. Es kann jedoch nicht immer eine deterministische Ausgabe erzeugen und sich an eine Line-zu-Line-Korrelation halten, was möglicherweise den Zeitpunkt der Untertitel stört, selbst wenn sie angewiesen werden, präzise Anweisungen zu befolgen und den Parameter temperature auf 0 zu setzen.

Dieses Dienstprogramm verwendet die OpenAI-Chatgpt-API, um Text mit einem spezifischen Fokus auf zeilenbasierte Übersetzung zu übersetzen, insbesondere für SRT-Untertitel. Der Übersetzer optimiert die Nutzung der Token, indem sie SRT-Overhead entfernen und Text in Stapel gruppiert, was zu willkürlichen Längenübersetzungen ohne übermäßigen Tokenverbrauch führt und gleichzeitig ein Eins-zu-Eins-Übereinstimmung zwischen Linieneingang und Ausgang sicherstellt.

Webschnittstelle: https://cerlancism.github.io/chatgpt-subtitle-translator

Merkmale

Web User Interface (Web UI) und Befehlszeilenschnittstelle (CLI)
NEU : Unterstützt die strukturierte Ausgabe: Für prägnantere Ergebnisse, die in der Web-Benutzeroberfläche und in CLI mit --experimental-structured-mode verfügbar sind.
NEU : Unterstützt das schnelle Caching, indem der vollständige Kontext übersetzter Daten einbezogen wird. Der Systemanweisungen und der Übersetzungskontext sind so verpackt, dass sie gut mit einem schnellen Caching funktionieren, das mit --experimental-use-full-context (nur CLI) aktiviert ist.
Zeilenbasierte Charge: Vermeiden Sie Token-Grenze pro Anfrage, Reduzierung von Overhead-Token-Verschwendung, Aufrechterhaltung des Übersetzungskontexts in gewissem Maße
Überprüfen Sie mit dem kostenlosen OpenAI -Moderationsinstrument: Verhindern Sie eine Tokenverschwendung, wenn das Modell höchst
Streaming -Prozessausgabe
Anfrage pro Minute (U / min) Ratenlimits
Fortschrittsaufnahme (nur CLI)

Aufstellen

Referenz: https://github.com/openai/openai-quickstart-node#setup

Node.js Version >= 16.13.0 Erforderlich. Diese Readme nimmt bash -Shell -Umgebung an

Klonen Sie dieses Repository und navigieren Sie in das Verzeichnis

git clone https://github.com/Cerlancism/chatgpt-subtitle-translator && cd chatgpt-subtitle-translator

Installieren Sie die Anforderungen
```
npm install
```
Ausführbare Erlaubnis geben
```
chmod +x cli/translator.mjs
```
Kopieren .example.env zu .env
```
cp .env.example .env
```
Fügen Sie Ihren API -Schlüssel zur neu erstellten .env -Datei hinzu
- (Optional) Setzen Sie die Ratenlimits: https://platform.openai.com/docs/guides/rate-limits/overview

Cli

 cli/translator.mjs --help

Usage: translator [options]

Translation tool based on ChatGPT API

Optionen:

--from <language>
Quellsprache (Standard: "")
--to <language>
Zielsprache (Standard: "Englisch")
-i, --input <file>
Eingabe von Quelltext mit dem Inhalt dieser Datei im .srt -Format oder im Klartext
-o, --output <file>
Ausgabedatei -Name, Standardeinstellungen, die auf Eingabedateinamen basieren, um zu basieren
-p, --plain-text <text>
Eingabe von Quelltext mit diesem Klartextargument
-s, --system-instruction <instruction>
Überschreiben Sie die Anweisungsvorlage für Eingabeaufforderungssysteme Translate ${from} to ${to} mit diesem einfachen Text, ignorieren Sie --from und --to -optionen
--initial-prompts <prompts>
Erste Eingabeaufforderungen für die Übersetzung in JSON (Standard: "[]" )
--no-use-moderator
Verwenden Sie den OpenAI -API -Moderationsendpunkt nicht
--moderation-model
(Standard: "omni-moderation-latest" ) https://platform.openai.com/docs/models/moderation
--no-prefix-number
Präfixen keine Zeilen mit numerischen Indizes
--no-line-matching
Durchsetzen
-l, --history-prompt-length <length>
Länge des Eingangsverlaufs für den nächsten Anforderungsstapel (Standard: 10)
-b, --batch-sizes <sizes> Stapelgrößen zunehmender Reihenfolge für Übersetzungsaufforderungsscheiben in JSON-Array (Standardeinstellung: "[10,100]" )
Die Anzahl der Zeilen, die in jede Übersetzungsaufforderung enthalten sind, vorausgesetzt, sie werden innerhalb der Token -Grenze geschätzt. Bei nicht übereinstimmenden Ausgangsleitungsmengen wird diese Zahl Schritt für Schritt gemäß den Werten im Array verringert, was letztendlich einen erreicht.
Größere Chargengrößen führen im Allgemeinen zu einer effizienteren Token -Nutzung und einer möglicherweise besseren Kontextübersetzung. Nicht übereinstimmende Ausgangsleitungsmengen oder die Überschreitung der Token -Grenze verursachen jedoch eine Token -Verschwendung, wodurch die Stapel mit einer geringeren Chargengröße erneut gemeldet werden muss.
--experimental-structured-mode [mode]
Aktivieren Sie die strukturierte Reaktion. (Standard: array , Choices array , object )
- --experimental-structured-mode array strukturiert den Eingang und die Ausgabe in ein einfaches Array-Format. Diese Option ist im Vergleich zum Basismodus prägnanter, wird jedoch etwas mehr Token pro Stapel verwendet.
- --experimental-structured-mode object sowohl die Eingabe als auch die Ausgabe in ein dynamisch erzeugter Objektschema basierend auf Eingabewerten. Diese Option ist noch prägnanter und verwendet weniger Token, erfordert jedoch kleinere Chargengrößen und kann langsam und unzuverlässig sein. Aufgrund seiner Unzuverlässigkeit kann es zu mehr Wiedervermietungsantrieb führen und dabei möglicherweise mehr Token verschwenden.
--experimental-use-full-context
Fügen Sie den vollständigen Kontext übersetzter Daten hinzu, um gut mit einem schnellen Zwischenspeichern zu funktionieren.
Die übersetzten Zeilen pro Benutzer- und Assistenzmeldungspaare werden gemäß den Definition durch --history-prompt-length (standardmäßig --history-prompt-length 10 ) geschnitten. Es wird empfohlen, dies auf die größte Chargengröße festzulegen (standardmäßig --batch-sizes "[10,100]" ): --history-prompt-length 100 .
Wenn Sie dies aktivieren, kann dies das Gefahr bringen, das Kontextfenster des Modells, normalerweise 128K , zu betreiben, sollte jedoch für die meisten Fälle ausreichen.
--log-level <level>
Protokollstufe (Standard: debug , Auswahl: trace , debug , info , warn , error , silent )
--silent
Das gleiche wie --log-level silent
--quiet
Das gleiche wie --log-level silent

Zusätzliche Optionen für GPT:

-m, --model <model>
(Standard: "gpt-4o-mini" ) https://platform.openai.com/docs/api-reference/chat/create
--stream
Stream-Fortschritt Ausgabe von terminal https://platform.openai.com/docs/api-reference/chat/create#chat-create-stream
-t, --temperature <temperature>
Die zu verwendende Stichprobentemperatur, sollte 1 niedrigen Wert unter 0.3 festlegen, um für die Übersetzung deterministischer zu sein
--top_p <top_p>
Nucleus-Probenahmeparameter, TOP_P-Wahrscheinlichkeit Mass https://platform.openai.com/docs/api-reference/chat/create#chat-create-top_p
--presence_penalty <presence_penalty>
Strafe für neue Token basierend auf ihrer Anwesenheit im Text bisher https://platform.openai.com/docs/api-reference/chat/create#chat-create-presence_penalty
--frequency_penalty <frequency_penalty
Strafe für neue Token basierend auf ihrer Häufigkeit im Text bisher https://platform.openai.com/docs/api-reference/chat/create#chat-create-frequency_penalty
--logit_bias <logit_bias>
Ändern Sie die Wahrscheinlichkeit, dass bestimmte Token in der Fertigstellung https://platform.openai.com/docs/api-reference/chat/create#chat-create-logit_bias angezeigt werden

Beispiele

Einfacher Text

cli/translator.mjs --plain-text "你好"

Standardausgabe

 Hello.

Emojis

cli/translator.mjs --stream --to " Emojis " --temperature 0 --plain-text " $( curl ' https://api.chucknorris.io/jokes/0ECUwLDTTYSaeFCq6YMa5A ' | jq .value ) "

Eingabeargument

 Chuck Norris can walk with the animals, talk with the animals; grunt and squeak and squawk with the animals... and the animals, without fail, always say 'yessir Mr. Norris'.

Standardausgabe

 ?‍???‍♂️??????????????️??️❗️????‍??=???????????????????=??.

Krabbeln

cli/translator.mjs --stream --system-instruction " Scramble characters of words while only keeping the start and end letter " --no-prefix-number --no-line-matching --temperature 0 --plain-text " Chuck Norris can walk with the animals, talk with the animals; "

Standardausgabe

 Cuhck Nroris can wakl wtih the aiamnls, talk wtih the aiamnls;

Ungehindert

cli/translator.mjs --stream --system-instruction " Unscramble characters back to English " --no-prefix-number --no-line-matching --temperature 0 --plain-text " Cuhck Nroris can wakl wtih the aiamnls, talk wtih the aiamnls; "

Standardausgabe

 Chuck Norris can walk with the animals, talk with the animals;

Einfache Textdatei

cli/translator.mjs --stream --temperature 0 --input test/data/test_cn.txt

Eingabedatei: Test/Data/test_cn.txt

你好。
拜拜！

Standardausgabe

 Hello.  
Goodbye!

SRT -Datei

cli/translator.mjs --stream --temperature 0 --input test/data/test_ja_small.srt

Eingabedatei: Test/Data/test_ja_small.srt

 1
00 : 00 : 00 , 000 --> 00 : 00 : 02 , 000
おはようございます。

2
00 : 00 : 02 , 000 --> 00 : 00 : 05 , 000
お元気ですか？

3
00 : 00 : 05 , 000 --> 00 : 00 : 07 , 000
はい、元気です。

4
00 : 00 : 08 , 000 --> 00 : 00 : 12 , 000
今日は天気がいいですね。

5
00 : 00 : 12 , 000 --> 00 : 00 : 16 , 000
はい、とてもいい天気です。

Ausgabedatei: Test/Data/test_ja_small.srt.out_english.srt

 1
00 : 00 : 00 , 000 --> 00 : 00 : 02 , 000
Good morning.

2
00 : 00 : 02 , 000 --> 00 : 00 : 05 , 000
How are you?

3
00 : 00 : 05 , 000 --> 00 : 00 : 07 , 000
Yes, I'm doing well.

4
00 : 00 : 08 , 000 --> 00 : 00 : 12 , 000
The weather is nice today, isn' t it?

5
00 : 00 : 12 , 000 --> 00 : 00 : 16 , 000
Yes, it's very nice weather.

Wie es funktioniert

Token -Reduktionen

Systemanweisung
Token: 5

 Translate Japanese to English

Eingang Prompt Verwandeln Ausgabe

Eingang	Prompt	Verwandeln	Ausgabe
Token: `164`	Token: `83`	Token: `46`	Token: `130`
1 00 : 00 : 00 , 000 --> 00 : 00 : 02 , 000 おはようございます。 2 00 : 00 : 02 , 000 --> 00 : 00 : 05 , 000 お元気ですか？ 3 00 : 00 : 05 , 000 --> 00 : 00 : 07 , 000 はい、元気です。 4 00 : 00 : 08 , 000 --> 00 : 00 : 12 , 000 今日は天気がいいですね。 5 00 : 00 : 12 , 000 --> 00 : 00 : 16 , 000 はい、とてもいい天気です。	`1. おはようございます。 2. お元気ですか？ 3. はい、元気です。 4. 今日は天気がいいですね。 5. はい、とてもいい天気です。`	`1. Good morning. 2. How are you? 3. Yes, I'm doing well. 4. The weather is nice today, isn't it? 5. Yes, it's very nice weather.`	1 00 : 00 : 00 , 000 --> 00 : 00 : 02 , 000 Good morning. 2 00 : 00 : 02 , 000 --> 00 : 00 : 05 , 000 How are you? 3 00 : 00 : 05 , 000 --> 00 : 00 : 07 , 000 Yes, I'm doing well. 4 00 : 00 : 08 , 000 --> 00 : 00 : 12 , 000 The weather is nice today, isn' t it? 5 00 : 00 : 12 , 000 --> 00 : 00 : 16 , 000 Yes, it's very nice weather.

Token: 164

Token: 83

Token: 46

Token: 130

 1
00 : 00 : 00 , 000 --> 00 : 00 : 02 , 000
おはようございます。

2
00 : 00 : 02 , 000 --> 00 : 00 : 05 , 000
お元気ですか？

3
00 : 00 : 05 , 000 --> 00 : 00 : 07 , 000
はい、元気です。

4
00 : 00 : 08 , 000 --> 00 : 00 : 12 , 000
今日は天気がいいですね。

5
00 : 00 : 12 , 000 --> 00 : 00 : 16 , 000
はい、とてもいい天気です。

 1. おはようございます。
2. お元気ですか？
3. はい、元気です。
4. 今日は天気がいいですね。
5. はい、とてもいい天気です。

 1. Good morning.
2. How are you?
3. Yes, I'm doing well.
4. The weather is nice today, isn't it?
5. Yes, it's very nice weather.

 1
00 : 00 : 00 , 000 --> 00 : 00 : 02 , 000
Good morning.

2
00 : 00 : 02 , 000 --> 00 : 00 : 05 , 000
How are you?

3
00 : 00 : 05 , 000 --> 00 : 00 : 07 , 000
Yes, I'm doing well.

4
00 : 00 : 08 , 000 --> 00 : 00 : 12 , 000
The weather is nice today, isn' t it?

5
00 : 00 : 12 , 000 --> 00 : 00 : 16 , 000
Yes, it's very nice weather.

Ergebnisse

Todo : Mehr Analyse

5 SRT -Linien:
test/data/test_ja_small.srt

Keine (einfacher Text SRT -Eingangsausgabe):
Token: 299
Keine Charge, mit SRT -Stripping, aber einer Zeile pro Eingabeaufforderung mit Systemanweisungen, einschließlich bis zu 10 historischer promptierter Kontext:
Token: 362
SRT -Stripping und Linienanschläge von 2:
Token: 276

30 SRT -Linien:
Test/Data/test_ja.srt

Keine (einfacher Text SRT -Eingangsausgabe):
Token: 1625
Keine Charge, mit SRT -Stripping, aber einer Zeile pro Eingabeaufforderung mit Systemanweisungen, einschließlich bis zu 10 historischer promptierter Kontext:
Token: 6719
SRT -Stripping und Linienanschläge von [5, 10] , einschließlich bis zu 10 historischer Kontext:
Token: 1036

Expandieren

Zusätzliche Informationen