Eine Sammlung von Skripten, um die Übersetzung von Markdown -Dateien mithilfe von Vektorspeichern und Deep Learning zu optimieren.
Dieses Toolkit bietet eine Reihe von Python -Skripten, die den Übersetzungsprozess für Markdown -Dateien vereinfachen sollen. Die Skripte nutzen die Einbettungsmodelle, um die Genauigkeit des Dokumentenabrufs zu verbessern und den allgemeinen Übersetzungs -Workflow zu verbessern.
Das Skript search_word.py initialisiert eine Suchmaschine, um relevante Dokumente basierend auf Einbettungsdings abzurufen. Es ist so konzipiert, dass es mit Markdown -Dateien in mehreren Sprachen funktioniert. Die CLI -App basiert auf Typer.
Installation:
pip install fatushfatush rungit clone https://github.com/alperiox/fatush.gitcd fatushpip install -r requirements.txt oder poetry installKonfiguration:
python fatush/search_word.py runconfig.yaml nicht gefunden wird, holt das Skript Dokumente aus dem Fastapi -Repo und erstellt die erforderliche Konfigurationsdatei.Verarbeitungsdokumente:
Laden des Einbettungsmodells:
Vektor Store:
Suchmaschineninitialisierung:
Todos:
search_word.pysource_lang : Quellsprachcode (z. B. 'EN').translation_lang : Übersetzungssprachcode (z. B. 'TR').docs_path : Pfad zu den Dokumenten (Standard ist das aktuelle Arbeitsverzeichnis).vectorstore_path : Pfad zum Vector Store (Standard ist das aktuelle Arbeitsverzeichnis). Da das Projekt auf meiner Erfahrung mit der Übersetzung der Fastapi -Dokumentation aufgebaut ist, ist eine schönere Abstraktion ein Muss für ein allgemeines verwendbares Toolset. Das liegt daran, dass momentan mehrere hartcodierte Variablen vorhanden sind, z. B. das Abholen der Dokumentation aus dem Fastapi-Repository.