Téléchargement fatush - Téléchargement du code source fatush

fatush

Autre code source

1.0.0

Télécharger

Boîte à outils de traduction

Une collection de scripts pour rationaliser la traduction des fichiers Markdown à l'aide de magasins vectoriels et d'apprentissage en profondeur.

Aperçu

Cette boîte à outils fournit un ensemble de scripts Python conçus pour simplifier le processus de traduction pour les fichiers Markdown. Les scripts exploitent les modèles d'intégration pour améliorer la précision de la récupération de documents et améliorer le flux de travail de traduction global.

Scripts

Script d'initialisation

search_word.py

Le script search_word.py initialise un moteur de recherche pour récupérer des documents pertinents basés sur des intégres. Il est conçu pour fonctionner avec des fichiers Markdown en plusieurs langues. L'application CLI est basée sur Typer.

Usage

Installation:
- Installez le module lui-même:
  - Installez le jeu d'outils: pip install fatush
  - Ensuite, exécutez le script: fatush run
- Installez l'ensemble du projet:
  - Clone Ce référentiel: git clone https://github.com/alperiox/fatush.git
  - Changer le répertoire dans le dossier du projet: cd fatush
  - Installez les dépendances requises à l'aide de PIP ou de poésie: pip install -r requirements.txt ou poetry install
Configuration:
- Exécutez le script d'initialisation: python fatush/search_word.py run
- Suivez les invites pour configurer la configuration initiale.
- Si le fichier config.yaml n'est pas trouvé, le script rapportera les documents à partir du repo FastAPI et créera le fichier de configuration nécessaire.
Documents de traitement:
- Le script traitera les documents en fonction de la configuration fournie.
- Il divisera les documents ligne par ligne, puis calculera leurs intérêts pour configurer un magasin vectoriel FAISS.
Modèle d'intégration de chargement:
- Le modèle d'incorporation utilisé est tout miniilm-L6-V2, qui est plutôt populaire pour les comptoirs.
Magasin vectoriel:
- Si le chemin du magasin vectoriel n'est pas trouvé dans la configuration, il sera construit et chargé. Il sera chargé automatiquement autrement.
- Actuellement, le seul magasin vectoriel implémenté est Faish.
Initialisation du moteur de recherche:
- Le moteur de recherche est initialisé avec le modèle d'incorporation chargé et le magasin vectoriel.
- Le script démarrera le processus d'inférence pour fournir des résultats de recherche pertinents.
Todos:
- Tests d'intégration
- Espérons qu'une application Web basée sur Fastapi
- Encore un autre outil pour suggérer automatiquement les traductions initiales pour le texte donné
- Actuellement, les scripts ne couvrent pas toutes les exceptions. Cela peut vous obliger à reconfigurer le script en supprimant le fichier de configuration et le référentiel téléchargé si vous n'exécutez pas le script directement sans configurer aucune option.

Options de configuration pour `search_word.py`

source_lang : code de langue source (par exemple, «en»).
translation_lang : code de langue de traduction (par exemple, 'tr').
docs_path : chemin vers les documents (par défaut est le répertoire de travail actuel).
vectorstore_path : Chemin vers le magasin Vector (par défaut est le répertoire de travail actuel).

Note

Étant donné que le projet est construit sur mon expérience de la traduire la documentation Fastapi, une abstraction plus agréable est un must pour un ensemble d'outils plus généralement utilisable. En effet, il existe plusieurs variables codées durs en ce moment, comme récupérer la documentation du référentiel Fastapi.

Développer

Informations supplémentaires