Una colección de scripts para optimizar la traducción de los archivos de Markdown utilizando tiendas vectoriales y aprendizaje profundo.
Este kit de herramientas proporciona un conjunto de scripts de Python diseñados para simplificar el proceso de traducción para los archivos de Markdown. Los scripts aprovechan los modelos de incrustación para mejorar la precisión de la recuperación de documentos y mejorar el flujo de trabajo de traducción general.
El script search_word.py inicializa un motor de búsqueda para recuperar documentos relevantes basados en incrustaciones. Está diseñado para funcionar con los archivos de Markdown en varios idiomas. La aplicación CLI se basa en Typer.
Instalación:
pip install fatushfatush rungit clone https://github.com/alperiox/fatush.gitcd fatushpip install -r requirements.txt o poetry installConfiguración:
python fatush/search_word.py runconfig.yaml , el script obtendrá documentos desde el repositorio de FastAPI y creará el archivo de configuración necesario.Documentos de procesamiento:
Modelo de incrustación de carga:
Tienda de vectores:
Inicialización del motor de búsqueda:
Todos:
search_word.pysource_lang : código de lenguaje de origen (por ejemplo, 'en').translation_lang : código de lenguaje de traducción (por ejemplo, 'tr').docs_path : ruta a los documentos (el valor predeterminado es el directorio de trabajo actual).vectorstore_path : ruta a la tienda Vector (el valor predeterminado es el directorio de trabajo actual). Dado que el proyecto se basa en mi experiencia con la traducción de la documentación de Fastapi, una abstracción más agradable es imprescindible para un conjunto de herramientas más utilizable. Esto se debe a que hay varias variables codificadas en este momento, como obtener la documentación del repositorio de Fastapi.