Uma coleção de scripts para otimizar a tradução de arquivos de marcação usando lojas vetoriais e aprendizado profundo.
Este kit de ferramentas fornece um conjunto de scripts Python projetados para simplificar o processo de tradução para arquivos de marcação. Os scripts aproveitam os modelos de incorporação para melhorar a precisão da recuperação de documentos e melhorar o fluxo de trabalho de tradução geral.
O script search_word.py inicializa um mecanismo de pesquisa para recuperar documentos relevantes com base em incorporação. Ele foi projetado para funcionar com arquivos de marcação em vários idiomas. O aplicativo CLI é baseado em Typer.
Instalação:
pip install fatushfatush rungit clone https://github.com/alperiox/fatush.gitcd fatushpip install -r requirements.txt ou poetry installConfiguração:
python fatush/search_word.py runconfig.yaml não for encontrado, o script buscará documentos do repo FASTAPI e criará o arquivo de configuração necessário.Documentos de processamento:
Modelo de incorporação de carregamento:
Vector Store:
Inicialização do mecanismo de pesquisa:
Todos:
search_word.pysource_lang : código de idioma de origem (por exemplo, 'en').translation_lang : Código de idioma de tradução (por exemplo, 'tr').docs_path : caminho para os documentos (o padrão é o diretório de trabalho atual).vectorstore_path : Path to the Vector Store (o padrão é o diretório de trabalho atual). Como o projeto é construído sobre minha experiência com a tradução da documentação do FASTAPI, uma abstração melhor é uma obrigação para um conjunto de ferramentas mais utilizável. Isso ocorre porque existem várias variáveis codificadas no momento, como buscar a documentação do repositório FASTAPI.