Kumpulan skrip untuk merampingkan terjemahan file Markdown menggunakan toko vektor dan pembelajaran mendalam.
Toolkit ini menyediakan serangkaian skrip Python yang dirancang untuk menyederhanakan proses terjemahan untuk file -file Markdown. Scripts memanfaatkan model penyematan untuk meningkatkan keakuratan pengambilan dokumen dan meningkatkan alur kerja terjemahan secara keseluruhan.
Skrip search_word.py menginisialisasi mesin pencari untuk mengambil dokumen yang relevan berdasarkan embeddings. Ini dirancang untuk bekerja dengan file -file Markdown dalam berbagai bahasa. Aplikasi CLI didasarkan pada Typer.
Instalasi:
pip install fatushfatush rungit clone https://github.com/alperiox/fatush.gitcd fatushpip install -r requirements.txt atau poetry installKonfigurasi:
python fatush/search_word.py runconfig.yaml tidak ditemukan, skrip akan mengambil dokumen dari repo FASTAPI dan membuat file konfigurasi yang diperlukan.Dokumen Pemrosesan:
Memuat model embedding:
Toko Vektor:
Inisialisasi mesin pencari:
Todos:
search_word.pysource_lang : Kode Bahasa Sumber (misalnya, 'en').translation_lang : Kode Bahasa Terjemahan (mis. 'TR').docs_path : Jalur ke dokumen (default adalah direktori kerja saat ini).vectorstore_path : jalur ke toko vektor (default adalah direktori kerja saat ini). Karena proyek ini dibangun di atas pengalaman saya dengan menerjemahkan dokumentasi FastAPI, abstraksi yang lebih baik adalah suatu keharusan untuk toolset yang lebih umum digunakan. Itu karena ada beberapa variabel kode keras saat ini, seperti mengambil dokumentasi dari repositori Fastapi.