Unduh fatush - Unduh Kode Sumber fatush

fatush

Kode sumber lainnya

1.0.0

Unduh

Toolkit terjemahan

Kumpulan skrip untuk merampingkan terjemahan file Markdown menggunakan toko vektor dan pembelajaran mendalam.

Ringkasan

Toolkit ini menyediakan serangkaian skrip Python yang dirancang untuk menyederhanakan proses terjemahan untuk file -file Markdown. Scripts memanfaatkan model penyematan untuk meningkatkan keakuratan pengambilan dokumen dan meningkatkan alur kerja terjemahan secara keseluruhan.

Skrip

Skrip inisialisasi

search_word.py

Skrip search_word.py menginisialisasi mesin pencari untuk mengambil dokumen yang relevan berdasarkan embeddings. Ini dirancang untuk bekerja dengan file -file Markdown dalam berbagai bahasa. Aplikasi CLI didasarkan pada Typer.

Penggunaan

Instalasi:
- Instal modul itu sendiri:
  - Instal toolset: pip install fatush
  - Kemudian jalankan skrip: fatush run
- Instal seluruh proyek:
  - Clone Repositori ini: git clone https://github.com/alperiox/fatush.git
  - Ubah Direktori ke Folder Proyek: cd fatush
  - Instal Dependensi yang Diperlukan Menggunakan Pip atau Puisi: pip install -r requirements.txt atau poetry install
Konfigurasi:
- Jalankan skrip inisialisasi: python fatush/search_word.py run
- Ikuti petunjuk untuk mengatur konfigurasi awal.
- Jika file config.yaml tidak ditemukan, skrip akan mengambil dokumen dari repo FASTAPI dan membuat file konfigurasi yang diperlukan.
Dokumen Pemrosesan:
- Skrip akan memproses dokumen berdasarkan konfigurasi yang disediakan.
- Ini akan membagi dokumen baris demi baris dan kemudian menghitung embeddings mereka untuk mendirikan toko vektor faiss.
Memuat model embedding:
- Model embedding yang digunakan adalah All-Minilm-L6-V2, yang agak populer untuk VectorStores.
Toko Vektor:
- Jika jalur penyimpanan vektor tidak ditemukan dalam konfigurasi, itu akan dibangun dan dimuat. Itu akan dimuat secara otomatis sebaliknya.
- Saat ini, satu -satunya toko vektor yang diimplementasikan adalah FAISS.
Inisialisasi mesin pencari:
- Mesin pencari diinisialisasi dengan model embedding yang dimuat dan toko vektor.
- Skrip akan memulai proses inferensi untuk memberikan hasil pencarian yang relevan.
Todos:
- Tes integrasi
- Semoga aplikasi web berdasarkan FASTAPI
- Alat lain untuk secara otomatis menyarankan terjemahan awal untuk teks yang diberikan
- Saat ini, skrip tidak mencakup semua pengecualian. Ini mungkin mengharuskan Anda untuk mengkonfigurasi ulang skrip dengan menghapus file konfigurasi dan repositori yang diunduh jika Anda tidak menjalankan skrip secara langsung tanpa mengkonfigurasi opsi apa pun.

Opsi konfigurasi untuk `search_word.py`

source_lang : Kode Bahasa Sumber (misalnya, 'en').
translation_lang : Kode Bahasa Terjemahan (mis. 'TR').
docs_path : Jalur ke dokumen (default adalah direktori kerja saat ini).
vectorstore_path : jalur ke toko vektor (default adalah direktori kerja saat ini).

Catatan

Karena proyek ini dibangun di atas pengalaman saya dengan menerjemahkan dokumentasi FastAPI, abstraksi yang lebih baik adalah suatu keharusan untuk toolset yang lebih umum digunakan. Itu karena ada beberapa variabel kode keras saat ini, seperti mengambil dokumentasi dari repositori Fastapi.

Memperluas

Informasi Tambahan