fatush Download - ดาวน์โหลดซอร์สโค้ด fatush

fatush

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ชุดเครื่องมือแปล

คอลเลกชันของสคริปต์เพื่อปรับปรุงการแปลไฟล์ Markdown โดยใช้การเก็บเวกเตอร์และการเรียนรู้อย่างลึกซึ้ง

ภาพรวม

ชุดเครื่องมือนี้มีชุดสคริปต์ Python ที่ออกแบบมาเพื่อลดความซับซ้อนของกระบวนการแปลสำหรับไฟล์ Markdown สคริปต์ใช้ประโยชน์จากแบบจำลองการฝังเพื่อเพิ่มความแม่นยำของการดึงเอกสารและปรับปรุงเวิร์กโฟลว์การแปลโดยรวม

สคริปต์

สคริปต์การเริ่มต้น

search_word.py

สคริปต์ search_word.py เริ่มต้นเครื่องมือค้นหาสำหรับการดึงเอกสารที่เกี่ยวข้องตาม Embeddings มันถูกออกแบบมาเพื่อทำงานกับไฟล์ Markdown ในหลายภาษา แอพ CLI ขึ้นอยู่กับ Typer

การใช้งาน

การติดตั้ง:
- ติดตั้งโมดูลเอง:
  - ติดตั้งชุดเครื่องมือ: pip install fatush
  - จากนั้นเรียกใช้สคริปต์: fatush run
- ติดตั้งโครงการทั้งหมด:
  - โคลนที่เก็บนี้: git clone https://github.com/alperiox/fatush.git
  - เปลี่ยนไดเรกทอรีเป็นโฟลเดอร์โครงการ: cd fatush
  - ติดตั้งการพึ่งพาที่ต้องการโดยใช้ PIP หรือบทกวี: pip install -r requirements.txt หรือ poetry install
การกำหนดค่า:
- เรียกใช้สคริปต์การเริ่มต้น: python fatush/search_word.py run
- ทำตามพรอมต์เพื่อตั้งค่าการกำหนดค่าเริ่มต้น
- หากไม่พบไฟล์ config.yaml สคริปต์จะดึงเอกสารจาก fastapi repo และสร้างไฟล์การกำหนดค่าที่จำเป็น
เอกสารการประมวลผล:
- สคริปต์จะประมวลผลเอกสารตามการกำหนดค่าที่ให้ไว้
- มันจะแยกเอกสารทีละบรรทัดแล้วคำนวณการฝังตัวของพวกเขาเพื่อตั้งค่าร้านค้าเวกเตอร์ FAISS
โหลดโมเดลฝัง:
- โมเดลการฝังที่ใช้แล้วคือทั้งหมดที่มีทั้งหมด-L6-V2 ซึ่งค่อนข้างเป็นที่นิยมสำหรับ VectorStores
ร้านค้าเวกเตอร์:
- หากไม่พบเส้นทางการเก็บเวกเตอร์ในการกำหนดค่ามันจะถูกสร้างและโหลด มันจะถูกโหลดโดยอัตโนมัติเป็นอย่างอื่น
- ปัจจุบันร้านค้าเวกเตอร์ที่ใช้งานเพียงแห่งเดียวคือ FAISS
การเริ่มต้นเครื่องมือค้นหา:
- เครื่องมือค้นหาเริ่มต้นด้วยรุ่นฝังตัวที่โหลดและร้านค้าเวกเตอร์
- สคริปต์จะเริ่มกระบวนการอนุมานเพื่อให้ผลการค้นหาที่เกี่ยวข้อง
Todos:
- การทดสอบการรวม
- หวังว่าเว็บแอปพลิเคชันที่อิงจาก fastapi
- อีกเครื่องมือหนึ่งสำหรับการแนะนำการแปลเริ่มต้นโดยอัตโนมัติสำหรับข้อความที่กำหนด
- ปัจจุบันสคริปต์ไม่ครอบคลุมข้อยกเว้นทั้งหมด สิ่งนี้อาจทำให้คุณต้องกำหนดค่าสคริปต์ใหม่โดยการลบไฟล์กำหนดค่าและที่เก็บข้อมูลที่ดาวน์โหลดหากคุณไม่เรียกใช้สคริปต์โดยตรงโดยไม่ต้องกำหนดค่าตัวเลือกใด ๆ

ตัวเลือกการกำหนดค่าสำหรับ `search_word.py`

source_lang : รหัสภาษาต้นทาง (เช่น 'en')
translation_lang : รหัสภาษาแปล (เช่น 'tr')
docs_path : เส้นทางไปยังเอกสาร (ค่าเริ่มต้นคือไดเรกทอรีการทำงานปัจจุบัน)
vectorstore_path : พา ธ ไปที่ร้านค้าเวกเตอร์ (ค่าเริ่มต้นคือไดเรกทอรีการทำงานปัจจุบัน)

บันทึก

เนื่องจากโครงการถูกสร้างขึ้นจากประสบการณ์ของฉันด้วยการแปลเอกสาร Fastapi สิ่งที่เป็นนามธรรมที่ดีกว่าจึงเป็นสิ่งจำเป็นสำหรับชุดเครื่องมือที่ใช้งานได้โดยทั่วไป นั่นเป็นเพราะมีตัวแปรที่ใช้รหัสยากหลายตัวในขณะนี้เช่นการดึงเอกสารจากที่เก็บ fastapi

ขยาย

ข้อมูลเพิ่มเติม