คอลเลกชันของสคริปต์เพื่อปรับปรุงการแปลไฟล์ Markdown โดยใช้การเก็บเวกเตอร์และการเรียนรู้อย่างลึกซึ้ง
ชุดเครื่องมือนี้มีชุดสคริปต์ Python ที่ออกแบบมาเพื่อลดความซับซ้อนของกระบวนการแปลสำหรับไฟล์ Markdown สคริปต์ใช้ประโยชน์จากแบบจำลองการฝังเพื่อเพิ่มความแม่นยำของการดึงเอกสารและปรับปรุงเวิร์กโฟลว์การแปลโดยรวม
สคริปต์ search_word.py เริ่มต้นเครื่องมือค้นหาสำหรับการดึงเอกสารที่เกี่ยวข้องตาม Embeddings มันถูกออกแบบมาเพื่อทำงานกับไฟล์ Markdown ในหลายภาษา แอพ CLI ขึ้นอยู่กับ Typer
การติดตั้ง:
pip install fatushfatush rungit clone https://github.com/alperiox/fatush.gitcd fatushpip install -r requirements.txt หรือ poetry installการกำหนดค่า:
python fatush/search_word.py runconfig.yaml สคริปต์จะดึงเอกสารจาก fastapi repo และสร้างไฟล์การกำหนดค่าที่จำเป็นเอกสารการประมวลผล:
โหลดโมเดลฝัง:
ร้านค้าเวกเตอร์:
การเริ่มต้นเครื่องมือค้นหา:
Todos:
search_word.pysource_lang : รหัสภาษาต้นทาง (เช่น 'en')translation_lang : รหัสภาษาแปล (เช่น 'tr')docs_path : เส้นทางไปยังเอกสาร (ค่าเริ่มต้นคือไดเรกทอรีการทำงานปัจจุบัน)vectorstore_path : พา ธ ไปที่ร้านค้าเวกเตอร์ (ค่าเริ่มต้นคือไดเรกทอรีการทำงานปัจจุบัน) เนื่องจากโครงการถูกสร้างขึ้นจากประสบการณ์ของฉันด้วยการแปลเอกสาร Fastapi สิ่งที่เป็นนามธรรมที่ดีกว่าจึงเป็นสิ่งจำเป็นสำหรับชุดเครื่องมือที่ใช้งานได้โดยทั่วไป นั่นเป็นเพราะมีตัวแปรที่ใช้รหัสยากหลายตัวในขณะนี้เช่นการดึงเอกสารจากที่เก็บ fastapi