มันสะท้อนให้เห็นถึงวัตถุประสงค์หลักของรหัสซึ่งคือการดำเนินการค้นหาความหมายในชุดข้อมูลของเอกสารข้อความโดยใช้ FAISS สำหรับการจัดทำดัชนีและตัวเข้ารหัสประโยคสากลสำหรับการสร้าง embeddings
ในรหัสนี้:
เราดึงชุดข้อมูลกลุ่มข่าว 20 ชุดซึ่งเป็นชุดของเอกสารที่ครอบคลุมหัวข้อต่าง ๆ
เราประมวลผลเอกสารแต่ละฉบับล่วงหน้าโดยการลบส่วนหัวอีเมลที่อยู่เครื่องหมายวรรคตอนและตัวเลขและแปลงข้อความเป็นตัวพิมพ์เล็กเพื่อความสม่ำเสมอ
เราใช้ตัวเข้ารหัสประโยคสากลเพื่อสร้างการฝังตัวโดยแปลงเอกสารแต่ละฉบับให้เป็นตัวแทนตัวเลขที่มีความยาวคงที่ซึ่งจับความหมายเชิงความหมาย
เราสร้างดัชนี FAISS ซึ่งเป็นไลบรารีการค้นหาที่คล้ายคลึงกันอย่างรวดเร็วและเพิ่มเอกสารฝังตัวเพื่อเปิดใช้งานการค้นหาความคล้ายคลึงกันที่มีประสิทธิภาพ
เรากำหนดฟังก์ชั่นการค้นหาที่ประมวลผลแบบสอบถามผู้ใช้ล่วงหน้าสร้างการฝังตัวและดึงเอกสารที่คล้ายกันมากที่สุดจากดัชนี
เราแสดงให้เห็นถึงฟังก์ชั่นการทำงานด้วยแบบสอบถามตัวอย่าง ("มอเตอร์ไซค์") แสดงผลลัพธ์สูงสุดที่จัดอันดับตามความคล้ายคลึงกัน