โมเดลการจัดกลุ่มเอกสารที่มีประสิทธิภาพมีความสำคัญเนื่องจากสามารถประมวลผลเอกสารชุดใหญ่ได้อย่างมีประสิทธิภาพ แบบจำลองเหล่านี้มีประโยชน์ในหลายสาขารวมถึงการวิจัยทั่วไป การค้นหาผ่านสิ่งพิมพ์ขนาดใหญ่อาจเป็นงานที่ช้าและน่าเบื่อ โมเดลดังกล่าวสามารถลดเวลานี้ได้อย่างมาก เราตรวจสอบรูปแบบที่แตกต่างกันของแบบจำลอง BERT ที่ผ่านการฝึกอบรมมาก่อนเพื่อค้นหาซึ่งสามารถสร้างคำฝังคำเพื่อแสดงเอกสารภายในคลังข้อมูลขนาดใหญ่ได้ดีที่สุด การฝังตัวเหล่านี้จะลดลงในมิติโดยใช้ PCA และคลัสเตอร์ด้วย k-means เพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับรูปแบบที่สามารถแยกหัวข้อที่ดีที่สุดภายในคลังข้อมูลได้ดีที่สุด เราพบว่า Sbert เป็นแบบจำลองที่ดีที่สุดสำหรับงานนี้จากการเปลี่ยนแปลงของ Bert ที่ผ่านการทดสอบ
ข้อกำหนดเบื้องต้น:
การพึ่งพา: โครงการใช้ไลบรารี Python หลายตัวซึ่งจำเป็นต้องใช้รหัสนี้ ในการติดตั้งรหัสโปรดเรียกใช้ตัวอย่างโค้ดด้านล่างในพรอมต์ Anaconda
pip install -r requirements.txt
Python Notebook: มีโน๊ตบุ๊ค Python สองรายการ: [1] NLP_FINFINT_PROJECT_CODE.IPYNB และ [2] การทดสอบความคล้ายคลึงกันของ Bert Cosine
nlp_final_project_code.ipynb มีฐานรหัสสำหรับการประเมินการฝังข้อความ Bert สำหรับการจัดกลุ่ม เราใช้ PCA สำหรับการลดขนาดและ k-mean สำหรับการจัดกลุ่ม EMBEDDINGS จะถูกคำนวณแยกต่างหากและเก็บไว้ในไฟล์ CSV ในโฟลเดอร์ ./data
ในการทดสอบความคล้ายคลึงกันของ Bert Cosine เรากำลังทดสอบความสามารถในการฝังเบิร์ตเพื่อจับภาพความคล้ายคลึงกันระหว่างเอกสาร สำหรับสิ่งนี้เราจัดกลุ่มไฟล์ด้วยตนเองตามเนื้อหา 1) กลุ่มของไฟล์ที่คล้ายกันและ 2) กลุ่มของไฟล์ที่แตกต่างกัน จากนั้นเราวัดความคล้ายคลึงกันของโคไซน์ระหว่างแต่ละกลุ่ม เราตั้งสมมติฐานว่า Bert Embeddings สามารถตรวจจับความคล้ายคลึงกันระหว่างเอกสารตามการเป็นตัวแทนของพวกเขา นอกจากนี้เรายังประเมิน Sbert ซึ่งพิสูจน์แล้วว่าให้การเป็นตัวแทนที่ดีกว่าตัวแปรที่แตกต่างกันของเบิร์ต