วิ่ง scraping.py ก่อนจากนั้น irmodel.py และ generativeai.py สุดท้าย
ไฟล์ CSV แต่ละไฟล์ที่ต้องการถูกสร้างขึ้นโดยไฟล์ Python ก่อนหน้า
ในโครงการนี้เรามุ่งเน้นไปที่การพัฒนาระบบตอบคำถามขั้นสูงที่เหมาะสำหรับนักเรียนมัธยมปลาย วัตถุประสงค์หลักของระบบคือการตอบคำถามที่เกี่ยวข้องกับประวัติศาสตร์อย่างมีประสิทธิภาพโดยให้ข้อมูลที่ถูกต้องและเกี่ยวข้องเพื่อช่วยเหลือนักเรียนในการเรียนรู้
ในขั้นตอนการขูดเว็บเราจะแยกข้อมูลที่เกี่ยวข้องโดยใช้โปรแกรมจากแหล่งข้อมูลต่างๆ กระบวนการนี้เกี่ยวข้องกับการรวบรวมข้อมูลเว็บเพจการแยกเนื้อหา HTML แยกวิเคราะห์ข้อมูลและเปลี่ยนเป็นรูปแบบที่มีโครงสร้าง
ขั้นตอนต่อไปคือการดึงข้อมูลโดยที่เราใช้เทคนิคเช่น TF-IDF (ความถี่เอกสารความถี่ในคำศัพท์) และ Sbert (Sentence-Bert) เพื่อจัดทำดัชนีและค้นหาข้อมูลข้อความที่รวบรวมได้อย่างมีประสิทธิภาพ TF-IDF คำนวณความสำคัญของแต่ละคำในคลังเอกสารในขณะที่ Sbert ใช้โมเดลที่ใช้หม้อแปลงเพื่อสร้างการฝังบริบทสำหรับประโยคหรือย่อหน้า โดยการใช้วิธีการเหล่านี้เราสามารถดึงเอกสารหรือข้อความที่เกี่ยวข้องที่เกี่ยวข้องกับคำถามที่กำหนดได้อย่างมีประสิทธิภาพ
ขั้นตอนสุดท้ายในกระบวนการเกี่ยวข้องกับการกำเนิด AI ซึ่งมีจุดมุ่งหมายเพื่อสร้างการตอบสนองเหมือนมนุษย์ต่อคำถามที่กำหนด โมเดล AI แบบกำเนิดเรียนรู้จากข้อมูลจำนวนมากและสร้างคำตอบที่สอดคล้องกันและเกี่ยวข้องกับบริบทตามคำถามอินพุต แบบจำลองเหล่านี้มีความสามารถในการเข้าใจรูปแบบภาษาความหมายและบริบททำให้พวกเขาสามารถสร้างคำตอบที่ปรากฏเป็นธรรมชาติและให้ข้อมูล