โน้ตบุ๊กนี้มีขั้นตอนและรหัสเพื่อแสดงการสนับสนุนการดึงรุ่นเพิ่มใน watsonx.ai มันแนะนำคำสั่งสำหรับการดึงข้อมูลการสร้างฐานความรู้และการสืบค้นและการทดสอบแบบจำลอง
ใช้โมเดล LLM, Langchain และ Milvus เพื่อสร้างระบบ Augmented Generation (RAG) สิ่งนี้จะช่วยให้เราถามคำถามเกี่ยวกับเอกสารของเรา (ที่ไม่รวมอยู่ในข้อมูลการฝึกอบรม) โดยไม่ต้องปรับรูปแบบภาษาขนาดใหญ่ (LLM) เมื่อใช้ RAG หากคุณได้รับคำถามคุณทำขั้นตอนการดึงข้อมูลเพื่อดึงเอกสารที่เกี่ยวข้องจากฐานข้อมูลพิเศษฐานข้อมูลเวกเตอร์ที่เอกสารเหล่านี้ถูกจัดทำดัชนี
Retrieval Augmented Generation (RAG) เป็นรูปแบบอเนกประสงค์ที่สามารถปลดล็อกกรณีการใช้งานจำนวนมากที่ต้องเรียกคืนข้อมูลจริงเช่นการสืบค้นฐานความรู้ในภาษาธรรมชาติ
แบบจำลองภาษาขนาดใหญ่ (LLMS) ได้พิสูจน์ความสามารถในการทำความเข้าใจบริบทและให้คำตอบที่แม่นยำสำหรับงาน NLP ต่างๆรวมถึงการสรุปคำถามและคำตอบเมื่อได้รับแจ้ง ในขณะที่สามารถให้คำตอบที่ดีมากสำหรับคำถามเกี่ยวกับข้อมูลที่พวกเขาได้รับการฝึกฝนพวกเขามักจะเห็นภาพหลอนเมื่อหัวข้อเกี่ยวกับข้อมูลที่พวกเขาทำ "ไม่รู้" เช่นไม่รวมอยู่ในข้อมูลการฝึกอบรมของพวกเขา Generation Augmented Retrieval รวมทรัพยากรภายนอกเข้ากับ LLMs องค์ประกอบหลักสองประการของผ้าขี้ริ้วจึงเป็นรีทรีฟเวอร์และเครื่องกำเนิดไฟฟ้า
ส่วน Retriever สามารถอธิบายได้ว่าเป็นระบบที่สามารถเข้ารหัสข้อมูลของเราเพื่อให้สามารถดึงส่วนที่เกี่ยวข้องของมันได้อย่างง่ายดาย การเข้ารหัสทำได้โดยใช้การฝังข้อความเช่นโมเดลที่ได้รับการฝึกฝนเพื่อสร้างการแสดงเวกเตอร์ของข้อมูล ตัวเลือกที่ดีที่สุดสำหรับการใช้งานรีทรีฟเวอร์คือฐานข้อมูลเวกเตอร์ ในฐานะฐานข้อมูลเวกเตอร์มีหลายตัวเลือกทั้งโอเพนซอร์สหรือผลิตภัณฑ์เชิงพาณิชย์ ตัวอย่างไม่กี่อย่างคือ Chromadb, Mevius, Faiss, Pinecone, Weaviate ตัวเลือกของเราในสมุดบันทึกนี้จะเป็นอินสแตนซ์ท้องถิ่นของ Chromadb (ถาวร)
สำหรับชิ้นส่วนเครื่องกำเนิดไฟฟ้าตัวเลือกที่ชัดเจนคือ LLM ในสมุดบันทึกนี้เราจะใช้โมเดล LLAMA V2 เชิงปริมาณจากคอลเลกชันโมเดล Kaggle
การประสานของรีทรีฟเวอร์และเครื่องกำเนิดไฟฟ้าจะทำโดยใช้ Langchain ฟังก์ชั่นพิเศษจาก Langchain ช่วยให้เราสามารถสร้างเครื่องสร้างเครื่องรับสัญญาณในรหัสบรรทัดเดียว
ในรูปแบบที่ง่ายที่สุดผ้าขี้ริ้วต้องการ 3 ขั้นตอน:
690,000 คำที่คุ้มค่าของข้อความที่ทำความสะอาดจาก Wikipedia
มีไฟล์คำถามสามไฟล์หนึ่งไฟล์สำหรับนักเรียนในแต่ละปี: S08, S09 และ S10
ไฟล์ "questionanswerpairs.txt" มีทั้งคำถามและคำตอบ คอลัมน์ในไฟล์นี้มีดังนี้:
คำถามที่ถูกตัดสินว่ายากจนถูกทิ้งจากชุดข้อมูลนี้
มีหลายบรรทัดหลายบรรทัดที่มีคำถามเดียวกันซึ่งปรากฏขึ้นหากคำถามเหล่านั้นได้รับคำตอบจากบุคคลหลายคน https://www.kaggle.com/rtatman/questionanswer-dataset