LangChain SynData RAG Eval ดาวน์โหลด - LangChain SynData RAG Eval Source Download Download

LangChain SynData RAG Eval

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การสร้างข้อมูลสังเคราะห์โดยใช้ Langchain สำหรับการประเมิน IR และ RAG

พื้นที่เก็บข้อมูลนี้แสดงให้เห็นถึง Langchain, Llama2-Chat และวิศวกรรมที่รวดเร็วและไม่กี่ตัวเพื่อเปิดใช้งานการสร้างข้อมูลสังเคราะห์สำหรับการดึงข้อมูล (IR) และการประเมินผลการเพิ่ม (RAG) การดึงข้อมูล (RAG)

บทนำ•ไฮไลท์•สมุดบันทึกตัวอย่าง•พื้นหลัง•ตัวชี้วัด•ประโยชน์•เทมเพลตที่รวดเร็ว•ปัญหา• Todos

การแนะนำ

โมเดลภาษาขนาดใหญ่ (LLMS) ได้เปลี่ยนการดึงข้อมูล (IR) และค้นหาโดยการทำความสะอาดแบบสอบถามที่ซับซ้อน พื้นที่เก็บข้อมูลนี้นำเสนอแนวคิดและแพ็คเกจที่สามารถใช้ในการสร้างชุดข้อมูลสังเคราะห์ที่ซับซ้อนสำหรับการประเมินผลการสร้าง Augmented Generation (RAG)

ข้อมูลสังเคราะห์ที่สร้างขึ้นเป็นแบบสอบถามและคำตอบสำหรับบริบทที่กำหนด ตัวอย่างของคำตอบบริบทที่สร้างขึ้นแบบสังเคราะห์แสดงไว้ด้านล่าง:

 Provided Context (usually split from documents / text sources): 
Pure TalkUSA is an American mobile virtual network operator headquartered in Covington, Georgia, United States. 
It is most notable for an industry-first offering of rollover data in their data add-on packages, which has since been discontinued. 
Pure TalkUSA is a subsidiary of Telrite Corporation. Bring Your Own Phone! 

Synthetically Generated Query: 
What was the outstanding service offered by Pure TalkUSA?

Synthetically Generated Answer:
The outstanding service from Pure TalkUSA was its industry-first offering of rollover data.

เมื่อสร้างระบบ IR หรือ RAG ชุดข้อมูลของบริบทการสืบค้นและคำตอบมีความสำคัญสำหรับการประเมินประสิทธิภาพของระบบ ชุดข้อมูลที่มีคำอธิบายประกอบของมนุษย์นำเสนอความจริงพื้นฐานที่ยอดเยี่ยม แต่อาจมีราคาแพงและท้าทายที่จะได้รับ ดังนั้นชุดข้อมูลสังเคราะห์ที่สร้างขึ้นโดยใช้ LLMs จึงเป็นโซลูชันและอาหารเสริมที่น่าสนใจ

ด้วยการใช้งานวิศวกรรมที่รวดเร็วของ LLM สามารถสร้างแบบสอบถามและคำตอบสังเคราะห์ที่หลากหลายเพื่อสร้างชุดข้อมูลการตรวจสอบที่แข็งแกร่ง พื้นที่เก็บข้อมูลนี้แสดงกระบวนการในการสร้างข้อมูลสังเคราะห์ในขณะที่เน้นการแจ้งเตือนแบบศูนย์และไม่กี่ครั้งสำหรับการสร้างชุดข้อมูลสังเคราะห์ที่ปรับแต่งได้สูง รูปที่ 1 สรุปกระบวนการสร้างชุดข้อมูลสังเคราะห์ที่แสดงในที่เก็บนี้

รูปที่ 1: การสร้างข้อมูลสังเคราะห์สำหรับการประเมิน IR และ RAG

หมายเหตุ : อ้างถึงส่วนพื้นหลังและส่วนตัวชี้วัดสำหรับการดำน้ำลึกลงไปใน IR, RAG และวิธีการประเมินระบบเหล่านี้

ไฮไลท์

ไฮไลท์สำคัญบางประการในที่เก็บคือ:

รุ่น LLM ในท้องถิ่นเกี่ยวกับฮาร์ดแวร์เกรดผู้บริโภคจะถูกนำมาใช้โดยเฉพาะตลอด และไม่มีการโทร API ภายนอก นี่เป็นสิ่งสำคัญยิ่งสำหรับความเป็นส่วนตัวของข้อมูล นอกจากนี้ตัวอย่างออนไลน์หลายตัวอย่างใช้การเรียก API ภายนอกไปยัง LLMs ที่ทันสมัย (SOTA) ซึ่งโดยทั่วไปให้ผลลัพธ์ที่มีคุณภาพสูงกว่า LLM ในท้องถิ่นที่มีพารามิเตอร์น้อยกว่า สิ่งนี้ทำให้เกิดความท้าทายบางอย่างในการเขียนโค้ดและการจัดการข้อผิดพลาดสำหรับแบบจำลองและโซลูชันในท้องถิ่นแสดงไว้ที่นี่
มีการนำเสนอแบบสอบถามและการสร้างคำตอบที่ปรับแต่งได้ไม่กี่ครั้งและไม่กี่ครั้ง
ตัวอย่าง Langchain โดยใช้:
- วิศวกรรมพร้อมท์ที่กำหนดเอง
- ตัวแยกวิเคราะห์เอาท์พุทและตัวแยกวิเคราะห์แบบปรับอัตโนมัติเพื่อรับข้อมูลที่มีโครงสร้าง
- การอนุมาน GPU ด้วยโซ่
- Langchain Expression Language (LCEL)
ปริมาณสำหรับการลดขนาดรุ่นลงในฮาร์ดแวร์เกรดผู้บริโภค

สมุดบันทึกตัวอย่าง

การสร้างบริบท-คำตอบกับ Langchain

1. ) Langchain ที่มีพรอมต์ที่กำหนดเองและตัวแยกวิเคราะห์เอาท์พุทสำหรับเอาต์พุตข้อมูลที่มีโครงสร้าง : ดู gen-question-answer-query.ipynb สำหรับตัวอย่างของการสร้างคำตอบบริบทบริบทสังเคราะห์ ประเด็นสำคัญของสมุดบันทึกนี้คือ:

แม่แบบพรอมต์ Langchain ที่กำหนดเองสำหรับรุ่น llama2-chat
PydanticOutputParser
OutputFixingParser
คลาส Parser ที่กำหนดเองถูกเขียนขึ้นเพื่อรองรับ Llama2-Chat และการจัดการข้อผิดพลาด

การสร้างบริบทด้วย Langchain

1. ) การแจ้งเตือน Llama2-Chat ที่กำหนดเอง Langchain : ดู Qa-gen-gen-query-langchain.ipynb สำหรับตัวอย่างของวิธีการสร้างเทมเพลตพรอมต์แบบกำหนดเองของ Langchain สำหรับการสร้างบริบท ฟีเจอร์ Langchain บางส่วนที่แสดงในสมุดบันทึกนี้คือ:

แม่แบบพรอมต์ Langchain ที่กำหนดเองสำหรับรุ่น llama2-chat
กอดหน้าปัดท้องถิ่น
ปริมาณ 4 บิต
การอนุมาน GPU

การสร้างบริบทโดยไม่มี Langchain

1. ) วิศวกรรมพรอมต์แบบศูนย์และไม่กี่ : ดู QA-Gen-Query.IPYNB สำหรับตัวอย่างของการสร้างข้อมูลบริบท-การสร้างคำถามสำหรับชุดข้อมูลที่กำหนดเอง คุณสมบัติที่สำคัญที่นำเสนอที่นี่คือ:

การแจ้งเตือน LLM โดยใช้ zero- and few-shot annotations ในชุดข้อมูลการตอบคำถาม Squadd2
แสดงให้เห็นถึงสองเทคนิคการแจ้งเตือน:
- การสร้างแบบสอบถามแบบศูนย์ขั้นพื้นฐานซึ่งเรียกว่าวานิลลา
- ไม่กี่นัดพร้อมกับคำถามที่ไม่ดี (GBQ)

2. ) บริบท-arugment : ดูอาร์กิวเมนต์-gen-query.ipynb สำหรับตัวอย่างของข้อมูลคำถามบริบทสังเคราะห์สำหรับงานดึงอาร์กิวเมนต์ ในบริบทของการดึงข้อมูลงานเหล่านี้ได้รับการออกแบบมาเพื่อดึงข้อโต้แย้งที่เกี่ยวข้องจากแหล่งต่าง ๆ เช่นเอกสาร ในการเรียกร้องการโต้เถียงเป้าหมายคือการให้ข้อมูลที่โน้มน้าวใจและน่าเชื่อถือแก่ผู้ใช้เพื่อสนับสนุนข้อโต้แย้งของพวกเขาหรือตัดสินใจอย่างชาญฉลาด

รุ่นคิวรีที่ไม่ใช่ llama

ตัวอย่างอื่น ๆ ของแบบสอบถามแบบสอบถามเฉพาะรุ่น (เช่น BeIR/query-gen-msmarco-t5-base-v1 ) สามารถพบได้อย่างง่ายดายทางออนไลน์ (ดูการสร้างคำถาม Beir)

พื้นหลัง

ฟังก์ชั่นหลักของระบบ IR คือการดึงข้อมูลซึ่งมีวัตถุประสงค์เพื่อกำหนดความเกี่ยวข้องระหว่างการสืบค้นของผู้ใช้และเนื้อหาที่จะเรียกคืน การใช้ระบบ IR หรือ RAG ต้องการเอกสารเฉพาะผู้ใช้ อย่างไรก็ตามการขาดชุดข้อมูลที่มีคำอธิบายประกอบสำหรับชุดข้อมูลที่กำหนดเองการประเมินระบบ Hampers รูปที่ 2 แสดงภาพรวมของกระบวนการ RAG ทั่วไปสำหรับระบบการตอบคำถาม

รูปที่ 2: ภาพรวมกระบวนการ RAG [แหล่งที่มา]

ชุดข้อมูลการตอบคำถามบริบทสังเคราะห์นี้มีความสำคัญสำหรับการประเมิน: 1) ความสามารถของระบบของ IR ในการเลือกบริบทที่ปรับปรุงแล้วดังแสดงในรูปที่ 2 - ขั้นตอนที่ #3 และ 2) การตอบสนองที่สร้างขึ้นของ RAG ดังแสดงในรูปที่ 2 - ขั้นตอนที่ #5 โดยการอนุญาตให้มีการประเมินแบบออฟไลน์ทำให้สามารถวิเคราะห์ความสมดุลของระบบอย่างละเอียดระหว่างความเร็วและความแม่นยำแจ้งการแก้ไขที่จำเป็นและเลือกการออกแบบระบบแชมป์

การออกแบบระบบ IR และ RAG มีความซับซ้อนมากขึ้นตามที่อ้างอิงในรูปที่ 3

LLMS-IR
รูปที่ 3: LLM สามารถใช้ในการสืบค้น rewriter, retriever, reranker และ reader [แหล่งที่มา]

ดังที่แสดงให้เห็นว่าพวกเขามีข้อควรพิจารณาหลายประการในการออกแบบและการแก้ปัญหา IR / RAG สามารถมีความซับซ้อนจากวิธีการดั้งเดิม (เช่นวิธีการกระจัดกระจายตามคำศัพท์) ไปจนถึงวิธีการที่ใช้ระบบประสาท (เช่น Embeddings และ LLMs) การประเมินระบบเหล่านี้มีความสำคัญอย่างยิ่งต่อการตัดสินใจออกแบบที่ดี จากการค้นหาไปจนถึงคำแนะนำมาตรการการประเมินเป็นสิ่งสำคัญยิ่งในการทำความเข้าใจสิ่งที่ทำและไม่ทำงานในการดึงข้อมูล

ตัวชี้วัด

ระบบตอบคำถาม (QA) (เช่นระบบ RAG) มีสององค์ประกอบ:

Retriever - ซึ่งดึงข้อมูลที่เกี่ยวข้องมากที่สุดที่จำเป็นในการตอบคำถาม
เครื่องกำเนิดไฟฟ้า - ซึ่งสร้างคำตอบด้วยข้อมูลที่ดึงมา

เมื่อประเมินระบบ QA ทั้งสองส่วนประกอบจำเป็นต้องได้รับการประเมินแยกต่างหากและรวมกันเพื่อให้ได้คะแนนระบบโดยรวม

เมื่อใดก็ตามที่มีการถามคำถามไปยังแอปพลิเคชัน RAG วัตถุต่อไปนี้สามารถพิจารณาได้ [แหล่งที่มา]:

คำถาม
คำตอบที่ถูกต้องสำหรับคำถาม
คำตอบที่แอปพลิเคชันผ้าขี้ริ้วกลับมา
บริบทที่แอปพลิเคชัน RAG ดึงมาและใช้เพื่อตอบคำถาม

การเลือกตัวชี้วัดไม่ได้เป็นจุดสนใจหลักของที่เก็บนี้เนื่องจากตัวชี้วัดขึ้นอยู่กับแอปพลิเคชัน อย่างไรก็ตามบทความอ้างอิงและข้อมูลมีให้เพื่อความสะดวก

ตัวชี้วัด Retriever

รูปที่ 4 แสดงตัวชี้วัดการประเมินทั่วไปสำหรับ IR และ Dataset จากรูปที่ 1 สามารถใช้สำหรับ Offline Metrics ที่แสดงในรูปที่ 4

รูปที่ 4: การจัดอันดับตัวชี้วัดการประเมินผล [แหล่งที่มา]

Offline metrics ถูกวัดในสภาพแวดล้อมที่แยกได้ก่อนที่จะปรับใช้ระบบ IR ใหม่ เหล่านี้ดูว่าชุดของผลลัพธ์ที่เกี่ยวข้องจะถูกส่งคืนเมื่อดึงรายการด้วยระบบ [แหล่งที่มา] หรือไม่

ตัวชี้วัดเครื่องกำเนิดไฟฟ้า

การทบทวนสั้น ๆ เกี่ยวกับตัวชี้วัดเครื่องกำเนิดไฟฟ้าจะแสดงความซับซ้อนของการวัดสองสามระดับ เมื่อประเมินเครื่องกำเนิดไฟฟ้าให้ดูว่าหรือในระดับใดข้อความคำตอบที่เลือกจะตรงกับคำตอบหรือคำตอบที่ถูกต้อง

ที่ให้ไว้ด้านล่างนี้เป็นตัวชี้วัดเครื่องกำเนิดที่ระบุไว้อย่างน้อยถึงซับซ้อนที่สุด

แบบดั้งเดิม : ตัวชี้วัดเช่น F1, ความแม่นยำ, การจับคู่ที่แน่นอน, โกง, bleu, ฯลฯ สามารถดำเนินการได้ แต่สิ่งเหล่านี้จะไม่มีความสัมพันธ์กับการตัดสินของมนุษย์ อย่างไรก็ตามพวกเขาเสนอการเปรียบเทียบเชิงปริมาณที่ง่ายและรวดเร็ว
คำตอบความหมายที่คล้ายคลึงกัน : รุ่นเข้ารหัสเช่น SAS, Bert และรุ่นอื่น ๆ ที่มีอยู่ในประโยคที่แปลง เหล่านี้เป็นแบบจำลองที่ผ่านการฝึกอบรมซึ่งส่งคืนคะแนนความคล้ายคลึงกัน
การใช้ LLM เพื่อประเมินตนเอง : นี่คือการทำงานภายในของแพ็คเกจการประเมิน RAG ยอดนิยมเช่น Ragas และ Tonicai/Tvalmetrics
- อ้างถึงรายงานการวิจัยการตัดสิน LLM-as-a-Judge กับ MT-Bench และ Chatbot Arena สำหรับรายละเอียดเพิ่มเติม

โปรดดูบทความ Deepset: ตัวชี้วัดเพื่อประเมินระบบตอบคำถามและประเมินท่อส่งผ้าขี้ริ้วด้วย Ragas + Langsmith ที่อธิบายรายละเอียดเกี่ยวกับตัวชี้วัดเหล่านี้

ประโยชน์

ประโยชน์ที่สำคัญบางประการของการสร้างข้อมูลสังเคราะห์ด้วยวิศวกรรมพรอมต์ LLM คือ:

Customized IR Task Query Generation : การแจ้งเตือน LLMS มีความยืดหยุ่นอย่างมากในประเภทของการสืบค้นที่สามารถสร้างได้ สิ่งนี้มีประโยชน์เพราะงาน IR แตกต่างกันไปในแอปพลิเคชันของพวกเขา ตัวอย่างเช่นการเปรียบเทียบ-IR (bEIR) เป็นเกณฑ์มาตรฐานที่แตกต่างกันซึ่งมีงาน IR ที่หลากหลายเช่นการตอบคำถามการโต้แย้งหรือการดึงการโต้เถียงการโต้เถียงการตรวจสอบข้อเท็จจริง ฯลฯ เนื่องจากความหลากหลายในงาน IR นี่คือประโยชน์ของการแจ้งเตือน LLM รูปที่ 5 แสดงภาพรวมของงาน IR และชุดข้อมูลที่หลากหลายใน Beir อ้างถึงกระดานผู้นำ Beir เพื่อดูประสิทธิภาพของโมเดลการดึงข้อมูลที่ใช้ NLP

นี่คือข้อมูลบางส่วน
รูปที่ 5: ชุดข้อมูลเบนช์มาร์ก Beir และภาพงาน IR ที่นำมาจาก [แหล่งที่มา]

Zero or Few-Shot Annotations : ในเทคนิคที่เรียกว่าเป็นศูนย์หรือไม่กี่การกระตุ้นการยิงนักพัฒนาสามารถให้ตัวอย่างแบบสอบถามเฉพาะโดเมนให้กับ LLMS เพิ่มการสร้างแบบสอบถามอย่างมาก วิธีการนี้มักจะต้องใช้ตัวอย่างที่มีคำอธิบายประกอบเพียงไม่กี่ตัวอย่างเท่านั้น
Longer Context Length : รุ่น LLM ที่ใช้ GPT เช่น LLAMA2 ให้ความยาวบริบทที่ขยายได้สูงถึง 4,096 โทเค็นเมื่อเทียบกับโทเค็น 512 ของ Bert บริบทที่ยาวขึ้นนี้ช่วยเพิ่มการแยกวิเคราะห์เอกสารและการควบคุมการสร้างแบบสอบถาม

เทมเพลตที่รวดเร็ว

LLAMA2 จะถูกใช้ในที่เก็บนี้สำหรับการสร้างแบบสอบถามสังเคราะห์เพราะสามารถวิ่งได้ในท้องถิ่นบน GPU เกรดผู้บริโภค แสดงด้านล่างเป็นเทมเพลตพรอมต์สำหรับการแชท Llama2 ซึ่งได้รับการปรับแต่งอย่างละเอียดสำหรับแอปพลิเคชันการสนทนาและคำสั่ง

 <s>[INST] <<SYS>>
{your_system_message}
<</SYS>>

{user_message_1} [/INST]

พรอมต์ระบบ : พรอมต์ระบบ <<SYS>> เป็นหนึ่งในข้อได้เปรียบที่ไม่ได้รับการคัดเลือกของโมเดลการเข้าถึงแบบเปิดคือคุณสามารถควบคุมได้อย่างเต็มรูปแบบในการแจ้งเตือนระบบในแอปพลิเคชันแชท นี่เป็นสิ่งสำคัญในการระบุพฤติกรรมของผู้ช่วยแชทของคุณ - และแม้กระทั่งดูดซับมันด้วยบุคลิกบางอย่าง - แต่มันไม่สามารถเข้าถึงได้ในแบบจำลองที่ให้บริการเบื้องหลัง APIs [แหล่งที่มา]
ข้อความผู้ใช้ : แบบสอบถามหรือข้อความที่ผู้ใช้ให้ไว้ [Inst] และ [/inst] ช่วยระบุสิ่งที่ผู้ใช้พิมพ์ดังนั้น Llama จึงรู้วิธีตอบสนองอย่างถูกต้อง หากไม่มีเครื่องหมายเหล่านี้รอบ ๆ ข้อความผู้ใช้ Llama อาจสับสนเกี่ยวกับการตอบกลับของใคร

โปรดทราบว่าโมเดลพื้นฐาน LLAMA2 ไม่มีโครงสร้างที่รวดเร็วเนื่องจากเป็นรุ่นที่ไม่ได้รับการปรับแต่งแบบดิบ [แหล่งที่มา]

ทรัพยากรเพิ่มเติมและการอ้างอิงเพื่อช่วยในการแจ้งเทคนิคและพื้นฐาน:

LLAMA 2 - ทุกทรัพยากรที่คุณต้องการ
คู่มือวิศวกรรมที่รวดเร็ว
เทมเพลตพรอมต์ LLAMA2
ในที่เก็บนี้อ้างถึงการอ้างอิงบันทึกไดเรกทอรีสำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการกรอง Prompt Engineering และ Consistency Filtering

ปัญหา

ที่เก็บนี้จะพยายามอย่างเต็มที่ที่จะได้รับการดูแลรักษา หากคุณประสบปัญหาใด ๆ หรือต้องการทำการปรับปรุงโปรดเพิ่มปัญหาหรือส่งคำขอดึง -

โทดอส

DeepSpeed Zero-INFERNECTOUL OFFLOOM น้ำหนัก LLM ขนาดใหญ่ไปยังทรัพยากรที่ไม่ใช่ GPU สำหรับการใช้งานโมเดล +70B บนฮาร์ดแวร์เกรดผู้บริโภค
อย่าลังเลที่จะยกปัญหาสำหรับคุณสมบัติที่คุณต้องการดูเพิ่มเติม