แบบจำลองภาษาขนาดใหญ่สามารถปรับแต่งด้วยชุดคำถามและคำตอบ อย่างไรก็ตามเพื่อปรับแต่งแบบจำลอง ข้อมูลของคุณเอง ให้ละเอียดยิ่งขึ้นคุณต้องมีคำถามและคำตอบจำนวนมากเกี่ยวกับข้อมูลของคุณ การสร้างคำถามและคำตอบเหล่านั้นอาจเป็นงานด้วยตนเองมากมาย
ที่เก็บนี้ช่วยให้คุณใช้รูปแบบภาษาที่ไม่ได้ปรับแต่ง (CHATGPT) เพื่อแยกคู่คำถาม/คำตอบโดยอัตโนมัติจากข้อมูลข้อความที่มีอยู่โดยอัตโนมัติกำจัดงานด้วยตนเองทั้งหมด
ในการเรียกใช้รหัสนี้คุณจะต้องโคลนที่เก็บนี้จากนั้นติดตั้งแพ็คเกจ Python ต่อไปนี้:
tiktoken , openai tokeniser,openai ลูกค้า Openai API อย่างเป็นทางการlangchain , รหัสกาวที่ใช้ในการรวมรุ่นและยูทิลิตี้ สคริปต์นี้ถูกออกแบบมาเพื่อเปลี่ยนโฟลเดอร์ของเอกสาร Markdown ( .md ) เป็นไฟล์ .json ที่มีรายการคำถามคำตอบและเส้นทางไปยังเอกสารต้นฉบับที่ใช้ในการผลิต
ในการเรียกใช้รหัสให้ตั้งค่าพา ธ ไฟล์ที่เกี่ยวข้องในไฟล์ question_extractor.py (ทั้งโฟลเดอร์อินพุตและเส้นทางเอาต์พุต) และประกันว่าคีย์ OpenAI API ของคุณอยู่ในสภาพแวดล้อม จากนั้นเรียกใช้สคริปต์ด้วย Python:
python3 question_extractor.py
เมื่อเสร็จสิ้นคำถาม/คำตอบทั้งหมดจะถูกเขียนเป็นไฟล์ .json ในเส้นทางเอาต์พุต
รหัสลูปในไฟล์ทั้งหมดสำหรับแต่ละไฟล์จะแยกรายการคำถามโดยใช้พรอมต์ต่อไปนี้ตามด้วยข้อความอัน:
You are an expert user extracting information to quiz people on documentation. You will be passed a page extracted from the documentation, write a numbered list of questions that can be answered based *solely* on the given text.
จากนั้นจะวนคำถามสร้างคำตอบโดยผ่านพรอมต์ต่อไปนี้ตามด้วยข้อความและคำถาม:
You are an expert user answering questions. You will be passed a page extracted from a documentation and a question. Generate a comprehensive and informative answer to the question based *solely* on the given text.
ตรรกะที่แท้จริงส่วนใหญ่ของรหัสนั้นทุ่มเทให้กับการประมวลผลไฟล์พร้อมกัน (สำหรับความเร็ว) และการประกันว่าชิ้นข้อความที่ส่งผ่านไปยังโมเดลนั้นมีขนาดเล็กพอที่จะทิ้งโทเค็นให้เพียงพอสำหรับการตอบ
หากข้อความยาวเกินไปที่จะส่งไปยังโมเดลมันจะถูกแบ่งตามระดับส่วนหัวของการทำเครื่องหมายสูงสุด (กระบวนการสามารถทำซ้ำซ้ำได้หากจำเป็นจนกว่าเราจะลงไปที่ย่อหน้าเดียว)
ประสิทธิภาพที่ชาญฉลาดสคริปต์นี้สามารถประมวลผลเอกสาร NERSC เต็มรูปแบบใน 6 นาที 1 เปลี่ยนไฟล์ markdown 318 เป็น 8005 คำถามในราคา $ 29
ทำงานที่ประมาณ 93% ของขีด จำกัด อัตราของรุ่น