Download question_extractor - question_extractor ดาวน์โหลดซอร์สโค้ดดาวน์โหลด

question_extractor

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ตัวแยกคำถาม?

แบบจำลองภาษาขนาดใหญ่สามารถปรับแต่งด้วยชุดคำถามและคำตอบ อย่างไรก็ตามเพื่อปรับแต่งแบบจำลอง ข้อมูลของคุณเอง ให้ละเอียดยิ่งขึ้นคุณต้องมีคำถามและคำตอบจำนวนมากเกี่ยวกับข้อมูลของคุณ การสร้างคำถามและคำตอบเหล่านั้นอาจเป็นงานด้วยตนเองมากมาย

ที่เก็บนี้ช่วยให้คุณใช้รูปแบบภาษาที่ไม่ได้ปรับแต่ง (CHATGPT) เพื่อแยกคู่คำถาม/คำตอบโดยอัตโนมัติจากข้อมูลข้อความที่มีอยู่โดยอัตโนมัติกำจัดงานด้วยตนเองทั้งหมด

การติดตั้ง

ในการเรียกใช้รหัสนี้คุณจะต้องโคลนที่เก็บนี้จากนั้นติดตั้งแพ็คเกจ Python ต่อไปนี้:

tiktoken , openai tokeniser,
openai ลูกค้า Openai API อย่างเป็นทางการ
langchain , รหัสกาวที่ใช้ในการรวมรุ่นและยูทิลิตี้

การใช้งาน

สคริปต์นี้ถูกออกแบบมาเพื่อเปลี่ยนโฟลเดอร์ของเอกสาร Markdown ( .md ) เป็นไฟล์ .json ที่มีรายการคำถามคำตอบและเส้นทางไปยังเอกสารต้นฉบับที่ใช้ในการผลิต

ในการเรียกใช้รหัสให้ตั้งค่าพา ธ ไฟล์ที่เกี่ยวข้องในไฟล์ question_extractor.py (ทั้งโฟลเดอร์อินพุตและเส้นทางเอาต์พุต) และประกันว่าคีย์ OpenAI API ของคุณอยู่ในสภาพแวดล้อม จากนั้นเรียกใช้สคริปต์ด้วย Python:

 python3 question_extractor.py

เมื่อเสร็จสิ้นคำถาม/คำตอบทั้งหมดจะถูกเขียนเป็นไฟล์ .json ในเส้นทางเอาต์พุต

การทำงานด้านใน

รหัสลูปในไฟล์ทั้งหมดสำหรับแต่ละไฟล์จะแยกรายการคำถามโดยใช้พรอมต์ต่อไปนี้ตามด้วยข้อความอัน:

 You are an expert user extracting information to quiz people on documentation. You will be passed a page extracted from the documentation, write a numbered list of questions that can be answered based *solely* on the given text.

จากนั้นจะวนคำถามสร้างคำตอบโดยผ่านพรอมต์ต่อไปนี้ตามด้วยข้อความและคำถาม:

 You are an expert user answering questions. You will be passed a page extracted from a documentation and a question. Generate a comprehensive and informative answer to the question based *solely* on the given text.

ตรรกะที่แท้จริงส่วนใหญ่ของรหัสนั้นทุ่มเทให้กับการประมวลผลไฟล์พร้อมกัน (สำหรับความเร็ว) และการประกันว่าชิ้นข้อความที่ส่งผ่านไปยังโมเดลนั้นมีขนาดเล็กพอที่จะทิ้งโทเค็นให้เพียงพอสำหรับการตอบ

หากข้อความยาวเกินไปที่จะส่งไปยังโมเดลมันจะถูกแบ่งตามระดับส่วนหัวของการทำเครื่องหมายสูงสุด (กระบวนการสามารถทำซ้ำซ้ำได้หากจำเป็นจนกว่าเราจะลงไปที่ย่อหน้าเดียว)

ประสิทธิภาพที่ชาญฉลาดสคริปต์นี้สามารถประมวลผลเอกสาร NERSC เต็มรูปแบบใน 6 นาที ¹ เปลี่ยนไฟล์ markdown 318 เป็น 8005 คำถามในราคา $ 29

การปรับปรุงที่มีศักยภาพ

ทำให้สามารถใช้ GPT4 สำหรับการตอบคำถามปรับปรุงคุณภาพของคำตอบด้วยค่าใช้จ่ายของรันไทม์ที่ช้าลงและเพิ่มค่าใช้จ่ายอย่างมาก
บันทึกผลลัพธ์ระดับกลางเพื่อให้สามารถเริ่มงานที่ถูกขัดจังหวะได้
ใช้ไคลเอนต์ OpenAI โดยตรงแทนที่จะเป็น Langchain เพื่อลดการพึ่งพา