ดาวน์โหลด question_generator - question_generator ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

question_generator

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

question_generator

ตัวสร้างคำถามเป็นระบบ NLP สำหรับการสร้างคำถามการอ่านสไตล์ความเข้าใจจากข้อความเช่นบทความข่าวหรือหน้าตัดผมที่ตัดตอนมาจากหนังสือ ระบบถูกสร้างขึ้นโดยใช้โมเดลที่ผ่านการฝึกอบรมจาก Transformers HuggingFace มีสองรุ่น: ตัวสร้างคำถามเองและผู้ประเมิน QA ซึ่งจัดอันดับและกรองคู่ตอบคำถามตามการยอมรับของพวกเขา

อัปเดต 2021/11/29

อัปเดตสคริปต์การฝึกอบรม

สมุดบันทึกการฝึกอบรมได้รับการปรับปรุงด้วยสคริปต์การฝึกอบรม วิ่ง:

python question_generator/training/qg_train.py

python question_generator/training/qa_eval_train.py

HyperParameters สามารถเปลี่ยนแปลงได้โดยใช้อาร์กิวเมนต์ Commandline ดูสคริปต์สำหรับรายการอาร์กิวเมนต์ที่มีอยู่

ชุดข้อมูลอัปโหลดไปยัง HuggingFace Hub

ชุดข้อมูลได้รับการอัปโหลดไปยัง HuggingFace Hub:

การฝึกอบรมคำถามและข้อมูลการตรวจสอบความถูกต้อง
ข้อมูลการฝึกอบรมและตรวจสอบความถูกต้องของ QA Evaluator

การใช้งาน

วิธีที่ง่ายที่สุดในการสร้างคำถามบางอย่างคือการโคลน gitHub repo จากนั้นเรียกใช้ qg_run.py เช่นนี้:

 git clone https://github.com/amontgomerie/question_generator
cd question_generator
pip install -r requirements.txt -qq
python run_qg.py --text_file articles/twitter_hack.txt

สิ่งนี้จะสร้าง 10 คู่ตอบคำถามแบบผสม (เต็มประโยคและตัวเลือกแบบปรนัย) ตามบทความที่ระบุไว้ใน --text_file และพิมพ์ลงในคอนโซล สำหรับข้อมูลเพิ่มเติมดูสมุดบันทึก QG_CommandLine_example

คลาส QuestionGenerator สามารถสร้างอินสแตนซ์และใช้เช่นนี้:

 from questiongenerator import QuestionGenerator
qg = QuestionGenerator ()
qg . generate ( text , num_questions = 10 )

สิ่งนี้จะสร้างคำถาม 10 ข้อของสไตล์ผสมและส่งคืนรายการพจนานุกรมที่มีคู่ตอบคำถาม ในกรณีของคำถามแบบปรนัยคำตอบจะมีรายการพจนานุกรมที่มีคำตอบและค่าบูลีนที่ระบุว่าคำตอบนั้นถูกต้องหรือไม่ เอาต์พุตสามารถพิมพ์ได้อย่างง่ายดายโดยใช้ฟังก์ชัน print_qa() สำหรับข้อมูลเพิ่มเติมดูสมุดบันทึก question_generation_example

การเลือกจำนวนคำถาม

จำนวนคำถามที่ต้องการสามารถส่งผ่านเป็นอาร์กิวเมนต์บรรทัดคำสั่งโดยใช้ --num_questions หรือเป็นอาร์กิวเมนต์เมื่อโทรหา qg.generate(text, num_questions=20 ถ้าจำนวนคำถามที่เลือกมีขนาดใหญ่เกินไปแบบจำลองอาจไม่สามารถสร้างได้มากพอที่จะลดลง จำนวนคำถามตามที่ผู้ประเมิน QA จัดอันดับคำถามที่สร้างขึ้นและส่งคืนคำถามที่ดีที่สุด

คำตอบสไตล์

ระบบสามารถสร้างคำถามด้วยคำตอบเต็มประโยค ( 'sentences' ) คำถามที่มีคำตอบแบบปรนัย ( 'multiple_choice' ) หรือการผสมผสานของทั้งสอง ( 'all' ) สิ่งนี้สามารถเลือกได้โดยใช้ --answer_style หรือ qg.generate(answer_style=<style>) อาร์กิวเมนต์

แบบจำลอง

เครื่องกำเนิดคำถาม

โมเดลตัวสร้างคำถามใช้ข้อความเป็นอินพุตและส่งออกชุดคำถามและคำตอบคู่ คำตอบคือประโยคและวลีที่สกัดจากข้อความอินพุต วลีที่สกัดสามารถเป็นประโยคเต็มหรือเอนทิตีที่มีชื่อที่สกัดโดยใช้เครื่องราง เอนทิตีที่มีชื่อจะใช้สำหรับคำตอบแบบปรนัย คำตอบที่ไม่ถูกต้องจะเป็นเอนทิตีอื่น ๆ ที่พบในข้อความ คำถามถูกสร้างขึ้นโดยการเชื่อมต่อคำตอบที่สกัดด้วยข้อความเต็ม (สูงสุด 512 โทเค็น) เป็นบริบทในรูปแบบต่อไปนี้:

 answer_token <extracted answer> context_token <context>

สตริงที่ต่อกันจะถูกเข้ารหัสและป้อนเข้าสู่โมเดลตัวสร้างคำถาม สถาปัตยกรรมแบบจำลองคือ t5-base แบบจำลองที่ผ่านการฝึกอบรมนั้นได้รับการแก้ไขเป็นแบบจำลองลำดับต่อลำดับบนชุดข้อมูลที่สร้างขึ้นเป็นชุดข้อมูล QA ที่รู้จักกันดีหลายชุด (Squad, Race, Coqa และ Msmarco) ชุดข้อมูลถูกปรับโครงสร้างโดยการเชื่อมต่อคำตอบและฟิลด์บริบทเป็นรูปแบบที่กล่าวถึงก่อนหน้านี้ คำตอบและบริบทที่ต่อกันถูกนำมาใช้เป็นอินพุตสำหรับการฝึกอบรมและฟิลด์คำถามกลายเป็นเป้าหมาย

ชุดข้อมูลสามารถพบได้ที่นี่

ผู้ประเมิน QA

ผู้ประเมิน QA ใช้คำตอบคำถามเป็นคู่เป็นอินพุตและส่งออกค่าที่แสดงถึงการทำนายว่าอินพุตเป็นคำถามและคำตอบที่ถูกต้องหรือไม่ โมเดลเป็น bert-base-cased ที่มีหัวการจำแนกลำดับ แบบจำลองที่ผ่านการฝึกอบรมนั้นถูกส่งไปยังข้อมูลเดียวกันกับแบบจำลองเครื่องกำเนิดคำถาม แต่บริบทถูกลบออก คำถามและคำตอบถูกต่อกัน 50% ของเวลา ในอีก 50% ของเวลาดำเนินการทุจริต (ไม่ว่าจะเป็นการแลกเปลี่ยนคำตอบสำหรับคำตอบที่ไม่เกี่ยวข้องหรือโดยการคัดลอกบางส่วนของคำถามลงในคำตอบ) จากนั้นโมเดลได้รับการฝึกฝนเพื่อทำนายว่าลำดับอินพุตแสดงหนึ่งในคู่ QA ดั้งเดิมหรืออินพุตที่เสียหาย

อินพุตสำหรับผู้ประเมิน QA เป็นไปตามรูปแบบสำหรับการจัด BertForSequenceClassification แต่ใช้คำถามและคำตอบเป็นสองลำดับ เป็นรูปแบบต่อไปนี้:

 [CLS] <question> [SEP] <answer [SEP]

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-15
ขนาด 40.25KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
Contoso Data Generator V2

2024-11-11
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด