เครื่องมือเลือกข้อมูล Allo-Media
รหัสนี้ใช้วิธีการเลือกข้อมูลและอัลกอริทึมที่เสนอในการเลือกข้อมูลการฝึกอบรมแบบจำลองภาษาของ Axelrod ของ Axelrod ตามคำอธิบายของกระดาษและการใช้งาน Perl Axelrod ที่เสนอบน GitHub
ความคิดเห็นในรหัสและรายละเอียดเกี่ยวกับการใช้งานที่จะมาถึง แต่ตอนนี้มันค่อนข้างง่าย
สมมติว่าคุณมีตัวแทน (เล็ก) คลังข้อมูล (task.txt) และ (ใหญ่) ทั่วไป (unadapted.txt) และคุณต้องการเลือกประโยคจากคลังข้อมูลขนาดใหญ่ที่ดูเหมือนคอร์ปัสขนาดเล็ก
การใช้งานจะเป็น:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
สิ่งนี้จะสร้างไฟล์ .jaded ที่มีประโยคที่เลือกโดยใช้รูปแบบที่คั่นด้วยแท็บต่อไปนี้:
คะแนน model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) word gain sentence best word
ดูส่วนหัวของสคริปต์สำหรับตัวเลือกที่มีอยู่นี่คือสองสิ่งที่สำคัญที่สุด:
batch : จำเป็นกับ Corpora ขนาดใหญ่อนุญาตให้เลือกมากกว่าหนึ่งประโยคในแต่ละครั้งดูกระดาษของ Axelrod
iterate : การเลือกซ้ำจะทำงานจนไม่เกิน 10% ของขนาดดั้งเดิมสามารถลบออกได้