أداة اختيار بيانات الوسائط
ينفذ هذا الرمز طريقة اختيار البيانات والخوارزميات المقترحة في ورقة AXELROD الساخرة لبيانات تدريب نموذج اللغة ، بناءً على تفسيرات الورقة وتطبيق PERL AXELROD المقترح على Github
التعليقات في الكود والتفاصيل حول الاستخدام القادمة ، ولكن الأمر بسيط للغاية الآن.
لنفترض أن لديك مجموعة تمثيلية (صغيرة) (Task.txt) و (Big) General (unded.txt) وتريد اختيار جمل من المجموعة الكبيرة التي تبدو مثل الجسور الصغيرة.
سيكون الاستخدام:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
سيؤدي ذلك إلى إنتاج ملف .jaded يحتوي على الجمل المحددة باستخدام التنسيق التالي المنفصل عن علامات التبويب:
نقاط جملة model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) best word word gain sentence .
انظر رأس البرنامج النصي للخيارات المتاحة ، إليك أهم اثنين:
batch : ضرورية مع Big Corpora ، تسمح باختيار أكثر من جملة واحدة في وقت واحد ، انظر ورقة Axelrod
iterate : يتم تشغيل الاختيار التكراري حتى لا يمكن إزالة أكثر من 10 ٪ من الحجم الأصلي