Alat pemilihan data allo-media
Kode ini mengimplementasikan metode pemilihan data dan algoritma yang diusulkan dalam pemilihan sinis paper Axelrod dari data pelatihan model bahasa, berdasarkan penjelasan makalah dan implementasi Perl Axelrod yang diusulkan pada github
Komentar dalam kode dan detail tentang penggunaan yang akan datang, tetapi sekarang sangat sederhana.
Katakanlah Anda memiliki corpus perwakilan (kecil) (Task.txt) dan (besar) umum (tidak beradaptasi.txt) dan Anda ingin memilih kalimat dari korpus besar yang terlihat seperti korpus kecil.
Penggunaan akan menjadi:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
Ini akan menghasilkan file .jaded yang berisi kalimat yang dipilih menggunakan format yang dipisahkan tab berikut:
skor model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) sentence word gain best word .
Lihat header skrip untuk opsi yang tersedia, berikut adalah dua yang paling penting:
batch : Penting dengan korpora besar, memungkinkan untuk memilih lebih dari satu kalimat sekaligus, lihat kertas Axelrod
iterate : Iterate Selection berjalan sampai tidak lebih dari 10% dari ukuran asli dapat dihapus