Инструмент выбора данных Allo-Media
Этот код реализует метод выбора данных и алгоритмы, предложенные в бумажном циническом выборе данных о тренировке языковых моделей, основанном на объяснениях статьи и реализации Perl Axelrod, предложенной на GitHub
Комментарии в коде и подробности об использовании, но сейчас это довольно просто.
Скажем, у вас есть (маленький) репрезентативный корпус (task.txt) и (большой) общий (unadablet.txt), и вы хотите выбрать предложения из большого корпуса, которые похожи на маленький корпус.
Использование будет:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
Это создаст файл .jaded
best word model score word gain sentence id (in the unadapted corpus) sentence id (in the selection) sentence sentence score (penalty + gain) sentence gain length penalty
Смотрите заголовок сценария для доступных вариантов, вот два наиболее важных:
batch : Основная с большими корпусами, позволяет выбирать более одного предложения за раз, см. Документ Аксельрода
iterate : выборы итерации пройдут до тех пор, пока не будет удалено не более 10% исходного размера.