Загрузка cynical selection - Скачать исходный код cynical selection

cynical selection

AI Исходный код

1.0.0

Скачать

циничный выбор

Инструмент выбора данных Allo-Media

Этот код реализует метод выбора данных и алгоритмы, предложенные в бумажном циническом выборе данных о тренировке языковых моделей, основанном на объяснениях статьи и реализации Perl Axelrod, предложенной на GitHub

Комментарии в коде и подробности об использовании, но сейчас это довольно просто.

Основное использование

Скажем, у вас есть (маленький) репрезентативный корпус (task.txt) и (большой) общий (unadablet.txt), и вы хотите выбрать предложения из большого корпуса, которые похожи на маленький корпус.

Использование будет:

./cynical-selection.py --task task.txt --unadapted unadapted.txt

Это создаст файл .jaded

best word model score word gain sentence id (in the unadapted corpus) sentence id (in the selection) sentence sentence score (penalty + gain) sentence gain length penalty

Смотрите заголовок сценария для доступных вариантов, вот два наиболее важных:

batch : Основная с большими корпусами, позволяет выбирать более одного предложения за раз, см. Документ Аксельрода

iterate : выборы итерации пройдут до тех пор, пока не будет удалено не более 10% исходного размера.

Расширять

Дополнительная информация