cynical selection
1.0.0
Allo-Media數據選擇工具
該代碼根據論文的解釋和在GitHub上提出的Perl實現Axelrod,實現了Axelrod的紙質模型培訓數據中提出的數據選擇方法和算法。
代碼和有關使用情況的詳細信息的評論,但現在很簡單。
假設您有一個(小)代表性語料庫(task.txt)和(大)一般的(unopapted.txt),您想從大型語料庫中選擇看起來像小型語料庫的句子。
用法將是:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
這將使用以下選項卡分隔格式生成一個.jaded文件,其中包含所選句子:
model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) best word word gain sentence 。
有關可用選項,請參見腳本的標題,這是最重要的兩個:
batch :與大型語料庫必不可少的,允許一次選擇多個句子,請參閱Axelrod的論文
iterate :迭代選擇運行,直到可以刪除原始尺寸的10%