cynical selection
1.0.0
Allo-Media数据选择工具
该代码根据论文的解释和在GitHub上提出的Perl实现Axelrod,实现了Axelrod的纸质模型培训数据中提出的数据选择方法和算法。
代码和有关使用情况的详细信息的评论,但现在很简单。
假设您有一个(小)代表性语料库(task.txt)和(大)一般的(unopapted.txt),您想从大型语料库中选择看起来像小型语料库的句子。
用法将是:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
这将使用以下选项卡分隔格式生成一个.jaded文件,其中包含所选句子:
model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) best word word gain sentence 。
有关可用选项,请参见脚本的标题,这是最重要的两个:
batch :与大型语料库必不可少的,允许一次选择多个句子,请参阅Axelrod的论文
iterate :迭代选择运行,直到可以删除原始尺寸的10%