cynical selection
1.0.0
Allo-Mediaデータ選択ツール
このコードは、Axelrodの論文で提案されているデータ選択方法とアルゴリズムを実装し、論文の説明とGitHubで提案されているPERL実装Axelrodに基づいて、言語モデルトレーニングデータの皮肉な選択を実装しています。
コードのコメントと今後の使用に関する詳細については、今は非常に簡単です。
(小さな)代表的なコーパス(task.txt)と(大きな)一般的な(adapted.txt)があり、小さなコーパスのように見える大きなコーパスから文章を選択する必要があるとします。
使用法は次のとおりです。
./cynical-selection.py --task task.txt --unadapted unadapted.txt
これにより、次のタブ分離形式を使用して、選択した文を含む.jadedファイルが生成されます。
model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) best word word gain sentence 。
利用可能なオプションについては、スクリプトのヘッダーを参照してください。2つの最も重要なのは次のとおりです。
batch :Big Corporaで不可欠で、一度に複数の文を選択できます。Axelrodの論文を参照してください
iterate :反復選択は、元のサイズの10%以下に削除できるまで実行されます