Ferramenta de seleção de dados da Allo-Media
Este código implementa o método de seleção de dados e os algoritmos propostos no artigo de Axelrod, seleção cínica de dados de treinamento de modelos de idiomas, com base nas explicações do artigo e na implementação do Perl axelrod proposto no github
Comentários em código e detalhes sobre o uso por vir, mas é bem simples agora.
Digamos que você tenha um (pequeno) representante corpus (task.txt) e um (grande) geral (não adaptado.txt) e deseja selecionar frases do grande corpus que se parecem com as pequenas corpus.
Uso seria:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
Isso produzirá um arquivo .jaded contendo as frases selecionadas usando o seguinte formato separado pela TAB:
model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) best word sentence word gain .
Veja o cabeçalho do script para obter as opções disponíveis, aqui estão os dois mais importantes:
batch : essencial com Big Corpora, permite selecionar mais de uma frase de cada vez, veja o papel de Axelrod
iterate : a seleção de iteração é executada até que não mais que 10% do tamanho original possa ser removido