Outil de sélection de données Allo-Media
Ce code met en œuvre la méthode de sélection des données et les algorithmes proposés dans la sélection cynique de la formation du modèle de langue d'Axelrod, sur la base des explications du document et de la mise en œuvre de Perl axelrod proposée sur Github
Commentaires dans le code et les détails sur l'utilisation à venir, mais c'est assez simple en ce moment.
Disons que vous avez un (petit) corpus représentatif (tâche.txt) et un (grand) général (inadapté.txt) et que vous souhaitez sélectionner des phrases du Big Corpus qui ressemblent aux petits corpus.
L'utilisation serait:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
Cela produira un fichier .jaded contenant les phrases sélectionnées à l'aide du format séparé par TAB suivant:
Score model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) best word sentence word gain mot.
Voir l'en-tête du script pour les options disponibles, voici les deux plus importantes:
batch : essentiel avec les grands corpus, permet de sélectionner plus d'une phrase à la fois, voir le papier d'Axelrod
iterate : la sélection d'itération fonctionne jusqu'à ce que pas plus de 10% de la taille d'origine puisse être supprimée