Allo-Media-Datenauswahlwerkzeug
Dieser Code implant
Kommentare in Code und Details zur Verwendung von Nutzung, aber es ist momentan ziemlich einfach.
Angenommen, Sie haben einen (kleinen) repräsentativen Corpus (task.txt) und einen (großen) allgemeinen (unadapted.txt), und Sie möchten Sätze aus dem großen Korpus auswählen, die wie die kleinen Corpus aussehen.
Verwendung wäre:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
Dadurch werden eine .jaded Datei erzeugt, die die ausgewählten Sätze enthält, die das folgende Registerkartenformat unter Verwendung von Registerkarten enthalten:
model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) best word word gain sentence .
Siehe Header des Skripts für verfügbare Optionen. Hier ist die beiden wichtigsten:
batch : Wesentlich mit Big Corpora, ermöglicht es, mehr als einen Satz gleichzeitig auszuwählen, siehe Axelrod's Paper
iterate : Die Iterate -Selektion läuft, bis nicht mehr als 10% der ursprünglichen Größe entfernt werden können