Herramienta de selección de datos alo-medios
Este código implementa el método de selección de datos y los algoritmos propuestos en la selección cínica del papel de Axelrod de los datos de capacitación del modelo de lenguaje, basados en las explicaciones del documento y la implementación de Perl Axelrod propuesta en GitHub
Comentarios en código y detalles sobre el uso que viene, pero es bastante simple en este momento.
Digamos que tiene un corpus representativo (pequeño) (task.txt) y un (grande) general (no adaptado.txt) y desea seleccionar oraciones del gran corpus que se parezcan a los pequeños corpus.
El uso sería:
./cynical-selection.py --task task.txt --unadapted unadapted.txt
Esto producirá un archivo .jaded que contiene las oraciones seleccionadas utilizando el siguiente formato separado por la pestaña:
puntaje de puntaje de puntaje de puntaje model score sentence score (penalty + gain) length penalty sentence gain sentence id (in the selection) sentence id (in the unadapted corpus) best word word gain sentence
Vea el encabezado del script para las opciones disponibles, aquí están los dos más importantes:
batch : Esencial con los grandes corpus, permite seleccionar más de una oración a la vez, ver el documento de Axelrod
iterate : la selección de iteración funciona hasta que no se puede eliminar más del 10% del tamaño original