Descarga de ReGen - Descarga del código fuente ReGen

ReGen

Código Fuente de IA

1.0.0

Descargar

Regenerar

Este es el repositorio de código para nuestro Regen de documento de hallazgos de ACL 2023: clasificación de texto de disparo cero a través de la generación de datos de capacitación con recuperación progresiva densa.

ACTUALIZACIÓN : ¡Consulte cómo mejorar la regen utilizando modelos de idiomas grandes en nuestra preimpresión reciente con código!

Dependencias

 python 3.8
transformers==4.2.0
pytorch==1.8.0
scikit-learn
faiss-cpu==1.6.4
tqdm>=4.62.2
nltk

Datos

Descargar Corpus

El corpus se puede descargar en:

Este enlace para revisiones.
Este enlace para noticias.
Este enlace para Wikipedia.

Descargar datos

El conjunto de pruebas de {AG News, Dbpedia, Yahoo, IMDB} se puede encontrar fácilmente en Huggingface Data Hub. Los conjuntos de pruebas para otros conjuntos de datos se pueden fundar en la carpeta test .

Formato de datos

El _id significa la ID de clase, y text es el contenido del documento.

Ejemplo (para el conjunto de datos SST-2):

 {
    {"_id": 0, "text": "It seems to me the film is about the art of ripping people off without ever letting them consciously know you have done so."}
    {"_id": 0, "text": "In the end , the movie collapses on its shaky foundation despite the best efforts of director joe carnahan."}
    {"_id": 1, "text": "Despite its title , punch-drunk love is never heavy-handed ."}
    {"_id": 1, "text": "Though only 60 minutes long , the film is packed with information and impressions."}
    ...
}

Modelo

Paso de pre -proyrenado contrastante

Adaptamos el código de COCO-DR para el pretrénmente. Consulte la implementación original para obtener más detalles.

Actualizado el 7 de septiembre de 2023 : el modelo previamente se ha lanzado en la cara de Hugging:

Noticias: aaa/news_contrastive_prain
Wiki: yyu/wiki_contrastive_prain
Revisión: yyu/revise_contrastive_prain

Paso de recuperación

Generación de incrustación

Vea el código de la carpeta retrieval , gen_embedding.sh para más detalles.

Recuperación

Consulte el código de retrieval/retrieve.py para más detalles.

Algunos hiperparámetros clave:

args.target : el conjunto de datos de destino utilizado en el experimento.
args.model : El modelo de recuperación utilizado en este estudio.
args.corpus_folder/args.corpus_name : la carpeta/nombre del corpus utilizado (por ejemplo, noticias, wiki) en los experimentos.
args.topN : El TOPN utilizado en KNN Search (generalmente establecido en 50-100).
args.round : Las rondas de recuperación. Establecer en 0 para las primeras rondas (usando el nombre/plantilla de la etiqueta solo para recuperación) y 1,2, ... para rondas posteriores.

NOTA : En principio, nuestro modelo es compatible con cualquier retriever denso (después de un entrenamiento adecuado). Si desea utilizar su propio modelo de recuperación densa, asegúrese de que el modelo de recuperación densa también use la incrustación del token [CLS] como incrustaciones de secuencia. De lo contrario, es posible que deba modificar el código en la incrustación de piezas de generación para asegurarse de que la incrustación generada sea correcta .

Paso de clasificación

Eliminación de datos ruidosos

Vea el código desde la carpeta filter . El comando de ejemplo debe ser

 train_cmd="CUDA_VISIBLE_DEVICES=0 python3 inference.py --task=${task} 
	--unlabel_file=${unlabel_file_used_for_filtering} 
	--data_dir=${folder_for_data}	
	--cache_dir="${task}/cache" --output_dir=${output_dir} --round=${round} 
	--load_from_prev=1 
	--gpu=${gpu}  --eval_batch_size=${eval_batch_size} 
	--max_seq_len=${max_seq_len} --auto_load=0 
	--model_type=${model_type}"
echo $train_cmd
eval $train_cmd

Aquí

folder_for_data es la carpeta de los datos recuperados.
unlabel_file_used_for_filtering es el nombre de archivo de los datos recuperados.
task es el nombre de la tarea.
model_type es el PLM utilizado como discriminador (por ejemplo, Roberta).

Capacitación del clasificador

Vea el código de la carpeta classification . El comando de ejemplo debe ser

 train_cmd="CUDA_VISIBLE_DEVICES=0 python3 main.py --do_train --do_eval --task=${task} 
	--train_file={PATH_FOR_GENERATED_DATASET} 
	--dev_file={PATH_FOR_GENERATED_VALID_DATASET 
	--test_file={PATH_FOR_TEST_DATASET 
	--unlabel_file=unlabeled.json 
	--data_dir=../datasets/${task}-${label_per_class} --train_seed=${train_seed} 
	--cache_dir="../datasets/${task}-${label_per_class}/cache" 
	--output_dir=${output_dir} 
	--logging_steps=${logging_steps} 
	--n_gpu=${n_gpu} --num_train_epochs=6 
	--learning_rate=2e-5   --weight_decay=1e-8 
	--batch_size=32 --eval_batch_size=128 
	--max_seq_len=128 --auto_load=1 
	--model_type=${model_type}"
echo $train_cmd
eval $train_cmd

Recuperación progresiva

Se logra de manera similar al paso de recuperación anterior. Consulte el código de retrieval/retrieve.py nuevamente para más detalles. La única diferencia es que necesita establecer la variable args.round en mayor que 0 . También debe establecer el prev_retrieve_path_name y prev_retrieve_folder en la ruta de los documentos para los últimos resultados de recuperación después del filtrado .

Conjunto de datos generado

El conjunto de datos generado se puede encontrar en este enlace.

Referencia

Por favor, cita nuestro documento si encuentra este repositorio útil para su investigación. ¡Gracias!

 @inproceedings{yu2023zero,
  title={ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval},
  author={Yu, Yue and Zhuang, Yuchen and Zhang, Rongzhi and Meng, Yu and Shen, Jiaming and Zhang, Chao},
  booktitle={Findings of ACL},
  year={2023}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-09
tamaño 16.65MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo