Téléchargement de ReGen - Téléchargement du code source ReGen

ReGen

Code Source AI

1.0.0

Télécharger

Régénération

Ceci est le référentiel de code pour notre régénération du papier ACL 2023: Classification de texte à tirs zéro via la génération de données de formation avec une récupération dense progressive.

MISE À JOUR : Vérifiez comment améliorer Regen en utilisant de grands modèles de langage dans notre récent préimprimée avec le code!

Dépendances

 python 3.8
transformers==4.2.0
pytorch==1.8.0
scikit-learn
faiss-cpu==1.6.4
tqdm>=4.62.2
nltk

Données

Télécharger le corpus

Le corpus peut être téléchargé à:

Ce lien pour les avis.
Ce lien pour les nouvelles.
Ce lien pour Wikipedia.

Télécharger les données

L'ensemble de test de {Ag News, Dbpedia, Yahoo, IMDB} peut être facilement trouvé sur HuggingFace Data Hub. Les ensembles de tests pour d'autres ensembles de données peuvent être fondés dans le dossier test .

Format de données

Le _id représente l'ID de classe et text est le contenu du document.

Exemple (pour l'ensemble de données SST-2):

 {
    {"_id": 0, "text": "It seems to me the film is about the art of ripping people off without ever letting them consciously know you have done so."}
    {"_id": 0, "text": "In the end , the movie collapses on its shaky foundation despite the best efforts of director joe carnahan."}
    {"_id": 1, "text": "Despite its title , punch-drunk love is never heavy-handed ."}
    {"_id": 1, "text": "Though only 60 minutes long , the film is packed with information and impressions."}
    ...
}

Modèle

Étape de pré-formation contrastée

Nous adaptons le code de Coco-Dr pour pré-formation. Veuillez vérifier la mise en œuvre d'origine pour plus de détails.

Mis à jour le 7 septembre 2023 : Le modèle pré-entraîné a été publié sur le Huggingface:

NOUVELLES: YYU / NEWS_CONTRASTIVE_PRETRAIN
Wiki: yyu / wiki_contrastive_pretrain
Revue: yyu / review_contrastive_pretrain

Étape de récupération

Génération d'intégration

Voir le code du dossier retrieval , gen_embedding.sh pour plus de détails.

Récupération

Voir le code de retrieval/retrieve.py pour plus de détails.

Quelques hyperparamètres clés:

args.target : l'ensemble de données cible utilisé dans l'expérience.
args.model : Le modèle de récupération utilisé dans cette étude.
args.corpus_folder/args.corpus_name : le dossier / nom du corpus utilisé (par exemple, News, wiki) dans les expériences.
args.topN : le topn utilisé dans la recherche KNN (généralement réglé sur 50-100).
args.round : les tournées de récupération. Réglé sur 0 pour les premiers tours (en utilisant le nom / modèle d'étiquette pour la récupération uniquement) et 1,2, ... pour les tours ultérieurs.

Remarque : En principe, notre modèle est compatible avec tous les retrievers denses (après une formation correctement). Si vous souhaitez utiliser votre propre modèle de récupération dense, assurez-vous que le modèle de récupération dense utilise également l'incorporation de jeton [CLS] comme incorporation de séquence. Sinon, vous devrez peut-être modifier le code en pièces de génération d'intégration pour vous assurer que l'intégration générée est correcte .

Étape de classification

Suppression de données bruyantes

Voir le code du dossier filter . L'exemple de commande doit être

 train_cmd="CUDA_VISIBLE_DEVICES=0 python3 inference.py --task=${task} 
	--unlabel_file=${unlabel_file_used_for_filtering} 
	--data_dir=${folder_for_data}	
	--cache_dir="${task}/cache" --output_dir=${output_dir} --round=${round} 
	--load_from_prev=1 
	--gpu=${gpu}  --eval_batch_size=${eval_batch_size} 
	--max_seq_len=${max_seq_len} --auto_load=0 
	--model_type=${model_type}"
echo $train_cmd
eval $train_cmd

Ici

folder_for_data est le dossier des données récupérées.
unlabel_file_used_for_filtering est le nom de fichier des données récupérées.
task est le nom de la tâche.
model_type est le PLM utilisé comme discriminateur (par exemple Roberta).

Formation du classificateur

Voir le code du dossier classification . L'exemple de commande doit être

 train_cmd="CUDA_VISIBLE_DEVICES=0 python3 main.py --do_train --do_eval --task=${task} 
	--train_file={PATH_FOR_GENERATED_DATASET} 
	--dev_file={PATH_FOR_GENERATED_VALID_DATASET 
	--test_file={PATH_FOR_TEST_DATASET 
	--unlabel_file=unlabeled.json 
	--data_dir=../datasets/${task}-${label_per_class} --train_seed=${train_seed} 
	--cache_dir="../datasets/${task}-${label_per_class}/cache" 
	--output_dir=${output_dir} 
	--logging_steps=${logging_steps} 
	--n_gpu=${n_gpu} --num_train_epochs=6 
	--learning_rate=2e-5   --weight_decay=1e-8 
	--batch_size=32 --eval_batch_size=128 
	--max_seq_len=128 --auto_load=1 
	--model_type=${model_type}"
echo $train_cmd
eval $train_cmd

Récupération progressive

Il est réalisé avec un moyen similaire à l'étape de récupération précédente. Voir le code de retrieval/retrieve.py à nouveau pour plus de détails. La seule différence est que vous devez définir la variable args.round à plus de 0 . Vous devez également définir le prev_retrieve_path_name et prev_retrieve_folder sur le chemin des documents pour les derniers résultats de récupération après le filtrage .

Ensemble de données généré

L'ensemble de données généré peut être trouvé sur ce lien.

Référence

Veuillez citer notre article si vous trouvez ce repo utile pour vos recherches. Merci!

 @inproceedings{yu2023zero,
  title={ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval},
  author={Yu, Yue and Zhuang, Yuchen and Zhang, Rongzhi and Meng, Yu and Shen, Jiaming and Zhang, Chao},
  booktitle={Findings of ACL},
  year={2023}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-09
taille 16.65MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout