SimCSE with CARDS herunterladen - SimCSE with CARDS herunterladen

SimCSE with CARDS

AI-Quellcode

1.0.0

Herunterladen

Verbesserung des kontrastiven Lernens von Satzeinbettungen mit von Fall ausgestatteten Positiven und abgerufenen Negativen

Dieses Repository implementiert Switch-Case-Augmentation und hartes negatives Abruf aus dem Papier "Verbesserung des kontrastiven Lernens von Satzbettdings mit von Fall ausgestatteten Positiven und abgerufenen Negativen". Die Kombination der beiden Ansätze mit SIMCSE führt zu dem Modell, das als kontrastives Lernen mit erweiterten und abgerufenen Daten für die Satzeinbettung (Karten) bezeichnet wird.

Tabelle 1. Beispiel für Fall mit Fall angezogen und abgerufene Stichprobensätze.

Typ	Satz
Original	Die Geschichte des ersten Buches geht weiter.
Fallgeschaltet	Die Geschichte des ersten Buches geht weiter.
Abgerufen	Die Geschichte beginnt als typische Liebesgeschichte.
Zufällig	Dies wird als vorübergehendes Ergebnis gehalten.

Ergebnisse und Kontrollpunkte

Tabelle 2. Leistung bei Satzeinbettungsaufgaben

Vorab	Feinabstimmung	STS12	STS13	STS14	STS15	STS16	STSB	Krank-r	Avg.
Roberta-Base	Simcse + Karten	72,65	84.26	76,52	82.98	82.73	82.04	70,66	78,83
Roberta-Large	Simcse + Karten	74,63	86,27	79,25	85,93	83.17	83,86	72.77	80.84

Download-Link: Karten-Roberta-Base (Download, 440 MB), Karten-Roberta-Large (Download, 1.23 GB).

Tabelle 3. Leistung bei Kleberaufgaben

Vorab	Feinabstimmung	Mnli-m	QQP	Qnli	SST-2	Cola	STS-B	MRPC	Rte	Avg.
Debertav2-xxlarge	R-Drop + Switch-Case	92.0	93.0	96,3	97,2	75,5	93.6	93.9	94.2	91.7

Verwendung

Dieses Repo basiert auf Harmgingface -Transformatoren und Simcse. Siehe Anforderungen.txt für Paketversionen.

Datenvorbereitung

 # 1. Download wiki-1m dataset: 
# - use wget -P target_folder in data/datasets/download_wiki.sh, and run
bash data/datasets/download_wiki.sh
# - modify train_file in scripts/bert/run_simcse_pretraining_v2.sh

# 2. preprocess wiki-1m dataset for negative retrieval
# - deduplicate the wiki-1m dataset, and (optionally) remove sentences with less than three words
# - modify paths in data/datasets/simcse_utils.py then run it to get model representations for all sentences in dataset
python data/datasets/simcse_utils.py

# 3. Download SentEval evaluation data:
# - use wget -P target_folder in data/datasets/download_senteval.sh, and run
bash data/datasets/download_senteval.sh

Feinsteuer Roberta mit Karten

Vor dem Ausführen des Code muss der Benutzer möglicherweise den Standard -Modell -Checkpoint und die I/A -Pfade ändern, einschließlich:

scripts/bert/run_simcse_grid.sh : Zeile 42-50 (train_file, train_file_dedupl (optional), output_dir, Tensorboard_dir, sent_rep_cache_file, Sental_data_dir)
scripts/bert/run_simcse_pretraining.sh : Zeile 17-20 (train_file, output_dir, Tensorboard_dir, Senteval_Data_Dir), Zeile 45 (sent_rep_cache_files), Zeile 166-213 (model_name_or_path, config_name).

Fein-Tune + Bewertung

 # MUST cd to the folder which contains data/, examples/, models/, scripts/, training/ and utils/
cd YOUR_CARDS_WORKING_DIRECTORY

# roberta-base
new_train_file=path_to_wiki1m
sent_rep_cache_file=path_to_sentence_representation_file  # generated by data/datasets/simcse_utils.py 

# run a model with a single set of hyper-parameters
# when running the model for the very first time, need to add overwrite_cache=True, this will produce a processed training data cache.
bash scripts/bert/run_simcse_grid.sh 
    model_type=roberta model_size=base 
    cuda=0,1,2,3 seed=42 learning_rate=4e-5 
    new_train_file= ${new_train_file} sent_rep_cache_file= ${sent_rep_cache_file} 
    dyn_knn=65 sample_k=1 knn_metric=cos 
    switch_case_probability=0.05 switch_case_method=v2 
    print_only=False

# grid-search on hyper-parameters
bash scripts/bert/run_simcse_grid.sh 
    model_type=roberta model_size=base 
    cuda=0,1,2,3 seed=42 learning_rate=1e-5,2e-5,4e-5 
    new_train_file= ${new_train_file} sent_rep_cache_file= ${sent_rep_cache_file} 
    dyn_knn=0,9,65 sample_k=1 knn_metric=cos 
    switch_case_probability=0,0.05,0.1,0.15 switch_case_method=v2 
    print_only=False

# roberta-large
bash scripts/bert/run_simcse_grid.sh 
    model_type=roberta model_size=large 
    cuda=0,1,2,3 seed=42 learning_rate=7.5e-6 
    new_train_file= ${new_train_file} sent_rep_cache_file= ${sent_rep_cache_file} 
    dyn_knn=9 sample_k=1 knn_metric=cos 
    switch_case_probability=0.1 switch_case_method=v1 
    print_only=False

Nur Bewertung

 # provide train_file, output_dir, tensorboard_dir if different to the default values
model_name=name_of_saved_mdoel  # e.g., roberta_large_bs128x4_lr2e-5_switchcase0.1_v2
bash ./scripts/bert/run_simcse_pretraining.sh 
    model_name_or_path= ${output_dir} / ${model_name} model_name= ${model_name} config_name= ${output_dir} / ${model_name} /config.json 
    train_file= ${train_file} output_dir= ${output_dir} /test_only tensorboard_dir= ${tensorboard_dir} 
    model_type=roberta model_size=base do_train=False 
    cuda=0 ngpu=1

Bekannte Probleme

Aus unbekannten Gründen war der Satz guter Modellhyperparameter bei der Arbeit mit Huggingface-Transformatoren v4.11.3 und v4.15.0 unterschiedlich. Die oben aufgeführten Hyperparameter wurden auf den Transformatoren 4.11.3 gesucht.

Zitat

 @inproceedings{cards,
    title = "Improving Contrastive Learning of Sentence Embeddings with Case-Augmented Positives and Retrieved Negatives",
    author = "Wei Wang and Liangzhu Ge and Jingqiao Zhang and Cheng Yang",
    booktitle = "The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR)",
    year = "2022"
}

Expandieren

Zusätzliche Informationen