SimCSE with CARDS Download - SimCSE with CARDS download de código fonte

SimCSE with CARDS

Código-Fonte de IA

1.0.0

Baixar

Melhorando o aprendizado contrastivo de incorporações de sentenças com positivos agentes de caso e negativos recuperados

Esse repositório implementa o aumento da caixa de comutação e a recuperação negativa dura do artigo "Melhorando o aprendizado contrastivo das incorporações de sentença com positivos agentes e negativos". A combinação das duas abordagens com o SIMCSE leva ao modelo chamado aprendizado contrastante com dados aumentados e recuperados para incorporação de sentença (cartões).

Tabela 1. Exemplo de frases de amostra com troca de caixa e recuperadas.

Tipo	Frase
Original	A história do primeiro livro continua.
Trocado de caixa	A história do primeiro livro continua.
Recuperado	A história começa como uma história de amor típica.
Aleatório	Isso é mantido como um resultado temporário.

Resultados e pontos de verificação

Tabela 2. Desempenho nas tarefas de incorporação de sentença

Pré -fiel	Afinação	STS12	STS13	STS14	STS15	STS16	STSB	Sick-r	Avg.
Roberta-Base	SIMCSE + CARTOS	72.65	84.26	76.52	82.98	82.73	82.04	70.66	78.83
Roberta-Large	SIMCSE + CARTOS	74.63	86.27	79.25	85.93	83.17	83.86	72.77	80,84

Download Link: Cards-Roberta-Base (Download, 440MB), Cards-Roberta-Large (Download, 1,23 GB).

Tabela 3. Desempenho nas tarefas de cola

Pré -fiel	Afinação	Mnli-m	Qqp	Qnli	SST-2	Cola	STS-B	Mrpc	Rte	Avg.
Debertav2-xxlarge	R-Drop + Switch-Case	92.0	93.0	96.3	97.2	75.5	93.6	93.9	94.2	91.7

Uso

Este repo é construído com base em Transformers e SIMCSE do Hugging Space. Consulte requisitos.txt para versões do pacote.

Preparação de dados

 # 1. Download wiki-1m dataset: 
# - use wget -P target_folder in data/datasets/download_wiki.sh, and run
bash data/datasets/download_wiki.sh
# - modify train_file in scripts/bert/run_simcse_pretraining_v2.sh

# 2. preprocess wiki-1m dataset for negative retrieval
# - deduplicate the wiki-1m dataset, and (optionally) remove sentences with less than three words
# - modify paths in data/datasets/simcse_utils.py then run it to get model representations for all sentences in dataset
python data/datasets/simcse_utils.py

# 3. Download SentEval evaluation data:
# - use wget -P target_folder in data/datasets/download_senteval.sh, and run
bash data/datasets/download_senteval.sh

Tune Roberta com cartas

Antes de executar o código, o usuário pode precisar alterar o ponto de verificação do modelo padrão e os caminhos de E/S, incluindo:

scripts/bert/run_simcse_grid.sh : linha 42-50 (trens_file, trens_file_dedupl (opcional), output_dir, tensorboard_dir, send_rep_cache_file, Senteval_data_dir)
scripts/bert/run_simcse_pretraining.sh : Linha 17-20 (trens_file, output_dir, tensorboard_dir, SentEval_data_dir), linha 45 (send_rep_cache_files), linha 166-213 (model_name_or_path, config_name).

Tune + avaliação

 # MUST cd to the folder which contains data/, examples/, models/, scripts/, training/ and utils/
cd YOUR_CARDS_WORKING_DIRECTORY

# roberta-base
new_train_file=path_to_wiki1m
sent_rep_cache_file=path_to_sentence_representation_file  # generated by data/datasets/simcse_utils.py 

# run a model with a single set of hyper-parameters
# when running the model for the very first time, need to add overwrite_cache=True, this will produce a processed training data cache.
bash scripts/bert/run_simcse_grid.sh 
    model_type=roberta model_size=base 
    cuda=0,1,2,3 seed=42 learning_rate=4e-5 
    new_train_file= ${new_train_file} sent_rep_cache_file= ${sent_rep_cache_file} 
    dyn_knn=65 sample_k=1 knn_metric=cos 
    switch_case_probability=0.05 switch_case_method=v2 
    print_only=False

# grid-search on hyper-parameters
bash scripts/bert/run_simcse_grid.sh 
    model_type=roberta model_size=base 
    cuda=0,1,2,3 seed=42 learning_rate=1e-5,2e-5,4e-5 
    new_train_file= ${new_train_file} sent_rep_cache_file= ${sent_rep_cache_file} 
    dyn_knn=0,9,65 sample_k=1 knn_metric=cos 
    switch_case_probability=0,0.05,0.1,0.15 switch_case_method=v2 
    print_only=False

# roberta-large
bash scripts/bert/run_simcse_grid.sh 
    model_type=roberta model_size=large 
    cuda=0,1,2,3 seed=42 learning_rate=7.5e-6 
    new_train_file= ${new_train_file} sent_rep_cache_file= ${sent_rep_cache_file} 
    dyn_knn=9 sample_k=1 knn_metric=cos 
    switch_case_probability=0.1 switch_case_method=v1 
    print_only=False

Somente avaliação

 # provide train_file, output_dir, tensorboard_dir if different to the default values
model_name=name_of_saved_mdoel  # e.g., roberta_large_bs128x4_lr2e-5_switchcase0.1_v2
bash ./scripts/bert/run_simcse_pretraining.sh 
    model_name_or_path= ${output_dir} / ${model_name} model_name= ${model_name} config_name= ${output_dir} / ${model_name} /config.json 
    train_file= ${train_file} output_dir= ${output_dir} /test_only tensorboard_dir= ${tensorboard_dir} 
    model_type=roberta model_size=base do_train=False 
    cuda=0 ngpu=1

Questões conhecidas

Por razões desconhecidas, o conjunto de bons hiper-parâmetros do modelo foi diferente ao trabalhar com os Transformadores do Huggingface v4.11.3 e v4.15.0. Os hiper-parâmetros listados acima foram pesquisados na grade nos Transformers 4.11.3.

Citação

 @inproceedings{cards,
    title = "Improving Contrastive Learning of Sentence Embeddings with Case-Augmented Positives and Retrieved Negatives",
    author = "Wei Wang and Liangzhu Ge and Jingqiao Zhang and Cheng Yang",
    booktitle = "The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR)",
    year = "2022"
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-06
tamanho 124.22KB
Vindo de Github

Aplicativos Relacionados

Cartões SCP versão chinesa

2023-10-17
Cartas de Espada Mágica: Origens

2022-08-30
Cartas de Masmorra

2022-08-18
Cartas de Espada Mágica: DungeonTop

2022-08-18
Cartas Atômicas

2022-07-29
Pássaros com sentimentos

2022-07-26

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos