RetroMAE下載 - RetroMAE源代碼下載

RetroMAE

Ai源碼

1.0.0

下載

逆轉錄

逆轉錄及以後的代碼庫。

什麼是新的

2022年10月，逆轉： EMNLP 2022接受了通過蒙版自動編碼器進行培訓的檢索語言模型；來自Bert-base量表密集的獵犬的MARCO和BEIR的SOTA表演！
2022年11月，Veromae V2：用於預訓練檢索的語言模型的雙工蒙版自動編碼器現已在ARXIV上。 V1和Marco女士和Beir的重大改進的另一個大步向前！模型和代碼即將推出！

發布的型號

我們已將一些檢查站上傳到HuggingFace Hub。

模型	描述	關聯
逆轉錄	在Wikipedia和BookCorpus上預先進行三角	shitao/uralomae
retromae_msmarco	在MSMARCO通過	shitao/retromae_msmarco
retroma_msmarco_finetune	Finetune在MSMARCO段落數據上的rasome_msmarco	shitao/retromae_msmarco_finetune
retroma_msmarco_distill	通過使用交叉編碼器最大程度地減少KL差異，finetune在MSMARCO段落數據上feromae_msmarco	shitao/retromae_msmarco_distill
retromae_beir	Finetune beir的MSMARCO通道數據尾部（使用Beir提供的官方負面因素）	shitao/retromae_beir

您可以使用標識符字符串輕鬆加載它們。例如：

 from transformers import AutoModel
model = AutoModel . from_pretrained ( 'Shitao/RetroMAE' )

最先進的表演

逆瘤可以提供密集的獵犬的強烈初始化；經過微調的數據域數據後，它在相應的方案中產生了高質量的監督檢索性能。此外，它顯著提高了預訓練的模型的可傳遞性，這有助於在室外數據集上產生出色的零擊性能。

MSMARCO通道

預先訓練Wikipedia和BookCorpus的模型：

模型	MRR@10	回想@1000
伯特	0.346	0.964
逆轉錄	0.382	0.981

在MSMARCO上預先訓練的模型：

模型	MRR@10	回想@1000
Cocondenser	0.382	0.984
逆轉錄	0.393	0.985
逆轉（蒸餾）	0.416	0.988

Beir lachemark

模型	AVG NDCG@10（18個數據集）
伯特	0.371
冷凝器	0.407
逆轉錄	0.452
逆v2	0.491

安裝

 git clone https://github.com/staoxiao/RetroMAE.git
cd RetroMAE
pip install .

為了開發，安裝為可編輯：

 pip install -e .

工作流程

該回購包含兩個功能：預訓練和芬太納。首先，在通用數據集（或下游數據集）上使用掩模語言建模損失訓練逆轉錄。然後在下游數據集上捕獲逆逆轉錄，並具有對比損失。為了取得更好的性能，您還可以通過蒸餾交叉編碼器提供的分數來闡明逆轉。詳細的工作流程，請參考我們的示例。

預認證

 torchrun --nproc_per_node 8 
  -m pretrain.run 
  --output_dir {path to save ckpt} 
  --data_dir {your data} 
  --do_train True 
  --model_name_or_path bert-base-uncased 
  --pretrain_method {retromae or dupmae}

Finetune

 torchrun --nproc_per_node 8 
-m bi_encoder.run 
--output_dir {path to save ckpt} 
--model_name_or_path Shitao/RetroMAE 
--do_train  
--corpus_file ./data/BertTokenizer_data/corpus 
--train_query_file ./data/BertTokenizer_data/train_query 
--train_qrels ./data/BertTokenizer_data/train_qrels.txt 
--neg_file ./data/train_negs.tsv

例子

預訓練
- Wikipedia的預訓練
- 預先培訓MSMARCO通過
雙編碼器
- MSMARCO通道上的Finetune
- Beir lachemark
跨編碼器
- MSMARCO通道上的Reranker

引用

如果您發現我們的工作有幫助，請考慮引用我們：

 @inproceedings{RetroMAE,
  title={RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder},
  author={Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao},
  url={https://arxiv.org/abs/2205.12035},
  booktitle ={EMNLP},
  year={2022},
}

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-09-06
大小 69.28KB
來自於 Github

相關應用

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部