ดาวน์โหลด RetroMAE - ดาวน์โหลดซอร์สโค้ด RetroMAE

RetroMAE

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ใหม่

codebase สำหรับ retromae และอื่น ๆ

มีอะไรใหม่

ต.ค. 2022, Retromae: แบบจำลองภาษาที่มุ่งเน้นการดึงข้อมูลล่วงหน้าผ่านการเข้ารหัสอัตโนมัติที่สวมหน้ากากได้รับการยอมรับจาก EMNLP 2022 ; การแสดงของ SOTA บน MS Marco และ Beir จาก Bert-Base Scale Retriever หนาแน่น!
พ.ย. 2022, Retromae V2: การเข้ารหัสอัตโนมัติดูเพล็กซ์สำหรับโมเดลภาษาที่มุ่งเน้นการฝึกอบรมก่อนการฝึกอบรมตอนนี้อยู่ใน arxiv อีกก้าวหนึ่งไปข้างหน้าจาก V1 และการปรับปรุงที่สำคัญของ MS Marco และ Beir! รุ่นและรหัสกำลังจะมาเร็ว ๆ นี้!

รุ่นที่ปล่อยออกมา

เราได้อัปโหลดจุดตรวจบางอย่างไปยัง HuggingFace Hub

แบบอย่าง	คำอธิบาย	การเชื่อมโยง
ใหม่	ก่อนการแข่งขันบน Wikipedia และ Bookcorpus	shitao/retromae
retromae_msmarco	ก่อนการแข่งขันบน Msmarco Passage	shitao/retromae_msmarco
retromae_msmarco_finetune	finetune retromae_msmarco บนข้อมูลข้อความ msmarco	shitao/retromae_msmarco_finetune
retromae_msmarco_distill	Finetune retromae_msmarco บนข้อมูล MSMARCO PASSAG	shitao/retromae_msmarco_distill
retromae_beir	Finetune retromae บนข้อมูล Msmarco Passage สำหรับ Beir (ใช้ลบอย่างเป็นทางการโดย Beir)	shitao/retromae_beir

คุณสามารถโหลดได้อย่างง่ายดายโดยใช้สตริงตัวระบุ ตัวอย่างเช่น:

 from transformers import AutoModel
model = AutoModel . from_pretrained ( 'Shitao/RetroMAE' )

การแสดงที่ทันสมัย

Retromae สามารถให้การเริ่มต้นที่แข็งแกร่งของรีทรีฟเวอร์หนาแน่น หลังจากได้รับการปรับแต่งด้วยข้อมูลในโดเมนแล้วมันจะก่อให้เกิดประสิทธิภาพการดึงข้อมูลที่มีคุณภาพสูงในสถานการณ์ที่สอดคล้องกัน นอกจากนี้ยังช่วยปรับปรุงความสามารถในการถ่ายโอนของแบบจำลองที่ผ่านการฝึกอบรมมาแล้วซึ่งช่วยให้การแสดงเป็นศูนย์ที่เหนือกว่าในชุดข้อมูลนอกโดเมน

Msmarco Passage

แบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าเกี่ยวกับ Wikipedia และ Bookcorpus:

แบบอย่าง	MRR@10	เรียกคืน@1,000
เบิร์ต	0.346	0.964
ใหม่	0.382	0.981

รุ่นก่อนฝึกอบรมบน msmarco:

แบบอย่าง	MRR@10	เรียกคืน@1,000
cocondenser	0.382	0.984
ใหม่	0.393	0.985
retromae (การกลั่น)	0.416	0.988

BENGEMARK BEIR

แบบอย่าง	avg ndcg@10 (ชุดข้อมูล 18 ชุด)
เบิร์ต	0.371
คอนเดนเซอร์	0.407
ใหม่	0.452
retromae v2	0.491

การติดตั้ง

 git clone https://github.com/staoxiao/RetroMAE.git
cd RetroMAE
pip install .

เพื่อการพัฒนาติดตั้งการแก้ไข:

 pip install -e .

เวิร์กโฟลว์

repo นี้มีสองฟังก์ชั่น: pre-train และ finetune ประการแรกฝึกอบรม retromae ในชุดข้อมูลทั่วไป (หรือชุดข้อมูลดาวน์สตรีม) ด้วยการสูญเสียการสร้างแบบจำลองภาษาหน้ากาก จากนั้น finetune retromae ในชุดข้อมูลดาวน์สตรีมด้วยการสูญเสียความคมชัด เพื่อให้ได้ประสิทธิภาพที่ดีขึ้นคุณยังสามารถ finetune retromae โดยการกลั่นคะแนนที่จัดทำโดย cross-encoder เวิร์กโฟลว์โดยละเอียดโปรดดูตัวอย่างของเรา

ก่อน

 torchrun --nproc_per_node 8 
  -m pretrain.run 
  --output_dir {path to save ckpt} 
  --data_dir {your data} 
  --do_train True 
  --model_name_or_path bert-base-uncased 
  --pretrain_method {retromae or dupmae}

finetune

 torchrun --nproc_per_node 8 
-m bi_encoder.run 
--output_dir {path to save ckpt} 
--model_name_or_path Shitao/RetroMAE 
--do_train  
--corpus_file ./data/BertTokenizer_data/corpus 
--train_query_file ./data/BertTokenizer_data/train_query 
--train_qrels ./data/BertTokenizer_data/train_qrels.txt 
--neg_file ./data/train_negs.tsv

ตัวอย่าง

การฝึกอบรมล่วงหน้า
- ก่อนรถไฟบนวิกิพีเดีย
- Pre-train บน Msmarco Passage
การเข้ารหัส
- Finetune บน Msmarco Passage
- BENGEMARK BEIR
การเข้ารหัสข้าม
- Reranker บน Msmarco Passage

การอ้างอิง

หากคุณพบว่างานของเรามีประโยชน์โปรดพิจารณาอ้างเรา:

 @inproceedings{RetroMAE,
  title={RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder},
  author={Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao},
  url={https://arxiv.org/abs/2205.12035},
  booktitle ={EMNLP},
  year={2022},
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-06
ขนาด 69.28KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด