ดาวน์โหลด miners - ดาวน์โหลดซอร์สโค้ด miners

miners

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

คนงานเหมือง : โมเดลภาษาหลายภาษาเป็นตัวดึงความหมาย

⚡แนะนำ เกณฑ์มาตรฐานของคนงาน ที่ออกแบบมาเพื่อประเมินความกล้าหาญของ LMS หลายภาษาในงานการดึงความหมายรวมถึงการขุด Bitext และการจำแนกผ่านบริบทการสืบค้น โดยไม่ต้องปรับแต่ง กรอบการทำงานที่ครอบคลุมได้รับการพัฒนาขึ้นเพื่อประเมินประสิทธิภาพของแบบจำลองภาษาในการดึงตัวอย่างผ่าน ภาษาที่หลากหลายกว่า 200 ภาษา รวมถึงภาษาที่มีทรัพยากรต่ำในการตั้ง ค่าข้ามภาษา (XS) และการตั้งค่า การสลับรหัส (CS) ผลการวิจัยพบว่าการบรรลุประสิทธิภาพการแข่งขันด้วยวิธีการที่ทันสมัยเป็นไปได้โดยการดึงการฝังตัวที่คล้ายกันแบบความหมายเพียงอย่างเดียวโดยไม่ต้องมีการปรับแต่งใด ๆ

กระดาษได้รับการยอมรับจากการค้นพบ EMNLP 2024

สารบัญ

กระดาษ
เกณฑ์มาตรฐาน
การตั้งค่าสภาพแวดล้อม
บันทึกการทดลอง
รันการทดลอง
- การเรียกคืน Bitext
- การจำแนกตามการเรียกคืน
- การจำแนกประเภท ICL
รวมผลการทดลอง
การแสดงภาพการฝัง
รุ่นรองรับ
จะมีส่วนร่วมอย่างไร?
เกี่ยวกับความคืบหน้า

กระดาษ

นี่คือซอร์สโค้ดของกระดาษ [arxiv]:

รหัสนี้เขียนขึ้นโดยใช้ Pytorch หากคุณใช้รหัสหรือชุดข้อมูลใด ๆ จากชุดเครื่องมือนี้ในการวิจัยของคุณโปรดอ้างอิงกระดาษที่เกี่ยวข้อง

 @article {winata2024miners,
  title = {คนงานเหมือง: โมเดลภาษาหลายภาษาเป็นตัวดึงความหมาย}
  ผู้แต่ง = {Winata, Genta Indra และ Zhang, Ruochen และ Adelani, David Ifeoluwa}
  journal = {arxiv preprint arxiv: 2406.07424},
  ปี = {2024}
-

เกณฑ์มาตรฐาน

คนงานเหมืองประกอบด้วยชุดข้อมูล 11 ชุด : 7 ชุดข้อมูลหลายภาษาและ 4 ชุดข้อมูลสลับรหัสครอบคลุมมากกว่า 200 ภาษา และครอบคลุมทั้งรูปแบบขนานและการจำแนกประเภท ชุดข้อมูลแบบขนานเหมาะสำหรับการดึง Bitext เนื่องจากมีเนื้อหาหลายภาษาที่จัดเรียงกันซึ่งอำนวยความสะดวกในการทำเหมือง Bitext และงานแปลของเครื่อง นอกจากนี้ชุดข้อมูลการจำแนกประเภทยังครอบคลุมการจำแนกความตั้งใจการวิเคราะห์ความเชื่อมั่นและการจำแนกหัวข้อซึ่งเราประเมินการกำหนดการจำแนกประเภทการดึงและ ICL

เกณฑ์มาตรฐานของเราประเมิน LMS ในสามงาน: Bitext Retrieval, การจำแนกตามการดึงข้อมูลและการจำแนกประเภท ICL การตั้งค่ารวมถึง monolingual (mono) , cross-lingual (XS) , การสลับรหัส (CS) และ การสลับรหัสข้ามภาษา (XS CS)

⚡การตั้งค่าสภาพแวดล้อม

 pip install -r requirements.txt

หากคุณต้องการใช้ API หรือรุ่นจาก Openai, Cohere หรือ Hugging Face แก้ไข OPENAI_TOKEN , COHERE_TOKEN และ HF_TOKEN โปรดทราบว่าแบบจำลองส่วนใหญ่เกี่ยวกับการกอดใบหน้าไม่จำเป็นต้องใช้ HF_TOKEN ซึ่งมีไว้สำหรับรุ่น Llama และ Gemma โดยเฉพาะ

หากคุณต้องการใช้ LLAMA3.1 คุณต้องอัพเกรดเวอร์ชัน Transformers

 pip install transformers==4.44.2

บันทึกการทดลอง

หากคุณต้องการได้รับผลลัพธ์ทั้งหมดและตัวอย่างจากการทดลองของเราอย่าลังเลที่จะดาวน์โหลดที่นี่ (~ 360MB)

- รันการทดลอง

ผลการทดลองทั้งหมดจะถูกเก็บไว้ใน logs/ ไดเรกทอรี คุณสามารถดำเนินการทดสอบแต่ละครั้งโดยใช้คำสั่งต่อไปนี้:

การเรียกคืน Bitext

การตั้งค่าข้ามภาษา

 ❱❱❱ python bitext.py --src_lang {src_lang} --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python bitext.py --src_lang de --dataset bucc --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

วงดนตรี

อาร์กิวเมนต์มีความคล้ายคลึงกันข้างต้นยกเว้นเราใช้ --model_checkpoints และ --weights

 ❱❱❱ python bitext.py --src_lang {src_lang} --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python bitext.py --src_lang de --dataset bucc --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

การจำแนกตามการเรียกคืน

การตั้งค่า monolingual

 ❱❱❱ python classification.py --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python classification.py --dataset nusax --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

การตั้งค่าข้ามภาษา

เพิ่ม --src_lang และ --cross ไปยังคำสั่ง

 ❱❱❱ python classification.py --src_lang {src_lang} --cross --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python classification.py --src_lang eng --cross --dataset nusax --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

วงดนตรี

อาร์กิวเมนต์มีความคล้ายคลึงกันข้างต้นยกเว้นเราใช้ --model_checkpoints และ --weights

 ❱❱❱ python classification.py --dataset {dataset} --seed {seed} --cuda --model_checkpoints {model_checkpoint1} {model_checkpoint2} {...} --weights {weight1} {weight2} {...}
❱❱❱ python classification.py --dataset nusax --seed 42 --cuda --model_checkpoints sentence-transformers/LaBSE intfloat/multilingual-e5-large --weights 0.25 0.75

การจำแนกประเภท ICL

การตั้งค่า monolingual

 ❱❱❱ python icl.py --dataset {dataset} --seed 42 --instruction {instruction} --model_checkpoint {model} --gen_model_checkpoint {gen_model_checkpoint}  --cuda --load_in_8bit --k {k}
❱❱❱ python icl.py --dataset nusax --seed 42 --instruction "Generate a sentiment label for a given input.nPlease only output the label." --model_checkpoint sentence-transformers/LaBSE --gen_model_checkpoint meta-llama/Meta-Llama-3-8B-Instruct  --cuda --load_in_8bit --k 1

การตั้งค่าข้ามภาษา

เพิ่ม --src_lang และ --cross ไปยังคำสั่ง

 ❱❱❱ python icl.py --src_lang {src_lang} --cross --dataset {dataset} --seed 42 --instruction {instruction} --model_checkpoint {model} --gen_model_checkpoint {gen_model_checkpoint}  --cuda --load_in_8bit --k {k}
❱❱❱ python icl.py --src_lang eng --cross --dataset nusax --seed 42 --instruction "Generate a sentiment label for a given input.nPlease only output the label." --model_checkpoint sentence-transformers/LaBSE --gen_model_checkpoint meta-llama/Meta-Llama-3-8B-Instruct  --cuda --load_in_8bit --k 1

- รวมผลการทดลอง

เพิ่ม --k เพื่อแก้ไขจำนวนตัวอย่างที่ดึงมา

 ❱❱❱ python script/aggregate/aggregate_bitext_mining.py --k {k}
❱❱❱ python script/aggregate/aggregate_classification.py --k {k}
❱❱❱ python script/aggregate/aggregate_classification_cross.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl_cross.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl_percentile.py --k {k}

️การแสดงภาพการฝัง

 ❱❱❱ python visualize.py --model_checkpoint {model_checkpoint} --dataset {dataset} --seed {seed} --cuda
❱❱❱ python visualize.py --model_checkpoint sentence-transformers/LaBSE --dataset nusax --seed 42 --cuda

ตัวอย่างของการสร้างภาพโดยฉลากคลาส: Labse (ซ้าย) และ XLM-R Base (ขวา)

ตัวอย่างของการสร้างภาพโดย ID ตัวอย่าง: Labse (ซ้าย) และ XLM-R ฐาน (ขวา)

รุ่นรองรับ

codebase ของเรารองรับการใช้งานหลายรุ่นสำหรับการทดลองให้ความยืดหยุ่นสำหรับการปรับแต่งนอกเหนือจากรายการที่แสดงด้านล่าง:

encoder LMS และ APIs

LMS โอเพนซอร์ซ:

ประโยค/labse
ประโยค-transformers/use-cmlm-multilingual
intfloat/multilingual-e5-base
intfloat/multilingual-e5-large
ประโยค-transformers/paraphrase-multilinguation-mpnet-base-v2
Microsoft/MultilingAnt-Minilm-L12-H384
CIS-LMU/GLOT500-base
facebookai/xlm-roberta-base
facebookai/xlm-roberta-large

APIs Embedding เชิงพาณิชย์ (ทดสอบล่าสุดเมื่อเดือนมิถุนายน 2567)

Coere-Embedv3
openai-embedv3

Generative LMS:

Bloomz Bigscience/Bloomz-560m Bigscience/Bloom-1B7 Bigscience/Bloomz-3B
MT0 BigScience/MT0-XL
XGLM Facebook/XGLM-564M Facebook/XGLM-2.9B
Aya-23 Cohereforai/Aya-23-8b
AYA-101 Cohereforai/Aya-101
Gemma 1.1 แนะนำ Google/Gemma-1.1-7b-it
LLAMA 3 8B แนะนำ META-LLAMA/META-LLAMA-3-8B-Instruct
LLAMA 3 8B แนะนำ META-LLAMA/META-LLAMA-3.1-8B-Instruct
รุ่น GPT (ทดสอบล่าสุด ณ เดือนมิถุนายน 2567)
Cohere Command R (ทดสอบล่าสุด ณ เดือนมิถุนายน 2567)

จะมีส่วนร่วมอย่างไร?

อย่าลังเลที่จะสร้างปัญหาหากคุณมีคำถามใด ๆ และสร้าง PR สำหรับการแก้ไขข้อบกพร่องหรือเพิ่มการปรับปรุง (เช่นเพิ่มชุดข้อมูลหรือรุ่นใหม่)

หากคุณสนใจที่จะสร้างส่วนขยายของงานนี้อย่าลังเลที่จะติดต่อเรา!

สนับสนุนความพยายามของเราโอเพนซอร์ส

เกี่ยวกับความคืบหน้า

เรากำลังปรับปรุงรหัสเพื่อให้ง่ายขึ้นและปรับแต่งได้ เราได้สร้างที่เก็บใหม่สำหรับการใช้ Distfuse ซึ่งมีอยู่ที่ https://github.com/gentaiscool/distfuse/ คุณสามารถติดตั้งได้โดยเรียกใช้ pip install distfuse ต่อมามันจะถูกรวมเข้ากับที่เก็บนี้

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-11
ขนาด 7.1MB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด