เป้าหมายของโครงการ UNIEM คือการสร้างรูปแบบการฝังข้อความสากลที่ดีที่สุดในภาษาจีน
โครงการนี้ส่วนใหญ่รวมถึงการฝึกอบรมแบบจำลองการปรับแต่งและรหัสการประเมินผล แบบจำลองและชุดข้อมูลจะเปิดให้บริการในชุมชน HuggingFace
FineTuner ยังรองรับการปรับแต่ง sentence_transformers , text2vec และรุ่นอื่น ๆ นอกจากนี้ยังรองรับการฝึกอบรม SGPT ของรุ่น GPT Series และการปรับแต่งคำนำหน้า API เริ่มต้นโดย finetuner มีการเปลี่ยนแปลงเล็กน้อยและไม่สามารถใช้งานร่วมกับ 0.2.0FineTuner เพื่อสนับสนุนการปรับแต่งแบบจำลองด้วยการสนับสนุนแบบดั้งเดิม, รหัสไม่กี่บรรทัด, การปรับตัวทันที !openai text-embedding-ada-002 ในการจำแนกข้อความภาษาจีนและการดึงข้อความ สำหรับรายละเอียดโปรดดูโมเดล M3E readme โมเดล M3E Series เข้ากันได้อย่างเต็มที่กับผู้เปลี่ยนประโยค คุณสามารถใช้โมเดล M3E ได้อย่างราบรื่นในทุกโครงการที่สนับสนุนผู้เปลี่ยนประโยคโดย การแทนที่ชื่อรุ่น เช่น Chroma, Guidance, Semantic-Kernel
ติดตั้ง
pip install sentence-transformersใช้
from sentence_transformers import SentenceTransformer
model = SentenceTransformer ( "moka-ai/m3e-base" )
embeddings = model . encode ([ 'Hello World!' , '你好,世界!' ]) uniem ให้อินเทอร์เฟซ Finetune ที่ใช้งานง่ายมากพร้อมรหัสสองสามบรรทัดการปรับตัวทันที!
from datasets import load_dataset
from uniem . finetuner import FineTuner
dataset = load_dataset ( 'shibing624/nli_zh' , 'STS-B' )
# 指定训练的模型为 m3e-small
finetuner = FineTuner . from_pretrained ( 'moka-ai/m3e-small' , dataset = dataset )
finetuner . run ( epochs = 3 )สำหรับรายละเอียดเกี่ยวกับโมเดลการปรับแต่งโปรดดูการสอนการปรับแต่งแบบ UNIEM หรือ
หากคุณต้องการทำงานในพื้นที่คุณต้องเรียกใช้คำสั่งต่อไปนี้เพื่อเตรียมสภาพแวดล้อม
conda create -n uniem python=3.10
pip install uniemรูปแบบการฝังของจีนไม่มีมาตรฐานการประเมินแบบครบวงจรดังนั้นเราจึงอ้างถึง MTEB และสร้างมาตรฐานการประเมินของจีน MTEB-ZH ในปัจจุบัน 6 โมเดลได้รับการประเมินในแนวนอนในชุดข้อมูลต่างๆ สำหรับวิธีการประเมินรายละเอียดและรหัสโปรดดู MTEB-ZH
| Text2Vec | m3e-small | M3E-base | M3E-LARGE-0619 | Openai | dmetasoul | uer | erlangshen | |
|---|---|---|---|---|---|---|---|---|
| tnews | 0.43 | 0.4443 | 0.4827 | 0.4866 | 0.4594 | 0.3084 | 0.3539 | 0.4361 |
| jdiphone | 0.8214 | 0.8293 | 0.8533 | 0.8692 | 0.746 | 0.7972 | 0.8283 | 0.8356 |
| Gobaeastmony | 0.7472 | 0.712 | 0.7621 | 0.7663 | 0.7574 | 0.735 | 0.7534 | 0.7787 |
| tyqsentiment | 0.6099 | 0.6596 | 0.7188 | 0.7247 | 0.68 | 0.6437 | 0.6662 | 0.6444 |
| stockcomsentiment | 0.4307 | 0.4291 | 0.4363 | 0.4475 | 0.4819 | 0.4309 | 0.4555 | 0.4482 |
| iflytek | 0.414 | 0.4263 | 0.4409 | 0.4445 | 0.4486 | 0.3969 | 0.3762 | 0.4241 |
| เฉลี่ย | 0.5755 | 0.5834 | 0.6157 | 0.6231 | 0.5956 | 0.552016667 | 0.57225 | 0.594516667 |
| Text2Vec | Openai-ADA-002 | m3e-small | M3E-base | M3E-LARGE-0619 | dmetasoul | uer | erlangshen | |
|---|---|---|---|---|---|---|---|---|
| แผนที่@1 | 0.4684 | 0.6133 | 0.5574 | 0.626 | 0.6256 | 0.25203 | 0.08647 | 0.25394 |
| แผนที่@10 | 0.5877 | 0.7423 | 0.6878 | 0.7656 | 0.7627 | 0.33312 | 0.13008 | 0.34714 |
| MRR@1 | 0.5345 | 0.6931 | 0.6324 | 0.7047 | 0.7063 | 0.29258 | 0.10067 | 0.29447 |
| MRR@10 | 0.6217 | 0.7668 | 0.712 | 0.7841 | 0.7827 | 0.36287 | 0.14516 | 0.3751 |
| ndcg@1 | 0.5207 | 0.6764 | 0.6159 | 0.6881 | 0.6884 | 0.28358 | 0.09748 | 0.28578 |
| ndcg@10 | 0.6346 | 0.7786 | 0.7262 | 0.8004 | 0.7974 | 0.37468 | 0.15783 | 0.39329 |
หากคุณต้องการเพิ่มชุดข้อมูลการประเมินผลหรือโมเดลใน MTEB-ZH โปรดอย่าลังเลที่จะออกหรือประชาสัมพันธ์ ฉันจะสนับสนุนคุณโดยเร็วที่สุดและหวังว่าจะมีส่วนร่วมของคุณ!
Uniem ได้รับใบอนุญาตภายใต้ใบอนุญาต Apache-2.0 ดูไฟล์ใบอนุญาตสำหรับรายละเอียดเพิ่มเติม
โปรดอ้างอิงโมเดลนี้โดยใช้รูปแบบต่อไปนี้:
@Software {Moka Massive Mixed Embedding, Author = {Wang Yuxin, Sun Qingxuan, เขา sicheng}, title = {m3e: moka massive mixed embedding model}, ปี = {2023}}}}}