الهدف من مشروع UNIEM هو إنشاء أفضل نموذج تضمين نص عالمي باللغة الصينية.
يتضمن هذا المشروع بشكل أساسي التدريب النموذجي ، وضبط الرمز والتقييم. سيتم فتح النماذج ومجموعات البيانات على مجتمع Huggingface.
FineTuner أيضًا صياغة sentence_transformers و text2vec وغيرها من النماذج. كما يدعم تدريب SGPT لنماذج سلسلة GPT وضبط البادئة. خضعت واجهة برمجة التطبيقات التي تمت تهيئتها بواسطة Finetuner لتغييرات طفيفة ولا يمكن أن تكون متوافقة مع 0.2.0FineTuner لدعم النماذج النموذجية مع الدعم الأصلي ، بضعة أسطر من التعليمات البرمجية ، والتكيف الفوري !openai text-embedding-ada-002 في تصنيف النص الصيني واسترجاع النص. للحصول على التفاصيل ، يرجى الرجوع إلى M3E Models ReadMe. نماذج سلسلة M3E متوافقة تمامًا مع محولات الجملة. يمكنك استخدام نماذج M3E بسلاسة في جميع المشاريع التي تدعم محولات الجملة عن طريق استبدال اسم النموذج ، مثل Chroma ، التوجيه ، kernel الدلالي.
ثَبَّتَ
pip install sentence-transformersيستخدم
from sentence_transformers import SentenceTransformer
model = SentenceTransformer ( "moka-ai/m3e-base" )
embeddings = model . encode ([ 'Hello World!' , '你好,世界!' ]) يوفر uniem واجهة Finetune سهلة الاستخدام للغاية ، مع بضعة أسطر من التعليمات البرمجية ، والتكيف الفوري!
from datasets import load_dataset
from uniem . finetuner import FineTuner
dataset = load_dataset ( 'shibing624/nli_zh' , 'STS-B' )
# 指定训练的模型为 m3e-small
finetuner = FineTuner . from_pretrained ( 'moka-ai/m3e-small' , dataset = dataset )
finetuner . run ( epochs = 3 )للحصول على تفاصيل حول النماذج الدقيقة ، يرجى الرجوع إلى برنامج UNIEM Tuning التعليمي أو
إذا كنت ترغب في التشغيل محليًا ، فأنت بحاجة إلى تشغيل الأمر التالي لإعداد البيئة
conda create -n uniem python=3.10
pip install uniemيفتقر نموذج التضمين الصيني إلى معيار تقييم موحد ، لذلك نشير إلى MTEB وصنعوا معيار التقييم الصيني MTEB-ZH. في الوقت الحاضر ، تم تقييم 6 نماذج أفقيا على مجموعات البيانات المختلفة. لطرق التقييم التفصيلية ورموز ، يرجى الرجوع إلى MTEB-ZH.
| text2vec | M3e-Small | M3e-base | M3E-LARGE-0619 | Openai | Dmetasoul | uer | إرلانجشن | |
|---|---|---|---|---|---|---|---|---|
| tnews | 0.43 | 0.4443 | 0.4827 | 0.4866 | 0.4594 | 0.3084 | 0.3539 | 0.4361 |
| jdiphone | 0.8214 | 0.8293 | 0.8533 | 0.8692 | 0.746 | 0.7972 | 0.8283 | 0.8356 |
| gubaeastmony | 0.7472 | 0.712 | 0.7621 | 0.7663 | 0.7574 | 0.735 | 0.7534 | 0.7787 |
| TyqSentiment | 0.6099 | 0.6596 | 0.7188 | 0.7247 | 0.68 | 0.6437 | 0.6662 | 0.6444 |
| stockcomsentiment | 0.4307 | 0.4291 | 0.4363 | 0.4475 | 0.4819 | 0.4309 | 0.4555 | 0.4482 |
| Iflytek | 0.414 | 0.4263 | 0.4409 | 0.4445 | 0.4486 | 0.3969 | 0.3762 | 0.4241 |
| متوسط | 0.5755 | 0.5834 | 0.6157 | 0.6231 | 0.5956 | 0.552016667 | 0.57225 | 0.594516667 |
| text2vec | Openai -ADA-002 | M3e-Small | M3e-base | M3E-LARGE-0619 | Dmetasoul | uer | إرلانجشن | |
|---|---|---|---|---|---|---|---|---|
| خريطة@1 | 0.4684 | 0.6133 | 0.5574 | 0.626 | 0.6256 | 0.25203 | 0.08647 | 0.25394 |
| خريطة@10 | 0.5877 | 0.7423 | 0.6878 | 0.7656 | 0.7627 | 0.33312 | 0.13008 | 0.34714 |
| MRR@1 | 0.5345 | 0.6931 | 0.6324 | 0.7047 | 0.7063 | 0.29258 | 0.10067 | 0.29447 |
| MRR@10 | 0.6217 | 0.7668 | 0.712 | 0.7841 | 0.7827 | 0.36287 | 0.14516 | 0.3751 |
| NDCG@1 | 0.5207 | 0.6764 | 0.6159 | 0.6881 | 0.6884 | 0.28358 | 0.09748 | 0.28578 |
| NDCG@10 | 0.6346 | 0.7786 | 0.7262 | 0.8004 | 0.7974 | 0.37468 | 0.15783 | 0.39329 |
إذا كنت ترغب في إضافة مجموعات بيانات التقييم أو النماذج إلى MTEB-ZH ، فلا تتردد في إصدار أو علاقات عامة. سأدعمك في أقرب وقت ممكن وأتطلع إلى مساهمتك!
تم ترخيص UNIEM بموجب ترخيص Apache-2.0. انظر ملف الترخيص لمزيد من التفاصيل.
يرجى الاستشهاد بهذا النموذج باستخدام التنسيق التالي:
Software {Moka Massive Mixed Mypedding ، Author = {Wang Yuxin ، Sun Qingxuan ، He Sicheng} ، title = {M3e: Moka massive mybedding model} ، year = {2023}}