L'objectif du projet UNIEM est de créer le meilleur modèle d'intégration de texte universel en chinois.
Ce projet comprend principalement une formation, un réglage fin et un code d'évaluation. Les modèles et les ensembles de données seront ouverts sur la communauté HuggingFace.
FineTuner prend également en charge le réglage fin de sentence_transformers , text2vec et d'autres modèles. Il soutient également la formation SGPT des modèles de la série GPT et le réglage du préfixe. L'API initialisée par Finetuner a subi de légères modifications et ne peut pas être compatible avec 0.2.0FineTuner pour soutenir le modèle de réglage du modèle avec le support natif, quelques lignes de code, adaptation instantanée !openai text-embedding-ada-002 dans la classification du texte chinois et la récupération de texte. Pour plus de détails, veuillez consulter les modèles M3E Readme. Les modèles de la série M3E sont entièrement compatibles avec les transformateurs de phrases. Vous pouvez utiliser de manière transparente des modèles M3E dans tous les projets qui prennent en charge les transformateurs de phrases en remplaçant le nom du modèle , tels que le chroma, les conseils, le navire sémantique.
Installer
pip install sentence-transformersutiliser
from sentence_transformers import SentenceTransformer
model = SentenceTransformer ( "moka-ai/m3e-base" )
embeddings = model . encode ([ 'Hello World!' , '你好,世界!' ]) uniem fournit une interface Finetune très facile à utiliser, avec quelques lignes de code, une adaptation instantanée!
from datasets import load_dataset
from uniem . finetuner import FineTuner
dataset = load_dataset ( 'shibing624/nli_zh' , 'STS-B' )
# 指定训练的模型为 m3e-small
finetuner = FineTuner . from_pretrained ( 'moka-ai/m3e-small' , dataset = dataset )
finetuner . run ( epochs = 3 )Pour plus de détails sur les modèles de réglage fin, veuillez vous référer au tutoriel de finition UNIEM ou
Si vous souhaitez s'exécuter localement, vous devez exécuter la commande suivante pour préparer l'environnement
conda create -n uniem python=3.10
pip install uniemLe modèle d'intégration chinois n'a pas de norme d'évaluation unifiée, nous nous référons donc au MTEB et avons construit la norme d'évaluation chinoise MTEB-ZH. À l'heure actuelle, 6 modèles ont été évalués horizontalement sur divers ensembles de données. Pour des méthodes et codes d'évaluation détaillés, veuillez vous référer à MTEB-ZH.
| text2vec | m3e-petit | base M3E | M3E-Large-0619 | Openai | Dmetasoul | uer | erlangshen | |
|---|---|---|---|---|---|---|---|---|
| Tnews | 0,43 | 0,4443 | 0,4827 | 0,4866 | 0,4594 | 0,3084 | 0,3539 | 0,4361 |
| Jdiphone | 0,8214 | 0,8293 | 0,8533 | 0,8692 | 0,746 | 0,7972 | 0,8283 | 0,8356 |
| Gubaeastmony | 0,7472 | 0,712 | 0,7621 | 0,7663 | 0,7574 | 0,735 | 0,7534 | 0,7787 |
| Tyqsentiment | 0,6099 | 0,6596 | 0,7188 | 0,7247 | 0,68 | 0,6437 | 0,6662 | 0,6444 |
| Stockcomsentiment | 0.4307 | 0,4291 | 0,4363 | 0,4475 | 0.4819 | 0.4309 | 0,4555 | 0,4482 |
| Iflytek | 0,414 | 0,4263 | 0.4409 | 0,4445 | 0,4486 | 0,3969 | 0,3762 | 0,4241 |
| Moyenne | 0,5755 | 0,5834 | 0,6157 | 0,6231 | 0,5956 | 0,552016667 | 0,57225 | 0,594516667 |
| text2vec | Openai-ADA-002 | m3e-petit | base M3E | M3E-Large-0619 | Dmetasoul | uer | erlangshen | |
|---|---|---|---|---|---|---|---|---|
| map @ 1 | 0,4684 | 0,6133 | 0,5574 | 0,626 | 0,6256 | 0,25203 | 0,08647 | 0,25394 |
| map @ 10 | 0,5877 | 0,7423 | 0,6878 | 0,7656 | 0,7627 | 0,33312 | 0.13008 | 0,34714 |
| mrr @ 1 | 0,5345 | 0,6931 | 0,6324 | 0,7047 | 0,7063 | 0,29258 | 0.10067 | 0.29447 |
| mrr @ 10 | 0,6217 | 0,7668 | 0,712 | 0,7841 | 0,7827 | 0,36287 | 0.14516 | 0,3751 |
| ndcg @ 1 | 0,5207 | 0,6764 | 0,6159 | 0,6881 | 0,6884 | 0,28358 | 0,09748 | 0,28578 |
| ndcg @ 10 | 0,6346 | 0,7786 | 0,7262 | 0,8004 | 0,7974 | 0,37468 | 0,15783 | 0,39329 |
Si vous souhaitez ajouter des ensembles de données d'évaluation ou des modèles à MTEB-ZH, n'hésitez pas à émettre ou à émettre. Je vous soutiendrai dès que possible et j'attends avec impatience votre contribution!
UNIEM est sous licence sous la licence Apache-2.0. Voir le fichier de licence pour plus de détails.
Veuillez citer ce modèle en utilisant le format suivant:
@Software {moka Massive Mixed Embedding, Author = {Wang Yuxin, Sun Qingxuan, He Sicheng}, title = {M3E: MOKA MASSIVE MIXTEEDing Model}, année = {2023}} MOKA