El objetivo del proyecto Uniem es crear el mejor modelo de texto universal en chino.
Este proyecto incluye principalmente capacitación de modelos, ajuste fino y código de evaluación. Los modelos y conjuntos de datos se abierven en la comunidad Huggingface.
FineTuner también admite el ajuste de fino de sentence_transformers , text2vec y otros modelos. También admite el entrenamiento SGPT de los modelos de la serie GPT y el ajuste de prefijo. La API inicializada por Finetuner ha sufrido cambios leves y no puede ser compatible con 0.2.0FineTuner para admitir el ajuste del modelo con soporte nativo, algunas líneas de código, adaptación instantánea !openai text-embedding-ada-002 en la clasificación de texto chino y la recuperación de texto. Para obtener más detalles, consulte ReadMe de modelos M3E. Los modelos de la serie M3E son totalmente compatibles con los transformadores de oraciones. Puede usar sin problemas modelos M3E en todos los proyectos que admiten transformadores de oraciones reemplazando el nombre del modelo , como el croma, la guía, el kernel semántico.
Instalar
pip install sentence-transformersusar
from sentence_transformers import SentenceTransformer
model = SentenceTransformer ( "moka-ai/m3e-base" )
embeddings = model . encode ([ 'Hello World!' , '你好,世界!' ]) uniem proporciona una interfaz Finetune muy fácil de usar, con algunas líneas de código, adaptación instantánea!
from datasets import load_dataset
from uniem . finetuner import FineTuner
dataset = load_dataset ( 'shibing624/nli_zh' , 'STS-B' )
# 指定训练的模型为 m3e-small
finetuner = FineTuner . from_pretrained ( 'moka-ai/m3e-small' , dataset = dataset )
finetuner . run ( epochs = 3 )Para obtener detalles sobre los modelos de ajuste, consulte Tutorial de ajuste fino Uniem o
Si desea ejecutar localmente, debe ejecutar el siguiente comando para preparar el entorno
conda create -n uniem python=3.10
pip install uniemEl modelo de incrustación chino carece de un estándar de evaluación unificado, por lo que nos referimos a MTEB y construimos el estándar de evaluación chino MTEB-ZH. En la actualidad, 6 modelos han sido evaluados horizontalmente en varios conjuntos de datos. Para obtener métodos y códigos de evaluación detallados, consulte MTEB-ZH.
| text2vec | m3e-small | m3e-base | M3E-LARGE-0619 | opadai | Dmetasoul | us | Erlangshen | |
|---|---|---|---|---|---|---|---|---|
| TNEWS | 0.43 | 0.4443 | 0.4827 | 0.4866 | 0.4594 | 0.3084 | 0.3539 | 0.4361 |
| Jdiphone | 0.8214 | 0.8293 | 0.8533 | 0.8692 | 0.746 | 0.7972 | 0.8283 | 0.8356 |
| Gubaeastmony | 0.7472 | 0.712 | 0.7621 | 0.7663 | 0.7574 | 0.735 | 0.7534 | 0.7787 |
| Tyqsentiment | 0.6099 | 0.6596 | 0.7188 | 0.7247 | 0.68 | 0.6437 | 0.6662 | 0.6444 |
| Stockcomsentiment | 0.4307 | 0.4291 | 0.4363 | 0.4475 | 0.4819 | 0.4309 | 0.4555 | 0.4482 |
| Iflytek | 0.414 | 0.4263 | 0.4409 | 0.4445 | 0.4486 | 0.3969 | 0.3762 | 0.4241 |
| Promedio | 0.5755 | 0.5834 | 0.6157 | 0.6231 | 0.5956 | 0.552016667 | 0.57225 | 0.594516667 |
| text2vec | OPERAI-ADA-002 | m3e-small | m3e-base | M3E-LARGE-0619 | Dmetasoul | us | Erlangshen | |
|---|---|---|---|---|---|---|---|---|
| Mapa@1 | 0.4684 | 0.6133 | 0.5574 | 0.626 | 0.6256 | 0.25203 | 0.08647 | 0.25394 |
| Mapa@10 | 0.5877 | 0.7423 | 0.6878 | 0.7656 | 0.7627 | 0.33312 | 0.13008 | 0.34714 |
| mrr@1 | 0.5345 | 0.6931 | 0.6324 | 0.7047 | 0.7063 | 0.29258 | 0.10067 | 0.29447 |
| mrr@10 | 0.6217 | 0.7668 | 0.712 | 0.7841 | 0.7827 | 0.36287 | 0.14516 | 0.3751 |
| ndcg@1 | 0.5207 | 0.6764 | 0.6159 | 0.6881 | 0.6884 | 0.28358 | 0.09748 | 0.28578 |
| ndcg@10 | 0.6346 | 0.7786 | 0.7262 | 0.8004 | 0.7974 | 0.37468 | 0.15783 | 0.39329 |
Si desea agregar conjuntos de datos o modelos de evaluación a MTEB-ZH, no dude en emitir o PR. ¡Te apoyaré lo antes posible y espero tu contribución!
UNIEM tiene licencia bajo la licencia Apache-2.0. Consulte el archivo de licencia para obtener más detalles.
Cite este modelo usando el siguiente formato:
@Software {Moka Massive Mixed Incrusting, Author = {Wang Yuxin, Sun Qingxuan, He Sicheng}, Title = {M3e: Modelo de incrustación mixta Moka}, año = {2023}}