Descargar uniem - Descargar código fuente uniem

uniem

Otro código fuente

v0.3.3

Descargar

Unié

El objetivo del proyecto Uniem es crear el mejor modelo de texto universal en chino.

Este proyecto incluye principalmente capacitación de modelos, ajuste fino y código de evaluación. Los modelos y conjuntos de datos se abierven en la comunidad Huggingface.

? Actualizaciones importantes

➿ 2023.07.11 , lanzado Uniem 0.3.0. Además de M3E, FineTuner también admite el ajuste de fino de sentence_transformers , text2vec y otros modelos. También admite el entrenamiento SGPT de los modelos de la serie GPT y el ajuste de prefijo. La API inicializada por Finetuner ha sufrido cambios leves y no puede ser compatible con 0.2.0
➿ 2023.06.17 , lanzado UNIEM 0.2.1, implementando FineTuner para admitir el ajuste del modelo con soporte nativo, algunas líneas de código, adaptación instantánea !
2023.06.17 , se lanza la versión oficial de MteB-Zh, que admite 6 categorías principales de modelos de incrustación, que admiten 4 categorías principales de tareas y un total de 9 conjuntos de datos Evaluación automatizada
? 2023.06.08 , se lanzan modelos M3E, que son mejores que openai text-embedding-ada-002 en la clasificación de texto chino y la recuperación de texto. Para obtener más detalles, consulte ReadMe de modelos M3E.

? Usar M3E

Los modelos de la serie M3E son totalmente compatibles con los transformadores de oraciones. Puede usar sin problemas modelos M3E en todos los proyectos que admiten transformadores de oraciones reemplazando el nombre del modelo , como el croma, la guía, el kernel semántico.

Instalar

pip install sentence-transformers

usar

 from sentence_transformers import SentenceTransformer

model = SentenceTransformer ( "moka-ai/m3e-base" )
embeddings = model . encode ([ 'Hello World!' , '你好,世界!' ])

? Ajuste del modelo

uniem proporciona una interfaz Finetune muy fácil de usar, con algunas líneas de código, adaptación instantánea!

 from datasets import load_dataset

from uniem . finetuner import FineTuner

dataset = load_dataset ( 'shibing624/nli_zh' , 'STS-B' )
# 指定训练的模型为 m3e-small
finetuner = FineTuner . from_pretrained ( 'moka-ai/m3e-small' , dataset = dataset )
finetuner . run ( epochs = 3 )

Para obtener detalles sobre los modelos de ajuste, consulte Tutorial de ajuste fino Uniem o

Si desea ejecutar localmente, debe ejecutar el siguiente comando para preparar el entorno

conda create -n uniem python=3.10
pip install uniem

? Mteb-zh

El modelo de incrustación chino carece de un estándar de evaluación unificado, por lo que nos referimos a MTEB y construimos el estándar de evaluación chino MTEB-ZH. En la actualidad, 6 modelos han sido evaluados horizontalmente en varios conjuntos de datos. Para obtener métodos y códigos de evaluación detallados, consulte MTEB-ZH.

Clasificación de texto

Selección de conjuntos de datos, seleccione 6 conjuntos de datos de clasificación de texto Open Surde en Huggingface, incluidas noticias, revisiones de comercio electrónico, revisiones de acciones, textos largos, etc.
Método de evaluación: use MTEB para evaluar e informar la precisión.

	text2vec	m3e-small	m3e-base	M3E-LARGE-0619	opadai	Dmetasoul	us	Erlangshen
TNEWS	0.43	0.4443	0.4827	0.4866	0.4594	0.3084	0.3539	0.4361
Jdiphone	0.8214	0.8293	0.8533	0.8692	0.746	0.7972	0.8283	0.8356
Gubaeastmony	0.7472	0.712	0.7621	0.7663	0.7574	0.735	0.7534	0.7787
Tyqsentiment	0.6099	0.6596	0.7188	0.7247	0.68	0.6437	0.6662	0.6444
Stockcomsentiment	0.4307	0.4291	0.4363	0.4475	0.4819	0.4309	0.4555	0.4482
Iflytek	0.414	0.4263	0.4409	0.4445	0.4486	0.3969	0.3762	0.4241
Promedio	0.5755	0.5834	0.6157	0.6231	0.5956	0.552016667	0.57225	0.594516667

Sort de búsqueda

Selección del conjunto de datos, utilizando el conjunto de datos T2Ranking. Dado que el conjunto de datos T2Ranking es demasiado grande, el costo de tiempo y el costo API de OpenAI son un poco altos, por lo que solo seleccionamos los primeros 10,000 artículos en T2Ranking.
Método de evaluación, use MTEB para evaluar, Informe Map@1, Map@10, MRR@1, MRR@10, NDCG@1, NDCG@10

	text2vec	OPERAI-ADA-002	m3e-small	m3e-base	M3E-LARGE-0619	Dmetasoul	us	Erlangshen
Mapa@1	0.4684	0.6133	0.5574	0.626	0.6256	0.25203	0.08647	0.25394
Mapa@10	0.5877	0.7423	0.6878	0.7656	0.7627	0.33312	0.13008	0.34714
mrr@1	0.5345	0.6931	0.6324	0.7047	0.7063	0.29258	0.10067	0.29447
mrr@10	0.6217	0.7668	0.712	0.7841	0.7827	0.36287	0.14516	0.3751
ndcg@1	0.5207	0.6764	0.6159	0.6881	0.6884	0.28358	0.09748	0.28578
ndcg@10	0.6346	0.7786	0.7262	0.8004	0.7974	0.37468	0.15783	0.39329

? Que contribuye

Si desea agregar conjuntos de datos o modelos de evaluación a MTEB-ZH, no dude en emitir o PR. ¡Te apoyaré lo antes posible y espero tu contribución!

Licencia

UNIEM tiene licencia bajo la licencia Apache-2.0. Consulte el archivo de licencia para obtener más detalles.

? Citación

Cite este modelo usando el siguiente formato:

@Software {Moka Massive Mixed Incrusting, Author = {Wang Yuxin, Sun Qingxuan, He Sicheng}, Title = {M3e: Modelo de incrustación mixta Moka}, año = {2023}}

Expandir

Información adicional

Versión v0.3.3
Tipo Otro código fuente
Fecha de actualización 2025-04-19
tamaño 12.82MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo