Téléchargement uniem - Téléchargement du code source uniem

uniem

Autre code source

v0.3.3

Télécharger

UNIEM

L'objectif du projet UNIEM est de créer le meilleur modèle d'intégration de texte universel en chinois.

Ce projet comprend principalement une formation, un réglage fin et un code d'évaluation. Les modèles et les ensembles de données seront ouverts sur la communauté HuggingFace.

? Mises à jour importantes

➿ 2023.07.11 , libéré UNIEM 0.3.0. En plus de M3E, FineTuner prend également en charge le réglage fin de sentence_transformers , text2vec et d'autres modèles. Il soutient également la formation SGPT des modèles de la série GPT et le réglage du préfixe. L'API initialisée par Finetuner a subi de légères modifications et ne peut pas être compatible avec 0.2.0
➿ 2023.06.17 , publié UNIEM 0.2.1, implémentant FineTuner pour soutenir le modèle de réglage du modèle avec le support natif, quelques lignes de code, adaptation instantanée !
2023.06.17 , la version officielle de MTEB-ZH est publiée, soutenant 6 grandes catégories de modèles d'intégration, soutenant 4 grandes catégories de tâches et un total de 9 ensembles de données évaluation automatisée
? 2023.06.08 , les modèles M3E sont publiés, qui sont meilleurs que openai text-embedding-ada-002 dans la classification du texte chinois et la récupération de texte. Pour plus de détails, veuillez consulter les modèles M3E Readme.

? Utilisez M3E

Les modèles de la série M3E sont entièrement compatibles avec les transformateurs de phrases. Vous pouvez utiliser de manière transparente des modèles M3E dans tous les projets qui prennent en charge les transformateurs de phrases en remplaçant le nom du modèle , tels que le chroma, les conseils, le navire sémantique.

Installer

pip install sentence-transformers

utiliser

 from sentence_transformers import SentenceTransformer

model = SentenceTransformer ( "moka-ai/m3e-base" )
embeddings = model . encode ([ 'Hello World!' , '你好,世界!' ])

? Affiner le modèle

uniem fournit une interface Finetune très facile à utiliser, avec quelques lignes de code, une adaptation instantanée!

 from datasets import load_dataset

from uniem . finetuner import FineTuner

dataset = load_dataset ( 'shibing624/nli_zh' , 'STS-B' )
# 指定训练的模型为 m3e-small
finetuner = FineTuner . from_pretrained ( 'moka-ai/m3e-small' , dataset = dataset )
finetuner . run ( epochs = 3 )

Pour plus de détails sur les modèles de réglage fin, veuillez vous référer au tutoriel de finition UNIEM ou

Si vous souhaitez s'exécuter localement, vous devez exécuter la commande suivante pour préparer l'environnement

conda create -n uniem python=3.10
pip install uniem

? MTEB-ZH

Le modèle d'intégration chinois n'a pas de norme d'évaluation unifiée, nous nous référons donc au MTEB et avons construit la norme d'évaluation chinoise MTEB-ZH. À l'heure actuelle, 6 modèles ont été évalués horizontalement sur divers ensembles de données. Pour des méthodes et codes d'évaluation détaillés, veuillez vous référer à MTEB-ZH.

Classification de texte

Sélection de l'ensemble de données, sélectionnez 6 ensembles de données de classification de texte Open Source sur HuggingFace, y compris les nouvelles, les avis de commerce électronique, les avis de stock, les textes longs, etc.
Méthode d'évaluation: utilisez le MTEB pour évaluer et signaler la précision.

	text2vec	m3e-petit	base M3E	M3E-Large-0619	Openai	Dmetasoul	uer	erlangshen
Tnews	0,43	0,4443	0,4827	0,4866	0,4594	0,3084	0,3539	0,4361
Jdiphone	0,8214	0,8293	0,8533	0,8692	0,746	0,7972	0,8283	0,8356
Gubaeastmony	0,7472	0,712	0,7621	0,7663	0,7574	0,735	0,7534	0,7787
Tyqsentiment	0,6099	0,6596	0,7188	0,7247	0,68	0,6437	0,6662	0,6444
Stockcomsentiment	0.4307	0,4291	0,4363	0,4475	0.4819	0.4309	0,4555	0,4482
Iflytek	0,414	0,4263	0.4409	0,4445	0,4486	0,3969	0,3762	0,4241
Moyenne	0,5755	0,5834	0,6157	0,6231	0,5956	0,552016667	0,57225	0,594516667

Sortie de recherche

Sélection de l'ensemble de données, à l'aide de l'ensemble de données T2Ranking. Étant donné que l'ensemble de données T2Ranking est trop important, le coût du temps et le coût de l'API d'OpenAI sont un peu élevés, nous n'avons donc sélectionné que les 10 000 premiers articles en T2Ranking.
Méthode d'évaluation, utilisez le MTEB pour évaluer, rapporter la carte @ 1, map @ 10, mrr @ 1, mrr @ 10, ndcg @ 1, ndcg @ 10

	text2vec	Openai-ADA-002	m3e-petit	base M3E	M3E-Large-0619	Dmetasoul	uer	erlangshen
map @ 1	0,4684	0,6133	0,5574	0,626	0,6256	0,25203	0,08647	0,25394
map @ 10	0,5877	0,7423	0,6878	0,7656	0,7627	0,33312	0.13008	0,34714
mrr @ 1	0,5345	0,6931	0,6324	0,7047	0,7063	0,29258	0.10067	0.29447
mrr @ 10	0,6217	0,7668	0,712	0,7841	0,7827	0,36287	0.14516	0,3751
ndcg @ 1	0,5207	0,6764	0,6159	0,6881	0,6884	0,28358	0,09748	0,28578
ndcg @ 10	0,6346	0,7786	0,7262	0,8004	0,7974	0,37468	0,15783	0,39329

? Contributif

Si vous souhaitez ajouter des ensembles de données d'évaluation ou des modèles à MTEB-ZH, n'hésitez pas à émettre ou à émettre. Je vous soutiendrai dès que possible et j'attends avec impatience votre contribution!

Licence

UNIEM est sous licence sous la licence Apache-2.0. Voir le fichier de licence pour plus de détails.

? Citation

Veuillez citer ce modèle en utilisant le format suivant:

@Software {moka Massive Mixed Embedding, Author = {Wang Yuxin, Sun Qingxuan, He Sicheng}, title = {M3E: MOKA MASSIVE MIXTEEDing Model}, année = {2023}} MOKA

Développer

Informations supplémentaires

Version v0.3.3
Type Autre code source
Date de mise à jour 2025-04-19
taille 12.82MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout