Цель проекта Uniem - создать лучшую модель универсального текста в китайском языке.
Этот проект в основном включает в себя модельную подготовку, тонкую настройку и код оценки. Модели и наборы данных будут открыты для сообщества HuggingFace.
FineTuner также поддерживает точную настройку sentence_transformers , text2vec и других моделей. Он также поддерживает обучение SGPT моделей серии GPT и настройки префикса. API, инициализированный Finetuner, претерпел небольшие изменения и не может быть совместимы с 0.2.0FineTuner для поддержки модели точной настройки с нативной поддержкой, несколькими строками кода, мгновенной адаптацией !openai text-embedding-ada-002 в китайской классификации текста и поиска текста. Для получения подробной информации, пожалуйста, обратитесь к M3E Models Readme. Модели серии M3E полностью совместимы с трансформаторами предложений. Вы можете беспрепятственно использовать модели M3E во всех проектах, которые поддерживают трансформаторы предложений, заменив название модели , такие как Chroma, Guidance, Semantic-Kernel.
Установить
pip install sentence-transformersиспользовать
from sentence_transformers import SentenceTransformer
model = SentenceTransformer ( "moka-ai/m3e-base" )
embeddings = model . encode ([ 'Hello World!' , '你好,世界!' ]) uniem предоставляет очень простой в использовании интерфейс Finetune, с несколькими строками кода, мгновенной адаптацией!
from datasets import load_dataset
from uniem . finetuner import FineTuner
dataset = load_dataset ( 'shibing624/nli_zh' , 'STS-B' )
# 指定训练的模型为 m3e-small
finetuner = FineTuner . from_pretrained ( 'moka-ai/m3e-small' , dataset = dataset )
finetuner . run ( epochs = 3 )Для получения подробной информации о моделях с тонкой настройкой, пожалуйста, обратитесь к учебному пособию в Uniem FineNuling или
Если вы хотите запустить локально, вам нужно запустить следующую команду, чтобы подготовить среду
conda create -n uniem python=3.10
pip install uniemВ китайской модели встраивания не хватает единого стандарта оценки, поэтому мы ссылаемся на MTEB и построили китайский стандарт оценки MTEB-ZH. В настоящее время 6 моделей были горизонтально оценены на различных наборах данных. Для получения подробных методов оценки и кодов, пожалуйста, обратитесь к MTEB-ZH.
| Text2Vec | m3e-small | M3E-баз | M3E-Large-0619 | Openai | Dmetasoul | выр | Эрлангшен | |
|---|---|---|---|---|---|---|---|---|
| Tnews | 0,43 | 0,4443 | 0,4827 | 0,4866 | 0,4594 | 0,3084 | 0,3539 | 0,4361 |
| Jdiphone | 0,8214 | 0,8293 | 0,8533 | 0,8692 | 0,746 | 0,7972 | 0,8283 | 0,8356 |
| ГУБАСТОНА | 0,7472 | 0,712 | 0,7621 | 0,7663 | 0,7574 | 0,735 | 0,7534 | 0,7787 |
| Tyqsentiment | 0,6099 | 0,6596 | 0,7188 | 0,7247 | 0,68 | 0,6437 | 0,6662 | 0,6444 |
| StockComsentiment | 0,4307 | 0,4291 | 0,4363 | 0,4475 | 0,4819 | 0,4309 | 0,4555 | 0,4482 |
| Iflytek | 0,414 | 0,4263 | 0,4409 | 0,4445 | 0,4486 | 0,3969 | 0,3762 | 0,4241 |
| Средний | 0,5755 | 0,5834 | 0,6157 | 0,6231 | 0,5956 | 0,552016667 | 0,57225 | 0,594516667 |
| Text2Vec | Openai-Ada-002 | m3e-small | M3E-баз | M3E-Large-0619 | Dmetasoul | выр | Эрлангшен | |
|---|---|---|---|---|---|---|---|---|
| карта@1 | 0,4684 | 0,6133 | 0,5574 | 0,626 | 0,6256 | 0,25203 | 0,08647 | 0,25394 |
| карта@10 | 0,5877 | 0,7423 | 0,6878 | 0,7656 | 0,7627 | 0,33312 | 0,13008 | 0,34714 |
| MRR@1 | 0,5345 | 0,6931 | 0,6324 | 0,7047 | 0,7063 | 0,29258 | 0,10067 | 0,29447 |
| MRR@10 | 0,6217 | 0,7668 | 0,712 | 0,7841 | 0,7827 | 0,36287 | 0,14516 | 0,3751 |
| ndcg@1 | 0,5207 | 0,6764 | 0,6159 | 0,6881 | 0,6884 | 0,28358 | 0,09748 | 0,28578 |
| ndcg@10 | 0,6346 | 0,7786 | 0,7262 | 0,8004 | 0,7974 | 0,37468 | 0,15783 | 0,39329 |
Если вы хотите добавить наборы данных или модели оценки в MTEB-ZH, пожалуйста, не стесняйтесь выпускать или PR. Я буду поддерживать вас как можно скорее и с нетерпением жду вашего вклада!
Uniem лицензирован по лицензии Apache-2.0. Смотрите файл лицензии для получения более подробной информации.
Пожалуйста, цитируйте эту модель, используя следующий формат:
@Software {Moka Massive Mixed Encedding, Author = {Wang Yuxin, Sun Qingxuan, He Sicheng}, title = {m3e: Moka Massive Misted Model}, Год = {2023}}}}}}}}}}}}}}}