setfit تنزيل - تنزيل رمز المصدر setfit

setfit

شفرة المصدر الأخرى

v1.1.0 - Sentence Transformers as the finetuning backend; tackle deprecations of other dependencies

تنزيل

؟ نماذج | مجموعات البيانات | الوثائق | بلوق | ؟ ورق

SetFit - التعلم الفعال لبعض اللقطة مع محولات الجملة

SetFit هو إطار فعال وخالي من المطالبات لضرب قليل من محولات الجملة. إنه يحقق دقة عالية من خلال القليل من البيانات المسمى - على سبيل المثال ، مع 8 أمثلة فقط من الأمثلة لكل فصل على مجموعة بيانات المعنويات ، فإن SetFit تنافس مع صياغة روبرتا كبيرة على مجموعة التدريب الكاملة من أمثلة 3K؟!

بالمقارنة مع أساليب التعلم القليلة الأخرى ، تحتوي SetFit على العديد من الميزات الفريدة:

؟ لا توجد مطالبات أو محفوظات شفهية: تتطلب التقنيات الحالية للضغط القليلة التي تتطلب المطالبات المصنوعة يدويًا أو اللفظية لتحويل الأمثلة إلى تنسيق مناسب لنموذج اللغة الأساسي. يتصرف SetFit مع المطالبات تمامًا عن طريق توليد تضمينات غنية مباشرة من أمثلة نصية.
؟ Fast to Train: لا يتطلب SetFit نماذج واسعة النطاق مثل T0 أو GPT-3 لتحقيق دقة عالية. نتيجة لذلك ، عادة ما يكون ترتيبًا من حيث الحجم (أو أكثر) أسرع لتدريب وتشغيل الاستدلال معه.
؟ الدعم متعدد اللغات : يمكن استخدام SetFit مع أي محول جملة على المحور ، مما يعني أنه يمكنك تصنيف النص بلغات متعددة من خلال صياغة نقطة تفتيش متعددة اللغات.

تحقق من وثائق setFit لمزيد من المعلومات!

تثبيت

قم بتنزيل وتثبيت setfit عن طريق التشغيل:

pip install setfit

إذا كنت تريد إصدار حافة النزيف بدلاً من ذلك ، فقم بالتثبيت من المصدر عن طريق التشغيل:

pip install git+https://github.com/huggingface/setfit.git

الاستخدام

يعد QuickStart مكانًا جيدًا للتعرف على التدريب وتوفير وتحميل وأداء الاستدلال مع نماذج SetFit.

لمزيد من الأمثلة ، تحقق من دليل notebooks أو البرامج التعليمية أو أدلة الإرشاد.

تدريب نموذج setFit

تم دمج setfit مع مركز Hugging Face ويوفر فئتين رئيسيتين:

SetFitModel : غلاف يجمع بين جسم مسبق من sentence_transformers ورأس تصنيف من إما scikit-learn أو SetFitHead (رأس قابل للتمييز مبني على PyTorch مع واجهات برمجة التطبيقات المماثلة إلى sentence_transformers ).
Trainer : فصل مساعد يلف عملية ضبط SetFit.

فيما يلي مثال تدريبي بسيط من طرف إلى طرف باستخدام رئيس التصنيف الافتراضي من scikit-learn :

 from datasets import load_dataset
from setfit import SetFitModel , Trainer , TrainingArguments , sample_dataset


# Load a dataset from the Hugging Face Hub
dataset = load_dataset ( "sst2" )

# Simulate the few-shot regime by sampling 8 examples per class
train_dataset = sample_dataset ( dataset [ "train" ], label_column = "label" , num_samples = 8 )
eval_dataset = dataset [ "validation" ]. select ( range ( 100 ))
test_dataset = dataset [ "validation" ]. select ( range ( 100 , len ( dataset [ "validation" ])))

# Load a SetFit model from Hub
model = SetFitModel . from_pretrained (
    "sentence-transformers/paraphrase-mpnet-base-v2" ,
    labels = [ "negative" , "positive" ],
)

args = TrainingArguments (
    batch_size = 16 ,
    num_epochs = 4 ,
    eval_strategy = "epoch" ,
    save_strategy = "epoch" ,
    load_best_model_at_end = True ,
)

trainer = Trainer (
    model = model ,
    args = args ,
    train_dataset = train_dataset ,
    eval_dataset = eval_dataset ,
    metric = "accuracy" ,
    column_mapping = { "sentence" : "text" , "label" : "label" }  # Map dataset columns to text/label expected by trainer
)

# Train and evaluate
trainer . train ()
metrics = trainer . evaluate ( test_dataset )
print ( metrics )
# {'accuracy': 0.8691709844559585}

# Push model to the Hub
trainer . push_to_hub ( "tomaarsen/setfit-paraphrase-mpnet-base-v2-sst2" )

# Download from Hub
model = SetFitModel . from_pretrained ( "tomaarsen/setfit-paraphrase-mpnet-base-v2-sst2" )
# Run inference
preds = model . predict ([ "i loved the spiderman movie!" , "pineapple on pizza is the worst ?" ])
print ( preds )
# ["positive", "negative"]

إعادة إنتاج النتائج من الورقة

نحن نقدم البرامج النصية لإعادة إنتاج نتائج setFit ومختلف خطوط الأساس المقدمة في الجدول 2 من ورقنا. تحقق من تعليمات الإعداد والتدريب في scripts/ الدليل.

تثبيت المطور

لتشغيل الرمز في هذا المشروع ، قم أولاً بإنشاء بيئة افتراضية Python باستخدام EG Conda:

conda create -n setfit python=3.9 && conda activate setfit

ثم تثبيت المتطلبات الأساسية مع:

pip install -e ' .[dev] '

سيؤدي ذلك إلى تثبيت الحزم الإلزامية لـ SetFit مثل datasets بالإضافة إلى حزم التطوير مثل black و isort التي نستخدمها لضمان تنسيق رمز ثابت.

تنسيق الكود الخاص بك

نستخدم black و isort لضمان تنسيق رمز ثابت. بعد اتباع خطوات التثبيت ، يمكنك التحقق من الكود محليًا عن طريق التشغيل:

 make style && make quality

هيكل المشروع

 ├── LICENSE
├── Makefile        <- Makefile with commands like `make style` or `make tests`
├── README.md       <- The top-level README for developers using this project.
├── docs            <- Documentation source
├── notebooks       <- Jupyter notebooks.
├── final_results   <- Model predictions from the paper
├── scripts         <- Scripts for training and inference
├── setup.cfg       <- Configuration file to define package metadata
├── setup.py        <- Make this project pip installable with `pip install -e`
├── src             <- Source code for SetFit
└── tests           <- Unit tests

العمل ذي الصلة

https://github.com/pmbaumgartner/setfit - إصدار API Scikit -learn من setFit.
Jxpress/setfit-pytorch-lightning-تطبيق Lightning Pytorch لـ setFit.
Davidberenstein1957/spacy -setfit - نهج سهل وبديهية لاستخدام setFit مع Spacy.

اقتباس

 @misc { https://doi.org/10.48550/arxiv.2209.11055 ,
  doi = { 10.48550/ARXIV.2209.11055 } ,
  url = { https://arxiv.org/abs/2209.11055 } ,
  author = { Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren } ,
  keywords = { Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences } ,
  title = { Efficient Few-Shot Learning Without Prompts } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
  copyright = { Creative Commons Attribution 4.0 International }
}

يوسع

معلومات إضافية

الإصدار v1.1.0 - Sentence Transformers as the finetuning backend; tackle deprecations of other dependencies
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-18
الحجم 24.14MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل