تنزيل Romanian Transformers - تنزيل رمز المصدر Romanian Transformers

Romanian Transformers

كود الذكاء الاصطناعي

1.0.0

تنزيل

المحولات الرومانية

يهدف هذا الريبو كمساحة لمركزية المحولات الرومانية وتوفير تقييم موحد. المساهمات موضع ترحيب.

نحن نستخدم Transformers Lib ، وهي أداة رائعة لـ NLP. ما الذي تسأله بيرت؟ إليك مقالة واضحة ومكثفة حول ماهية بيرت وما يمكن أن يفعله. تحقق أيضًا من هذا الملخص لنماذج المحولات المختلفة.

ما يلي هو قائمة نماذج المحولات الرومانية ، نماذج اللغة المقنعة والشرطية.

لا تتردد في فتح مشكلة وإضافة النموذج/eval هنا!

نماذج اللغة المقنعة (MLMs)

نموذج	يكتب	مقاس	المادة/الاقتباس/المصدر	تم تدريبه مسبقًا / تم ضبطه	تاريخ الافراج عنه
Dumitrescustefan/Bert-base-Romanian-Cazed-V1	بيرت	124m	PDF / cite	تم تدريبه مسبقًا	أبريل 2020
Dumitrescustefan/bert-base-romanian-uncared-V1	بيرت	124m	PDF / cite	تم تدريبه مسبقًا	أبريل 2020
Racai/Distillbert-Base-Romanian	Distilbert	81m	-	تم تدريبه مسبقًا	أبريل 2021
ReaderBench/Robert-Small	بيرت	19M	PDF	تم تدريبه مسبقًا	مايو ، 2021
ReaderBench/Robert-Base	بيرت	114 م	PDF	تم تدريبه مسبقًا	مايو ، 2021
ReaderBench/Robert-Large	بيرت	341 م	PDF	تم تدريبه مسبقًا	مايو ، 2021
Dumitrescustefan/bert-base-romanian-ner	بيرت	124m	مساحة HF	اسم التعرف على الكيان على RONECV2	يناير 2022
Snisioi/Bert-Legal-Romanian-Cazed-V1	بيرت	124m	-	الوثائق القانونية على marcellv2	يناير 2022
ReaderBench/Jurbert-Base	بيرت	111 م	PDF	الوثائق القانونية	أكتوبر ، 2021
ReaderBench/Jurbert-Large	بيرت	337M	PDF	الوثائق القانونية	أكتوبر ، 2021

نماذج اللغة التوليدية (CLMS)

نموذج	يكتب	مقاس	المادة/الاقتباس/المصدر	تم تدريبه مسبقًا / تم ضبطه	تاريخ الافراج عنه
Dumitrescustefan/gpt-neo-romanian-780m	GPT-NEO	780 م	ليس بعد / مساحة HF	تم تدريبه مسبقًا	سبتمبر ، 2022
ReaderBench/Rogpt2-base	GPT2	124m	PDF	تم تدريبه مسبقًا	يوليو ، 2021
ReaderBench/Rogpt2-Medium	GPT2	354m	PDF	تم تدريبه مسبقًا	يوليو ، 2021
ReaderBench/Rogpt2-large	GPT2	774m	PDF	تم تدريبه مسبقًا	يوليو ، 2021

جديد: تحقق من مساحة HF هذه للعب مع النماذج التوليدية الرومانية: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation

تقييم النموذج

يتم تقييم النماذج باستخدام نص كولاب العام المتاح هنا. جميع النتائج التي تم الإبلاغ عنها هي متوسط الدرجات البالغة 5 أشواط ، باستخدام نفس المعلمات. بالنسبة للنماذج الأكبر ، إذا كان ذلك ممكنًا ، فقد تم محاكاة حجم الدفعات الأكبر عن طريق تراكم التدرجات ، بحيث يكون لجميع النماذج نفس حجم الدفعة الفعالة. يتم تقييم النماذج القياسية فقط (غير المحددة لمهمة معينة) والتي يمكن أن تتناسب مع ذاكرة الوصول العشوائي 16 جيجابايت.

تغطي الاختبارات الحقول التالية ، وبالنسبة للإيجاز ، نختار مقياسًا واحدًا من كل حقل:

التعرف على الكيان المسمى : على RONECV2 نقيس مقياس المباراة الصارم للاختبار. يجب أن يكتشف النموذج بشكل صحيح ما إذا كانت الكلمة هي كيان ووضع علامة عليها مع فئتها الصحيحة.
جزء من علامات الكلام : على Ro-Pos-tagger نقيس درجة UPOS F1. يجب أن يكشف هذا الاختبار عن مدى فهم النموذج ببنية اللغة.
التشابه النصي الدلالي : في RO-STS نقيس معامل ارتباط بيرسون. بالنظر إلى جملتين ، يجب أن يتنبأ النموذج بما إذا كانت مستلزمتين أو متناقضتين أو في مواضيع مختلفة (محايدة). يجب أن يسلط هذا الاختبار الضوء على مدى جودة النموذج الذي يمكن أن يضمن معنى الجملة.
اكتشاف العاطفة : على اكتشاف العاطفة redv2 في التغريدات الرومانية ، نقيس خسارة الاختبار في إعداد التصنيف ( أقل أفضل ). يجب أن يوضح هذا الاختبار مدى جودة النموذج الذي يمكن أن "يفهم" المشاعر من النصوص القصيرة.
الحيرة : في تقسيم اختبار Wiki-Rro ، نقيس حيرة نماذج CLM فقط مع خطوة 512 وحجم دفعة 4.

تقييم نموذج MLM

نموذج	يكتب	مقاس	ner/em_strict	Rosts/Pearson	Ro-Pos-Tagger/Upos F1	redv2/hamming_loss
Dumitrescustefan/Bert-base-Romanian-Cazed-V1	بيرت	124m	0.8815	0.7966	0.982	0.1039
Dumitrescustefan/bert-base-romanian-uncared-V1	بيرت	124m	0.8572	0.8149	0.9826	0.1038
Racai/Distillbert-Base-Romanian	Distilbert	81m	0.8573	0.7285	0.9637	0.1119
ReaderBench/Robert-Small	بيرت	19M	0.8512	0.7827	0.9794	0.1085
ReaderBench/Robert-Base	بيرت	114 م	0.8768	0.8102	0.9819	0.1041

تقييم نموذج CLM

نموذج	يكتب	مقاس	ner/em_strict	Rosts/Pearson	Ro-Pos-Tagger/Upos F1	redv2/hamming_loss	الحيرة
ReaderBench/Rogpt2-base	GPT2	124m	0.6865	0.7963	0.9009	0.1068	52.34
ReaderBench/Rogpt2-Medium	GPT2	354m	0.7123	0.7979	0.9098	0.114	31.26

ما يمكنك فعله مع هذه النماذج

باستخدام محولات HuggingFace LIB ، قم بتثبيت نموذج واستبدل اسم النموذج حسب الضرورة. ثم استخدم رأس نموذج مناسب اعتمادًا على مهمتك. فيما يلي بعض الأمثلة:

الحصول على التضمينات الرمز المميز

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

بالنسبة لنماذج Dumitrescustefan/* ، تذكر تصحيح العلامات التجارية ș/ț قبل إطعامها للنموذج (تم تدريبه فقط مع العلماء الصحيح ، على غرار الفاصلة ، وسوف ترى cedilla ş ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ ţ.

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

اكتب النص بنماذج توليدية

أعط موجهًا لنموذج توليدي واتركه يكتب:

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

PS يمكنك اختبار جميع النماذج التوليدية هنا: https://huggingface.co/spaces/dumitrescustefan/Romanian-Text-generation

ملاحظة نهائية

على الرغم من أن هذا الريبو بدأ في البداية باعتباره تعمقًا لنموذج محول واحد في عام 2020 ، مع الأمل الصريح في إضافة المزيد من النماذج بسرعة ، اتضح أن تدريب نموذج جيد ليس بهذه السهولة ، ويستغرق الكثير من الجهد لتنظيم البيانات ثم الوصول إلى قوة حسابية كافية. لذلك ، أشعر أنه لم يعد من المفيد أن ندرج مجرد طرازين ، وسيحقق تأثير أكبر على سرد جميع النماذج التي يمكن أن أجدها رومانية فقط ، ولديها الحد الأدنى من الأداء/الوثائق. ها أنت ذا :)
احتوى هذا الريبو على بعض التعليمات البرمجية لتنزيل وتنظيف مجموعة رومانية. لقد قمت بإزالة هذا الجزء حيث يتم تقديم أوسكار الآن على Huggingface (إصدار جديد) ، ولم تعد واجهة برمجة تطبيقات OPUS تعمل كما ينبغي (بعض التصفية اليدوي مطلوب الآن ، ناهيك عن إضافة موارد جديدة باستمرار) - وبالتالي الحفاظ على هذا الرمز غير ممكن حقًا.
يرجى المساهمة في هذا الريبو مع النماذج الرومانية الجديدة التي تجدها ، أو مع الاستشهادات أو التحديثات إلى النماذج الحالية.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-10
الحجم 6.16KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
المحولات: الحرب من أجل سايبرترون

2022-08-19
المحولات: دي

2022-08-18
المحولات صعود الشرارة المظلمة

2022-08-17

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل