repo นี้มีความหมายเป็นพื้นที่สำหรับการรวมศูนย์หม้อแปลงโรมาเนียและให้การประเมินที่สม่ำเสมอ ยินดีต้อนรับการมีส่วนร่วม
เรากำลังใช้ Transformers Lib ของ HuggingFace ซึ่งเป็นเครื่องมือที่ยอดเยี่ยมสำหรับ NLP คุณถามเบิร์ตอะไร? นี่คือบทความที่ชัดเจนและย่อเกี่ยวกับสิ่งที่เบิร์ตคืออะไรและสามารถทำอะไรได้บ้าง ตรวจสอบบทสรุปของรุ่นหม้อแปลงที่แตกต่างกันนี้
สิ่งที่ตามมาคือรายการของโมเดลหม้อแปลงโรมาเนียทั้งแบบจำลองและแบบมีเงื่อนไข
อย่าลังเลที่จะเปิดปัญหาและเพิ่มโมเดล/การประเมินของคุณที่นี่!
| แบบอย่าง | พิมพ์ | ขนาด | บทความ/การอ้างอิง/แหล่งที่มา | ได้รับการฝึกอบรมล่วงหน้า / ปรับแต่ง | วันที่วางจำหน่าย |
|---|---|---|---|---|---|
| Dumitrescustefan/bert-base-romanian-cased-v1 | เบิร์ต | 124m | PDF / CITE | ได้รับการฝึกฝนมาก่อน | เม.ย. 2020 |
| Dumitrescustefan/bert-base-romanian-uncased-v1 | เบิร์ต | 124m | PDF / CITE | ได้รับการฝึกฝนมาก่อน | เม.ย. 2020 |
| Racai/Distillbert-Base-Romanian | กลั่นกรอง | 81m | - | ได้รับการฝึกฝนมาก่อน | เม.ย. 2021 |
| ReaderBench/Robert-Small | เบิร์ต | 19m | ได้รับการฝึกฝนมาก่อน | พฤษภาคม 2564 | |
| ReaderBench/Robert-Base | เบิร์ต | 114m | ได้รับการฝึกฝนมาก่อน | พฤษภาคม 2564 | |
| ReaderBench/Robert-Large | เบิร์ต | 341m | ได้รับการฝึกฝนมาก่อน | พฤษภาคม 2564 | |
| dumitrescustefan/bert-base-romanian-ner | เบิร์ต | 124m | พื้นที่ HF | ชื่อการรับรู้เอนทิตีบน ronecv2 | ม.ค. 2022 |
| Snisioi/Bert-Legal-Romanian-Cased-V1 | เบิร์ต | 124m | - | เอกสารทางกฎหมายใน Marcellv2 | ม.ค. 2022 |
| ReaderBench/Jurbert-Base | เบิร์ต | 111m | เอกสารทางกฎหมาย | ต.ค. 2021 | |
| ReaderBench/Jurbert-Large | เบิร์ต | 337m | เอกสารทางกฎหมาย | ต.ค. 2021 |
| แบบอย่าง | พิมพ์ | ขนาด | บทความ/การอ้างอิง/แหล่งที่มา | ได้รับการฝึกอบรมล่วงหน้า / ปรับแต่ง | วันที่วางจำหน่าย |
|---|---|---|---|---|---|
| Dumitrescustefan/GPT-neo-Romanian-780m | Gpt-neo | 780m | ยังไม่มีพื้นที่ / hf | ได้รับการฝึกฝนมาก่อน | ก.ย. 2022 |
| ReaderBench/Rogpt2-base | GPT2 | 124m | ได้รับการฝึกฝนมาก่อน | ก.ค. 2021 | |
| ReaderBench/Rogpt2-Medium | GPT2 | 354m | ได้รับการฝึกฝนมาก่อน | ก.ค. 2021 | |
| ReaderBench/Rogpt2 ขนาดใหญ่ | GPT2 | 774m | ได้รับการฝึกฝนมาก่อน | ก.ค. 2021 |
ใหม่: ตรวจสอบพื้นที่ HF นี้เพื่อเล่นกับโมเดลรุ่นโรมาเนีย: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation
แบบจำลองได้รับการประเมินโดยใช้สคริปต์ colab สาธารณะที่มีอยู่ที่นี่ ผลลัพธ์ทั้งหมดที่รายงานคือคะแนนเฉลี่ย 5 การรันโดยใช้พารามิเตอร์เดียวกัน สำหรับรุ่นที่ใหญ่กว่าหากเป็นไปได้ขนาดแบทช์ขนาดใหญ่จะถูกจำลองโดยการสะสมการไล่ระดับสีเช่นว่าทุกรุ่นควรมีขนาดแบทช์ที่มีประสิทธิภาพเท่ากัน มีการประเมินแบบจำลองมาตรฐานเท่านั้น (ไม่ได้รับการประเมินสำหรับงานเฉพาะ) และสามารถประเมินได้ใน RAM 16GB
การทดสอบครอบคลุมฟิลด์ต่อไปนี้และเพื่อความกะทัดรัดเราเลือกเมตริกเดียวจากแต่ละฟิลด์:
| แบบอย่าง | พิมพ์ | ขนาด | ner/em_strict | Rosts/Pearson | Ro-Pos-Tagger/UPOS F1 | redv2/hamming_loss |
|---|---|---|---|---|---|---|
| Dumitrescustefan/bert-base-romanian-cased-v1 | เบิร์ต | 124m | 0.8815 | 0.7966 | 0.982 | 0.1039 |
| Dumitrescustefan/bert-base-romanian-uncased-v1 | เบิร์ต | 124m | 0.8572 | 0.8149 | 0.9826 | 0.1038 |
| Racai/Distillbert-Base-Romanian | กลั่นกรอง | 81m | 0.8573 | 0.7285 | 0.9637 | 0.1119 |
| ReaderBench/Robert-Small | เบิร์ต | 19m | 0.8512 | 0.7827 | 0.9794 | 0.1085 |
| ReaderBench/Robert-Base | เบิร์ต | 114m | 0.8768 | 0.8102 | 0.9819 | 0.1041 |
| แบบอย่าง | พิมพ์ | ขนาด | ner/em_strict | Rosts/Pearson | Ro-Pos-Tagger/UPOS F1 | redv2/hamming_loss | ความงุนงง |
|---|---|---|---|---|---|---|---|
| ReaderBench/Rogpt2-base | GPT2 | 124m | 0.6865 | 0.7963 | 0.9009 | 0.1068 | 52.34 |
| ReaderBench/Rogpt2-Medium | GPT2 | 354m | 0.7123 | 0.7979 | 0.9098 | 0.114 | 31.26 |
การใช้ LIB Transformers ของ HuggingFace สร้างอินสแตนซ์โมเดลและแทนที่ชื่อรุ่นตามความจำเป็น จากนั้นใช้หัวโมเดลที่เหมาะสมขึ้นอยู่กับงานของคุณ นี่คือตัวอย่างบางส่วน:
from transformers import AutoTokenizer , AutoModel
import torch
# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )
# get encoding
last_hidden_states = outputs [ 0 ] # The last hidden-state is the first element of the output tuple text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")
ให้พรอมต์กับโมเดลกำเนิดและปล่อยให้มันเขียน:
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )
text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )
print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))PS คุณสามารถทดสอบแบบจำลองการกำเนิดทั้งหมดได้ที่นี่: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation