ดาวน์โหลด Romanian Transformers - ดาวน์โหลดซอร์สโค้ด Romanian Transformers Download

Romanian Transformers

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

หม้อแปลงโรมาเนีย

repo นี้มีความหมายเป็นพื้นที่สำหรับการรวมศูนย์หม้อแปลงโรมาเนียและให้การประเมินที่สม่ำเสมอ ยินดีต้อนรับการมีส่วนร่วม

เรากำลังใช้ Transformers Lib ของ HuggingFace ซึ่งเป็นเครื่องมือที่ยอดเยี่ยมสำหรับ NLP คุณถามเบิร์ตอะไร? นี่คือบทความที่ชัดเจนและย่อเกี่ยวกับสิ่งที่เบิร์ตคืออะไรและสามารถทำอะไรได้บ้าง ตรวจสอบบทสรุปของรุ่นหม้อแปลงที่แตกต่างกันนี้

สิ่งที่ตามมาคือรายการของโมเดลหม้อแปลงโรมาเนียทั้งแบบจำลองและแบบมีเงื่อนไข

อย่าลังเลที่จะเปิดปัญหาและเพิ่มโมเดล/การประเมินของคุณที่นี่!

รูปแบบภาษาที่สวมหน้ากาก (MLMS)

แบบอย่าง	พิมพ์	ขนาด	บทความ/การอ้างอิง/แหล่งที่มา	ได้รับการฝึกอบรมล่วงหน้า / ปรับแต่ง	วันที่วางจำหน่าย
Dumitrescustefan/bert-base-romanian-cased-v1	เบิร์ต	124m	PDF / CITE	ได้รับการฝึกฝนมาก่อน	เม.ย. 2020
Dumitrescustefan/bert-base-romanian-uncased-v1	เบิร์ต	124m	PDF / CITE	ได้รับการฝึกฝนมาก่อน	เม.ย. 2020
Racai/Distillbert-Base-Romanian	กลั่นกรอง	81m	-	ได้รับการฝึกฝนมาก่อน	เม.ย. 2021
ReaderBench/Robert-Small	เบิร์ต	19m	PDF	ได้รับการฝึกฝนมาก่อน	พฤษภาคม 2564
ReaderBench/Robert-Base	เบิร์ต	114m	PDF	ได้รับการฝึกฝนมาก่อน	พฤษภาคม 2564
ReaderBench/Robert-Large	เบิร์ต	341m	PDF	ได้รับการฝึกฝนมาก่อน	พฤษภาคม 2564
dumitrescustefan/bert-base-romanian-ner	เบิร์ต	124m	พื้นที่ HF	ชื่อการรับรู้เอนทิตีบน ronecv2	ม.ค. 2022
Snisioi/Bert-Legal-Romanian-Cased-V1	เบิร์ต	124m	-	เอกสารทางกฎหมายใน Marcellv2	ม.ค. 2022
ReaderBench/Jurbert-Base	เบิร์ต	111m	PDF	เอกสารทางกฎหมาย	ต.ค. 2021
ReaderBench/Jurbert-Large	เบิร์ต	337m	PDF	เอกสารทางกฎหมาย	ต.ค. 2021

แบบจำลองภาษากำเนิด (CLMS)

แบบอย่าง	พิมพ์	ขนาด	บทความ/การอ้างอิง/แหล่งที่มา	ได้รับการฝึกอบรมล่วงหน้า / ปรับแต่ง	วันที่วางจำหน่าย
Dumitrescustefan/GPT-neo-Romanian-780m	Gpt-neo	780m	ยังไม่มีพื้นที่ / hf	ได้รับการฝึกฝนมาก่อน	ก.ย. 2022
ReaderBench/Rogpt2-base	GPT2	124m	PDF	ได้รับการฝึกฝนมาก่อน	ก.ค. 2021
ReaderBench/Rogpt2-Medium	GPT2	354m	PDF	ได้รับการฝึกฝนมาก่อน	ก.ค. 2021
ReaderBench/Rogpt2 ขนาดใหญ่	GPT2	774m	PDF	ได้รับการฝึกฝนมาก่อน	ก.ค. 2021

ใหม่: ตรวจสอบพื้นที่ HF นี้เพื่อเล่นกับโมเดลรุ่นโรมาเนีย: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation

การประเมินแบบจำลอง

แบบจำลองได้รับการประเมินโดยใช้สคริปต์ colab สาธารณะที่มีอยู่ที่นี่ ผลลัพธ์ทั้งหมดที่รายงานคือคะแนนเฉลี่ย 5 การรันโดยใช้พารามิเตอร์เดียวกัน สำหรับรุ่นที่ใหญ่กว่าหากเป็นไปได้ขนาดแบทช์ขนาดใหญ่จะถูกจำลองโดยการสะสมการไล่ระดับสีเช่นว่าทุกรุ่นควรมีขนาดแบทช์ที่มีประสิทธิภาพเท่ากัน มีการประเมินแบบจำลองมาตรฐานเท่านั้น (ไม่ได้รับการประเมินสำหรับงานเฉพาะ) และสามารถประเมินได้ใน RAM 16GB

การทดสอบครอบคลุมฟิลด์ต่อไปนี้และเพื่อความกะทัดรัดเราเลือกเมตริกเดียวจากแต่ละฟิลด์:

การรับรู้เอนทิตีที่มีชื่อ : บน RONECV2 เราวัดการทดสอบการจับคู่ที่เข้มงวด แบบจำลองจะต้องตรวจจับอย่างถูกต้องว่าคำนั้นเป็นเอนทิตีและแท็กด้วยคลาสที่ถูกต้องหรือไม่
ส่วนหนึ่งของการติดแท็กคำพูด : บน RO-POS-Tagger เราวัดคะแนนการทดสอบ UPOS F1 การทดสอบนี้ควรเปิดเผยว่าโมเดลเข้าใจโครงสร้างภาษาได้ดีเพียงใด
ความคล้ายคลึงกันของข้อความความหมาย : บน RO-STS เราวัดค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันทดสอบ เมื่อพิจารณาสองประโยคแบบจำลองจะต้องทำนายว่าพวกเขาจะถูกนำไปใช้ความขัดแย้งหรืออยู่ในวิชาที่แตกต่างกัน (เป็นกลาง) การทดสอบนี้ควรเน้นว่าโมเดลสามารถฝังความหมายของประโยคได้ดีเพียงใด
การตรวจจับอารมณ์ : ในการตรวจจับอารมณ์ REDV2 ในทวีตโรมาเนียเราวัดการสูญเสียการทดสอบการสูญเสียในการจำแนกประเภท ( ต่ำกว่าดีกว่า ) การทดสอบนี้ควรแสดงให้เห็นว่าโมเดลสามารถ "เข้าใจ" อารมณ์จากข้อความสั้น ๆ ได้ดีเพียงใด
Perplexity : ในการแยกการทดสอบของ Wiki-Ro เราวัดความงุนงงของรุ่น CLM เท่านั้นด้วยการก้าวย่าง 512 และขนาดแบทช์ 4

การประเมินแบบจำลอง MLM

แบบอย่าง	พิมพ์	ขนาด	ner/em_strict	Rosts/Pearson	Ro-Pos-Tagger/UPOS F1	redv2/hamming_loss
Dumitrescustefan/bert-base-romanian-cased-v1	เบิร์ต	124m	0.8815	0.7966	0.982	0.1039
Dumitrescustefan/bert-base-romanian-uncased-v1	เบิร์ต	124m	0.8572	0.8149	0.9826	0.1038
Racai/Distillbert-Base-Romanian	กลั่นกรอง	81m	0.8573	0.7285	0.9637	0.1119
ReaderBench/Robert-Small	เบิร์ต	19m	0.8512	0.7827	0.9794	0.1085
ReaderBench/Robert-Base	เบิร์ต	114m	0.8768	0.8102	0.9819	0.1041

การประเมินแบบจำลอง CLM

แบบอย่าง	พิมพ์	ขนาด	ner/em_strict	Rosts/Pearson	Ro-Pos-Tagger/UPOS F1	redv2/hamming_loss	ความงุนงง
ReaderBench/Rogpt2-base	GPT2	124m	0.6865	0.7963	0.9009	0.1068	52.34
ReaderBench/Rogpt2-Medium	GPT2	354m	0.7123	0.7979	0.9098	0.114	31.26

คุณสามารถทำอะไรกับโมเดลเหล่านี้ได้

การใช้ LIB Transformers ของ HuggingFace สร้างอินสแตนซ์โมเดลและแทนที่ชื่อรุ่นตามความจำเป็น จากนั้นใช้หัวโมเดลที่เหมาะสมขึ้นอยู่กับงานของคุณ นี่คือตัวอย่างบางส่วน:

รับโทเค็นฝังตัว

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

สำหรับโมเดล dumitrescustefan/* อย่าลืมแก้ไข diarcritics ș/ț ก่อนที่จะให้อาหารกับโมเดล (ได้รับการฝึกฝนเฉพาะกับ diacritics สไตล์คอมม่าที่ถูกต้องเท่านั้นและจะเห็น Cedilla şเป็น unks และลดประสิทธิภาพโดยรวม):

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

เขียนข้อความด้วยรุ่นกำเนิด

ให้พรอมต์กับโมเดลกำเนิดและปล่อยให้มันเขียน:

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

PS คุณสามารถทดสอบแบบจำลองการกำเนิดทั้งหมดได้ที่นี่: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation

หมายเหตุสุดท้าย

ในขณะที่ repo นี้เริ่มต้นเป็นเชิงลึกของโมเดลหม้อแปลงเดียวย้อนกลับไปในปี 2020 ด้วยความหวังอย่างชัดแจ้งว่าจะมีการเพิ่มโมเดลมากขึ้นอย่างรวดเร็วมันกลับกลายเป็นว่าการฝึกอบรมแบบจำลองที่ดีนั้นไม่ใช่เรื่องง่ายและต้องใช้ความพยายามอย่างมากในการดูแลข้อมูล ดังนั้นฉันรู้สึกว่ามันไม่มีประโยชน์อีกต่อไปที่จะแสดงรายการสองรุ่นและมันจะส่งผลกระทบมากขึ้นในการแสดงรายการทั้งหมดที่ฉันพบว่าเป็นโรมาเนียเท่านั้นและมีประสิทธิภาพ/เอกสารระดับน้อยที่สุด ไปที่นี่ :)
repo นี้มีรหัสบางส่วนเพื่อดาวน์โหลดและทำความสะอาดคลังข้อมูลโรมาเนีย ฉันได้ลบส่วนนี้ไปแล้วเนื่องจาก Oscar มีให้บริการใน HuggingFace (เวอร์ชันใหม่) และ API ของ Opus ไม่ทำงานอีกต่อไปตามที่ควรจะเป็น (จำเป็นต้องมีการกรองด้วยตนเองบางอย่างไม่ต้องพูดถึงทรัพยากรใหม่อย่างต่อเนื่อง) - ดังนั้นการบำรุงรักษารหัสนี้จึงไม่เป็นไปได้จริงๆ
โปรดมีส่วนร่วมกับ repo นี้กับโมเดลโรมาเนียใหม่ที่คุณพบหรือมีการอ้างอิงหรืออัปเดตไปยังรุ่นที่มีอยู่

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-10
ขนาด 6.16KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Transformers: สงครามเพื่อไซเบอร์ตรอน

2022-08-19
ทรานส์ฟอร์มเมอร์ส: เด

2022-08-18
Transformers Rise of the Dark Spark

2022-08-17

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด