Romanian Transformers Download - Romanian Transformers Quellcode Download

Romanian Transformers

AI-Quellcode

1.0.0

Herunterladen

Rumänische Transformatoren

Dieses Repo ist ein Raum, um rumänische Transformatoren zu zentralisieren und eine einheitliche Bewertung zu ermöglichen. Beiträge sind willkommen.

Wir verwenden die Transformers Lib von Suggingface, ein fantastisches Tool für NLP. Was ist Bert Sie fragen? Hier ist ein klarer und kondensierter Artikel darüber, was Bert ist und was er kann. Schauen Sie sich auch diese Zusammenfassung verschiedener Transformatormodelle an.

Was folgt, ist die Liste der maskierten und bedingten Sprachmodelle rumänischer Transformatormodelle.

Fühlen Sie sich frei, ein Problem zu öffnen und hier Ihr Modell/Evaly hinzuzufügen!

Maskierte Sprachmodelle (MLMs)

Modell	Typ	Größe	Artikel/Zitat/Quelle	Vorgeblendet / fein abgestimmt	Veröffentlichungsdatum
Dumitrescustefan/Bert-Base-Romanisch-V1	Bert	124 m	PDF / CITE	Vorgebildet	Apr, 2020
Dumitrescustefan/Bert-Base-Romanian-Uncased-V1	Bert	124 m	PDF / CITE	Vorgebildet	Apr, 2020
Racai/Distillbert-Base-Romanian Cased	Distilbert	81 m	- -	Vorgebildet	Apr, 2021
Readerbench/Robert-Small	Bert	19m	PDF	Vorgebildet	Mai, 2021
Readerbench/Robert-Base	Bert	114 m	PDF	Vorgebildet	Mai, 2021
Readerbench/Robert-Large	Bert	341 m	PDF	Vorgebildet	Mai, 2021
Dumitrescustefan/Bert-Base-Romanian-NER	Bert	124 m	HF Raum	Genannte Entitätserkennung auf Ronecv2	Januar 2022
Snisioi/Bert-Legal-Romanisch-V1	Bert	124 m	- -	Rechtsdokumente auf Marcellv2	Jan. 2022
Readerbench/Jurbert-Base	Bert	111m	PDF	Rechtsdokumente	Oktober 2021
Readerbench/Jurbert-Large	Bert	337 m	PDF	Rechtsdokumente	Oktober 2021

Generative Sprachmodelle (CLMS)

Modell	Typ	Größe	Artikel/Zitat/Quelle	Vorgeblendet / fein abgestimmt	Veröffentlichungsdatum
Dumitrescustefan/GPT-NEO-ROMANIAN-780M	Gpt-neo	780 m	Noch nicht / HF -Raum	Vorgebildet	September 2022
Readerbench/Rogpt2-Base	Gpt2	124 m	PDF	Vorgebildet	Jul, 2021
Readerbench/Rogpt2-Medium	Gpt2	354 m	PDF	Vorgebildet	Jul, 2021
Readerbench/Rogpt2-Large	Gpt2	774 m	PDF	Vorgebildet	Jul, 2021

Neu: Schauen Sie sich diesen HF-Raum an, um mit rumänischen Generativmodellen zu spielen: https://huggingface.co/spaces/dumitrescustefan/romanian-text-Generation

Modellbewertung

Modelle werden mithilfe des hier verfügbaren öffentlichen Colab -Skripts bewertet. Alle angegebenen Ergebnisse sind die durchschnittliche Punktzahl von 5 Läufen unter Verwendung der gleichen Parameter. Bei möglicher Modelle wurde eine größere Chargengröße durch akkumulierende Gradienten simuliert, so dass alle Modelle die gleiche effektive Chargengröße haben sollten. Es werden nur Standardmodelle (nicht für eine bestimmte Aufgabe für eine bestimmte Aufgabe abgeschlossen) bewertet.

Die Tests decken die folgenden Felder ab, und für die Kürze wählen wir aus jedem Feld eine einzelne Metrik aus:

Bezeichnung der Entitätserkennung : Auf RONECV2 messen wir die strikte Übereinstimmungsmaßnahme. Ein Modell muss korrekt erkennen, ob ein Wort eine Entität ist, und es mit seiner korrekten Klasse zu markieren.
Teil des Sprach-Tagging : Auf Ro-Pos-Tagger messen wir den Test-Upos-F1-Score. Dieser Test sollte zeigen, wie gut ein Modell die Struktur der Sprache versteht.
Semantische textuelle Ähnlichkeit : Auf RO-STS messen wir den Testpearson-Korrelationskoeffizienten. Angesichts von zwei Sätzen muss das Modell vorhersagen, ob sie miteinander verbunden sind, widersprüchlich oder auf verschiedenen Probanden sind (neutral). Dieser Test sollte hervorheben, wie gut ein Modell die Bedeutung eines Satzes einbetten kann.
Emotionserkennung : Bei der Redv2 -Emotionserkennung in rumänischen Tweets messen wir den Test -Hamming -Verlust in der Klassifizierungseinstellung ( niedriger ist besser ). Dieser Test sollte zeigen, wie gut ein Modell Emotionen aus kurzen Texten "verstehen" kann.
Verwirrung : Bei Wiki-ROs Test-Split messen wir die Verwirrung von CLM-Modellen mit einem Schritt von 512 und einer Chargengröße von 4.

MLM -Modellbewertung

Modell	Typ	Größe	Ner/em_strict	Rosts/Pearson	RO-Pos-Tagger/Upos F1	Redv2/hamming_loss
Dumitrescustefan/Bert-Base-Romanisch-V1	Bert	124 m	0,8815	0,7966	0,982	0,1039
Dumitrescustefan/Bert-Base-Romanian-Uncased-V1	Bert	124 m	0,8572	0,8149	0,9826	0,1038
Racai/Distillbert-Base-Romanian Cased	Distilbert	81 m	0,8573	0,7285	0,9637	0,1119
Readerbench/Robert-Small	Bert	19m	0,8512	0,7827	0,9794	0,1085
Readerbench/Robert-Base	Bert	114 m	0,8768	0,8102	0,9819	0,1041

CLM -Modellbewertung

Modell	Typ	Größe	Ner/em_strict	Rosts/Pearson	RO-Pos-Tagger/Upos F1	Redv2/hamming_loss	Verwirrung
Readerbench/Rogpt2-Base	Gpt2	124 m	0,6865	0,7963	0,9009	0,1068	52.34
Readerbench/Rogpt2-Medium	Gpt2	354 m	0,7123	0,7979	0,9098	0,114	31.26

Was Sie mit diesen Modellen tun können

Instanziieren Sie ein Modell mithilfe der Transformers Lib von Huggingface und ersetzen Sie den Modellnamen nach Bedarf. Verwenden Sie dann je nach Aufgabe einen geeigneten Modellkopf. Hier sind einige Beispiele:

Holen Sie sich Token -Einbettungen

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

Denken Sie für Dumitrescustefan/* -Modelle daran, die ș/ț Diakritik zu korrigieren, bevor Sie es an das Modell füttern (es wurde nur mit der richtigen Diamritik im Komma-Stil geschult und wird die Cedilla ş A ţ als Unkunden sehen und somit die Gesamtleistung verringern):

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

Schreiben Sie Text mit generativen Modellen

Geben Sie einem generativen Modell eine Aufforderung und lassen Sie es schreiben:

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

PS Sie können hier alle generativen Modelle testen: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation

Endgültige Anmerkung

Während dieses Repo im Jahr 2020 zunächst als eingehende eines einzelnen Transformatormodells begann, mit der Express-Hoffnung, dass mehr Modelle schnell hinzugefügt werden würden, stellte sich heraus, dass das Training ein gutes Modell nicht so einfach ist, und es erfordert große Anstrengungen, um die Daten zu kuratieren und dann Zugriff auf ausreichende Rechenleistung zu haben. Ich bin der Meinung, dass es nicht mehr nützlich ist, nur ein paar Modelle aufzulisten, und es würde mehr Einfluss darauf haben, alle Modelle aufzulisten, die ich nur für Rumänien finden konnte, und ein minimales Maß an Leistung/Dokumentation haben. Bitte schön :)
Dieses Repo enthielt Code zum Herunterladen und Reinigen eines rumänischen Korpus. Ich habe diesen Teil entfernt, da Oscar jetzt bei Huggingface (neue Version) angeboten wird, und die API von Opus funktioniert nicht mehr so, wie es sollte (einige manuelle Filterung ist jetzt erforderlich, ganz zu schweigen von neuen Ressourcen werden ständig hinzugefügt) - daher ist die Aufrechterhaltung dieses Code nicht wirklich möglich.
Bitte tragen Sie zu diesem Repo mit neuen rumänischen Modellen bei, die Sie finden, oder mit Zitaten oder Aktualisierungen vorhandenen Modellen.

Expandieren

Zusätzliche Informationen