Dieses Repo ist ein Raum, um rumänische Transformatoren zu zentralisieren und eine einheitliche Bewertung zu ermöglichen. Beiträge sind willkommen.
Wir verwenden die Transformers Lib von Suggingface, ein fantastisches Tool für NLP. Was ist Bert Sie fragen? Hier ist ein klarer und kondensierter Artikel darüber, was Bert ist und was er kann. Schauen Sie sich auch diese Zusammenfassung verschiedener Transformatormodelle an.
Was folgt, ist die Liste der maskierten und bedingten Sprachmodelle rumänischer Transformatormodelle.
Fühlen Sie sich frei, ein Problem zu öffnen und hier Ihr Modell/Evaly hinzuzufügen!
| Modell | Typ | Größe | Artikel/Zitat/Quelle | Vorgeblendet / fein abgestimmt | Veröffentlichungsdatum |
|---|---|---|---|---|---|
| Dumitrescustefan/Bert-Base-Romanisch-V1 | Bert | 124 m | PDF / CITE | Vorgebildet | Apr, 2020 |
| Dumitrescustefan/Bert-Base-Romanian-Uncased-V1 | Bert | 124 m | PDF / CITE | Vorgebildet | Apr, 2020 |
| Racai/Distillbert-Base-Romanian Cased | Distilbert | 81 m | - - | Vorgebildet | Apr, 2021 |
| Readerbench/Robert-Small | Bert | 19m | Vorgebildet | Mai, 2021 | |
| Readerbench/Robert-Base | Bert | 114 m | Vorgebildet | Mai, 2021 | |
| Readerbench/Robert-Large | Bert | 341 m | Vorgebildet | Mai, 2021 | |
| Dumitrescustefan/Bert-Base-Romanian-NER | Bert | 124 m | HF Raum | Genannte Entitätserkennung auf Ronecv2 | Januar 2022 |
| Snisioi/Bert-Legal-Romanisch-V1 | Bert | 124 m | - - | Rechtsdokumente auf Marcellv2 | Jan. 2022 |
| Readerbench/Jurbert-Base | Bert | 111m | Rechtsdokumente | Oktober 2021 | |
| Readerbench/Jurbert-Large | Bert | 337 m | Rechtsdokumente | Oktober 2021 |
| Modell | Typ | Größe | Artikel/Zitat/Quelle | Vorgeblendet / fein abgestimmt | Veröffentlichungsdatum |
|---|---|---|---|---|---|
| Dumitrescustefan/GPT-NEO-ROMANIAN-780M | Gpt-neo | 780 m | Noch nicht / HF -Raum | Vorgebildet | September 2022 |
| Readerbench/Rogpt2-Base | Gpt2 | 124 m | Vorgebildet | Jul, 2021 | |
| Readerbench/Rogpt2-Medium | Gpt2 | 354 m | Vorgebildet | Jul, 2021 | |
| Readerbench/Rogpt2-Large | Gpt2 | 774 m | Vorgebildet | Jul, 2021 |
Neu: Schauen Sie sich diesen HF-Raum an, um mit rumänischen Generativmodellen zu spielen: https://huggingface.co/spaces/dumitrescustefan/romanian-text-Generation
Modelle werden mithilfe des hier verfügbaren öffentlichen Colab -Skripts bewertet. Alle angegebenen Ergebnisse sind die durchschnittliche Punktzahl von 5 Läufen unter Verwendung der gleichen Parameter. Bei möglicher Modelle wurde eine größere Chargengröße durch akkumulierende Gradienten simuliert, so dass alle Modelle die gleiche effektive Chargengröße haben sollten. Es werden nur Standardmodelle (nicht für eine bestimmte Aufgabe für eine bestimmte Aufgabe abgeschlossen) bewertet.
Die Tests decken die folgenden Felder ab, und für die Kürze wählen wir aus jedem Feld eine einzelne Metrik aus:
| Modell | Typ | Größe | Ner/em_strict | Rosts/Pearson | RO-Pos-Tagger/Upos F1 | Redv2/hamming_loss |
|---|---|---|---|---|---|---|
| Dumitrescustefan/Bert-Base-Romanisch-V1 | Bert | 124 m | 0,8815 | 0,7966 | 0,982 | 0,1039 |
| Dumitrescustefan/Bert-Base-Romanian-Uncased-V1 | Bert | 124 m | 0,8572 | 0,8149 | 0,9826 | 0,1038 |
| Racai/Distillbert-Base-Romanian Cased | Distilbert | 81 m | 0,8573 | 0,7285 | 0,9637 | 0,1119 |
| Readerbench/Robert-Small | Bert | 19m | 0,8512 | 0,7827 | 0,9794 | 0,1085 |
| Readerbench/Robert-Base | Bert | 114 m | 0,8768 | 0,8102 | 0,9819 | 0,1041 |
| Modell | Typ | Größe | Ner/em_strict | Rosts/Pearson | RO-Pos-Tagger/Upos F1 | Redv2/hamming_loss | Verwirrung |
|---|---|---|---|---|---|---|---|
| Readerbench/Rogpt2-Base | Gpt2 | 124 m | 0,6865 | 0,7963 | 0,9009 | 0,1068 | 52.34 |
| Readerbench/Rogpt2-Medium | Gpt2 | 354 m | 0,7123 | 0,7979 | 0,9098 | 0,114 | 31.26 |
Instanziieren Sie ein Modell mithilfe der Transformers Lib von Huggingface und ersetzen Sie den Modellnamen nach Bedarf. Verwenden Sie dann je nach Aufgabe einen geeigneten Modellkopf. Hier sind einige Beispiele:
from transformers import AutoTokenizer , AutoModel
import torch
# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )
# get encoding
last_hidden_states = outputs [ 0 ] # The last hidden-state is the first element of the output tuple text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")
Geben Sie einem generativen Modell eine Aufforderung und lassen Sie es schreiben:
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )
text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )
print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))PS Sie können hier alle generativen Modelle testen: https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation