Romanian Transformers
1.0.0
該倉庫是將羅馬尼亞變壓器集中並提供統一評估的空間。歡迎捐款。
我們正在使用HuggingFace的Transformers Lib,這是NLP的絕妙工具。你問什麼?這是一篇關於伯特是什麼以及它可以做什麼的清晰而冷靜的文章。還請查看此不同變壓器模型的摘要。
接下來是羅馬尼亞變壓器模型的列表,包括掩蓋和有條件的語言模型。
隨時打開問題並在此處添加您的模型/評估!
| 模型 | 類型 | 尺寸 | 文章/引文/來源 | 預訓練 /微調 | 發布日期 |
|---|---|---|---|---|---|
| dumitrescustefan/bert-base-base-Romanian cased-v1 | 伯特 | 124m | pdf / cite | 預訓練 | 2020年4月 |
| dumitrescustefan/bert-base-base-romanian-uncasund-v1 | 伯特 | 124m | pdf / cite | 預訓練 | 2020年4月 |
| RACAI/DISTILLBERT-BASE-ROMANIAN CASCAP | Distilbert | 81m | - | 預訓練 | 2021年4月 |
| Readerbench/Robert-Small | 伯特 | 19m | 預訓練 | 2021年5月 | |
| Readerbench/Robert-Base | 伯特 | 114m | 預訓練 | 2021年5月 | |
| Readerbench/Robert-Large | 伯特 | 341m | 預訓練 | 2021年5月 | |
| dumitrescustefan/bert-base-romanian-ner | 伯特 | 124m | HF空間 | 在ronecv2上命名實體識別 | 2022年1月 |
| Snisioi/bert-Legal-Romanian cased-V1 | 伯特 | 124m | - | Marcellv2的法律文件 | 2022年1月 |
| Readerbench/Jurbert-bas | 伯特 | 111m | 法律文件 | 2021年10月 | |
| Readerbench/Jurbert-Large | 伯特 | 337m | 法律文件 | 2021年10月 |
| 模型 | 類型 | 尺寸 | 文章/引文/來源 | 預訓練 /微調 | 發布日期 |
|---|---|---|---|---|---|
| Dumitrescustefan/GPT-Neo-Romanian-780m | gpt-neo | 780m | 尚未 / HF空間 | 預訓練 | 9月,2022年 |
| Readerbench/rogpt2-base | GPT2 | 124m | 預訓練 | 7月,2021年 | |
| Readerbench/rogpt2-Medium | GPT2 | 354m | 預訓練 | 7月,2021年 | |
| Readerbench/rogpt2-large | GPT2 | 774m | 預訓練 | 7月,2021年 |
新:查看此HF空間與羅馬尼亞生成模型一起玩:https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation
使用此處可用的公共COLAB腳本評估模型。報告的所有結果是使用相同的參數的平均得分5次。對於較大的型號,如果可能的話,通過累積梯度模擬了較大的批處理大小,以便所有模型都應具有相同的有效批量尺寸。僅評估僅評估標準模型(對於特定任務而不是未針對特定任務),並且可以評估適合16GB RAM的模型。
測試涵蓋以下字段,對於簡潔起見,我們從每個字段中選擇一個指標:
| 模型 | 類型 | 尺寸 | ner/em_strict | Rosts/Pearson | RO-POS-TAGGE/UPOS F1 | redv2/hamming_loss |
|---|---|---|---|---|---|---|
| dumitrescustefan/bert-base-base-Romanian cased-v1 | 伯特 | 124m | 0.8815 | 0.7966 | 0.982 | 0.1039 |
| dumitrescustefan/bert-base-base-romanian-uncasund-v1 | 伯特 | 124m | 0.8572 | 0.8149 | 0.9826 | 0.1038 |
| RACAI/DISTILLBERT-BASE-ROMANIAN CASCAP | Distilbert | 81m | 0.8573 | 0.7285 | 0.9637 | 0.1119 |
| Readerbench/Robert-Small | 伯特 | 19m | 0.8512 | 0.7827 | 0.9794 | 0.1085 |
| Readerbench/Robert-Base | 伯特 | 114m | 0.8768 | 0.8102 | 0.9819 | 0.1041 |
| 模型 | 類型 | 尺寸 | ner/em_strict | Rosts/Pearson | RO-POS-TAGGE/UPOS F1 | redv2/hamming_loss | 困惑 |
|---|---|---|---|---|---|---|---|
| Readerbench/rogpt2-base | GPT2 | 124m | 0.6865 | 0.7963 | 0.9009 | 0.1068 | 52.34 |
| Readerbench/rogpt2-Medium | GPT2 | 354m | 0.7123 | 0.7979 | 0.9098 | 0.114 | 31.26 |
使用HuggingFace的Transformers LIB,實例化模型並根據需要替換模型名稱。然後根據您的任務使用適當的型號頭。這裡有幾個例子:
from transformers import AutoTokenizer , AutoModel
import torch
# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )
# get encoding
last_hidden_states = outputs [ 0 ] # The last hidden-state is the first element of the output tuple text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")
給生成模型提示並讓其寫入:
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )
text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )
print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))PS您可以在此處測試所有生成模型:https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation