Romanian Transformers
1.0.0
该仓库是将罗马尼亚变压器集中并提供统一评估的空间。欢迎捐款。
我们正在使用HuggingFace的Transformers Lib,这是NLP的绝妙工具。你问什么?这是一篇关于伯特是什么以及它可以做什么的清晰而冷静的文章。还请查看此不同变压器模型的摘要。
接下来是罗马尼亚变压器模型的列表,包括掩盖和有条件的语言模型。
随时打开问题并在此处添加您的模型/评估!
| 模型 | 类型 | 尺寸 | 文章/引文/来源 | 预训练 /微调 | 发布日期 |
|---|---|---|---|---|---|
| dumitrescustefan/bert-base-base-Romanian cased-v1 | 伯特 | 124m | pdf / cite | 预训练 | 2020年4月 |
| dumitrescustefan/bert-base-base-romanian-uncasund-v1 | 伯特 | 124m | pdf / cite | 预训练 | 2020年4月 |
| RACAI/DISTILLBERT-BASE-ROMANIAN CASCAP | Distilbert | 81m | - | 预训练 | 2021年4月 |
| Readerbench/Robert-Small | 伯特 | 19m | 预训练 | 2021年5月 | |
| Readerbench/Robert-Base | 伯特 | 114m | 预训练 | 2021年5月 | |
| Readerbench/Robert-Large | 伯特 | 341m | 预训练 | 2021年5月 | |
| dumitrescustefan/bert-base-romanian-ner | 伯特 | 124m | HF空间 | 在ronecv2上命名实体识别 | 2022年1月 |
| Snisioi/bert-Legal-Romanian cased-V1 | 伯特 | 124m | - | Marcellv2的法律文件 | 2022年1月 |
| Readerbench/Jurbert-bas | 伯特 | 111m | 法律文件 | 2021年10月 | |
| Readerbench/Jurbert-Large | 伯特 | 337m | 法律文件 | 2021年10月 |
| 模型 | 类型 | 尺寸 | 文章/引文/来源 | 预训练 /微调 | 发布日期 |
|---|---|---|---|---|---|
| Dumitrescustefan/GPT-Neo-Romanian-780m | gpt-neo | 780m | 尚未 / HF空间 | 预训练 | 9月,2022年 |
| Readerbench/rogpt2-base | GPT2 | 124m | 预训练 | 7月,2021年 | |
| Readerbench/rogpt2-Medium | GPT2 | 354m | 预训练 | 7月,2021年 | |
| Readerbench/rogpt2-large | GPT2 | 774m | 预训练 | 7月,2021年 |
新:查看此HF空间与罗马尼亚生成模型一起玩:https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation
使用此处可用的公共COLAB脚本评估模型。报告的所有结果是使用相同的参数的平均得分5次。对于较大的型号,如果可能的话,通过累积梯度模拟了较大的批处理大小,以便所有模型都应具有相同的有效批量尺寸。仅评估仅评估标准模型(对于特定任务而不是未针对特定任务),并且可以评估适合16GB RAM的模型。
测试涵盖以下字段,对于简洁起见,我们从每个字段中选择一个指标:
| 模型 | 类型 | 尺寸 | ner/em_strict | Rosts/Pearson | RO-POS-TAGGE/UPOS F1 | redv2/hamming_loss |
|---|---|---|---|---|---|---|
| dumitrescustefan/bert-base-base-Romanian cased-v1 | 伯特 | 124m | 0.8815 | 0.7966 | 0.982 | 0.1039 |
| dumitrescustefan/bert-base-base-romanian-uncasund-v1 | 伯特 | 124m | 0.8572 | 0.8149 | 0.9826 | 0.1038 |
| RACAI/DISTILLBERT-BASE-ROMANIAN CASCAP | Distilbert | 81m | 0.8573 | 0.7285 | 0.9637 | 0.1119 |
| Readerbench/Robert-Small | 伯特 | 19m | 0.8512 | 0.7827 | 0.9794 | 0.1085 |
| Readerbench/Robert-Base | 伯特 | 114m | 0.8768 | 0.8102 | 0.9819 | 0.1041 |
| 模型 | 类型 | 尺寸 | ner/em_strict | Rosts/Pearson | RO-POS-TAGGE/UPOS F1 | redv2/hamming_loss | 困惑 |
|---|---|---|---|---|---|---|---|
| Readerbench/rogpt2-base | GPT2 | 124m | 0.6865 | 0.7963 | 0.9009 | 0.1068 | 52.34 |
| Readerbench/rogpt2-Medium | GPT2 | 354m | 0.7123 | 0.7979 | 0.9098 | 0.114 | 31.26 |
使用HuggingFace的Transformers LIB,实例化模型并根据需要替换模型名称。然后根据您的任务使用适当的型号头。这里有几个例子:
from transformers import AutoTokenizer , AutoModel
import torch
# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )
# get encoding
last_hidden_states = outputs [ 0 ] # The last hidden-state is the first element of the output tuple text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")
给生成模型提示并让其写入:
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )
text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )
print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))PS您可以在此处测试所有生成模型:https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation