Romanian Transformers下载 - Romanian Transformers源代码下载

Romanian Transformers

Ai源码

1.0.0

下载

罗马尼亚变形金刚

该仓库是将罗马尼亚变压器集中并提供统一评估的空间。欢迎捐款。

我们正在使用HuggingFace的Transformers Lib，这是NLP的绝妙工具。你问什么？这是一篇关于伯特是什么以及它可以做什么的清晰而冷静的文章。还请查看此不同变压器模型的摘要。

接下来是罗马尼亚变压器模型的列表，包括掩盖和有条件的语言模型。

随时打开问题并在此处添加您的模型/评估！

蒙版语言模型（MLMS）

模型	类型	尺寸	文章/引文/来源	预训练 /微调	发布日期
dumitrescustefan/bert-base-base-Romanian cased-v1	伯特	124m	pdf / cite	预训练	2020年4月
dumitrescustefan/bert-base-base-romanian-uncasund-v1	伯特	124m	pdf / cite	预训练	2020年4月
RACAI/DISTILLBERT-BASE-ROMANIAN CASCAP	Distilbert	81m	-	预训练	2021年4月
Readerbench/Robert-Small	伯特	19m	PDF	预训练	2021年5月
Readerbench/Robert-Base	伯特	114m	PDF	预训练	2021年5月
Readerbench/Robert-Large	伯特	341m	PDF	预训练	2021年5月
dumitrescustefan/bert-base-romanian-ner	伯特	124m	HF空间	在ronecv2上命名实体识别	2022年1月
Snisioi/bert-Legal-Romanian cased-V1	伯特	124m	-	Marcellv2的法律文件	2022年1月
Readerbench/Jurbert-bas	伯特	111m	PDF	法律文件	2021年10月
Readerbench/Jurbert-Large	伯特	337m	PDF	法律文件	2021年10月

生成语言模型（CLM）

模型	类型	尺寸	文章/引文/来源	预训练 /微调	发布日期
Dumitrescustefan/GPT-Neo-Romanian-780m	gpt-neo	780m	尚未 / HF空间	预训练	9月，2022年
Readerbench/rogpt2-base	GPT2	124m	PDF	预训练	7月，2021年
Readerbench/rogpt2-Medium	GPT2	354m	PDF	预训练	7月，2021年
Readerbench/rogpt2-large	GPT2	774m	PDF	预训练	7月，2021年

新：查看此HF空间与罗马尼亚生成模型一起玩：https：//huggingface.co/spaces/dumitrescustefan/romanian-text-generation

模型评估

使用此处可用的公共COLAB脚本评估模型。报告的所有结果是使用相同的参数的平均得分5次。对于较大的型号，如果可能的话，通过累积梯度模拟了较大的批处理大小，以便所有模型都应具有相同的有效批量尺寸。仅评估仅评估标准模型（对于特定任务而不是未针对特定任务），并且可以评估适合16GB RAM的模型。

测试涵盖以下字段，对于简洁起见，我们从每个字段中选择一个指标：

命名实体识别：在RONECV2上，我们测量测试严格匹配度量。模型必须正确检测单词是否是实体并使用正确的类标记。
语音标签的一部分：在RO-POS-Tagger上，我们测量了测试UPOS F1分数。该测试应该揭示模型对语言结构的理解程度。
语义文本相似性：在RO-STS上，我们测量了测试Pearson相关系数。给定两个句子，模型必须预测它们是否需要，矛盾还是在不同的主题上（中性）。该测试应突出显示模型可以嵌入句子的含义的能力。
情绪检测：在罗马尼亚推文中的REDV2情绪检测中，我们测量了分类环境中的测试锤损失（较低）。该测试应该显示模型可以从短文中“理解”情绪的能力。
困惑：在Wiki-Ro的测试拆分上，我们测量仅CLM模型的困惑，步幅为512，批次大小为4。

MLM模型评估

模型	类型	尺寸	ner/em_strict	Rosts/Pearson	RO-POS-TAGGE/UPOS F1	redv2/hamming_loss
dumitrescustefan/bert-base-base-Romanian cased-v1	伯特	124m	0.8815	0.7966	0.982	0.1039
dumitrescustefan/bert-base-base-romanian-uncasund-v1	伯特	124m	0.8572	0.8149	0.9826	0.1038
RACAI/DISTILLBERT-BASE-ROMANIAN CASCAP	Distilbert	81m	0.8573	0.7285	0.9637	0.1119
Readerbench/Robert-Small	伯特	19m	0.8512	0.7827	0.9794	0.1085
Readerbench/Robert-Base	伯特	114m	0.8768	0.8102	0.9819	0.1041

CLM模型评估

模型	类型	尺寸	ner/em_strict	Rosts/Pearson	RO-POS-TAGGE/UPOS F1	redv2/hamming_loss	困惑
Readerbench/rogpt2-base	GPT2	124m	0.6865	0.7963	0.9009	0.1068	52.34
Readerbench/rogpt2-Medium	GPT2	354m	0.7123	0.7979	0.9098	0.114	31.26

这些模型可以做什么

使用HuggingFace的Transformers LIB，实例化模型并根据需要替换模型名称。然后根据您的任务使用适当的型号头。这里有几个例子：

获取令牌嵌入

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

对于Dumitrescustefan/*型号，请记住在将其喂入模型之前校正ș/ț的变量（仅经过正确的逗号风格的变量训练，并且会看到cedillais the the the the theţ

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

用生成模型写文字

给生成模型提示并让其写入：

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

PS您可以在此处测试所有生成模型：https：//huggingface.co/spaces/dumitrescustefan/romanian-text-generation

最后注意

虽然最初此存储库最初是2020年的单个变压器模型的深度，但明示希望可以迅速添加更多模型，但事实证明，训练一个好的模型并不容易，并且需要大量精力来策划数据，然后才能访问足够的计算功率。因此，我觉得仅列出几个型号已不再有用，并且列出我可以找到的所有仅是罗马尼亚的模型，并且绩效/文档的水平最低，这将产生更大的影响。干得好：）
此存储库包含一些代码，用于下载和清洁罗马尼亚语料库。我已经删除了这一部分，因为现在在HuggingFace上提供了Oscar（新版本），并且Opus的API不再工作（现在需要一些手动过滤，更不用说正在不断添加新资源了） - 因此，维护此代码并不可行。
请使用您发现的新罗马尼亚模型，或引用或对现有型号的更新来为此回购做出贡献。

展开

附加信息