このレポは、ルーマニアの変圧器を集中化し、均一な評価を提供するスペースとして意図されています。貢献は大歓迎です。
NLPの素晴らしいツールであるHuggingfaceのトランスフォーマーLIBを使用しています。あなたが尋ねるバートとは何ですか?これは、バートが何であり、何ができるかについての明確で凝縮された記事です。また、さまざまなトランスモデルのこの要約をご覧ください。
以下は、マスクされた言語モデルと条件付き言語モデルの両方のルーマニアトランスモデルのリストです。
お気軽に問題を開いて、ここでモデル/評価を追加してください!
| モデル | タイプ | サイズ | 記事/引用/ソース | 事前に訓練された /微調整 | 発売日 |
|---|---|---|---|---|---|
| DumitRescustefan/Bert-Base-Romanian-Cased-V1 | バート | 124m | PDF /引用 | 事前に訓練されています | 2020年4月 |
| DumitRescustefan/Bert-Base-Romanian-Uncased-V1 | バート | 124m | PDF /引用 | 事前に訓練されています | 2020年4月 |
| Racai/Distillbert-Base-Romanian-Cased | Distilbert | 81m | - | 事前に訓練されています | 2021年4月 |
| Readerbench/Robert-Small | バート | 19m | 事前に訓練されています | 5月、2021年 | |
| ReaderBench/Robert-Base | バート | 114m | 事前に訓練されています | 5月、2021年 | |
| ReaderBench/Robert-Large | バート | 341m | 事前に訓練されています | 5月、2021年 | |
| dumitrescustefan/bert-base-romanian-ner | バート | 124m | HFスペース | Ronecv2の名前付きエンティティ認識 | 2022年1月 |
| Snisioi/Bert-Legal-Romanian-Cased-V1 | バート | 124m | - | marcellv2に関する法的文書 | 2022年1月 |
| ReaderBench/Jurbert-Base | バート | 111m | 法的文書 | 2021年10月 | |
| ReaderBench/Jurbert-Large | バート | 337m | 法的文書 | 2021年10月 |
| モデル | タイプ | サイズ | 記事/引用/ソース | 事前に訓練された /微調整 | 発売日 |
|---|---|---|---|---|---|
| dumitrescustefan/gpt-neo-romanian-780m | gpt-neo | 780m | まだ / hfスペース | 事前に訓練されています | 9月、2022年 |
| Readerbench/rogpt2-base | GPT2 | 124m | 事前に訓練されています | 2021年7月 | |
| Readerbench/rogpt2-medium | GPT2 | 354m | 事前に訓練されています | 2021年7月 | |
| Readerbench/rogpt2-large | GPT2 | 774m | 事前に訓練されています | 2021年7月 |
新しい:ルーマニアの生成モデルで遊ぶこのHFスペースをチェックしてください:https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation
モデルは、ここで入手可能なパブリックコラブスクリプトを使用して評価されます。報告されたすべての結果は、同じパラメーターを使用して5回の平均スコアです。より大きなモデルの場合、可能であれば、すべてのモデルが同じ有効なバッチサイズを持つように、より大きなバッチサイズを蓄積することによってシミュレートされました。標準モデルのみ(特定のタスクでは微調整されていません)と16GBのRAMに収まる可能性があります。
テストは次のフィールドをカバーし、簡潔にするために、各フィールドから単一のメトリックを選択します。
| モデル | タイプ | サイズ | ner/em_strict | Rosts/Pearson | ro-pos-tagger/upos F1 | redv2/hamming_loss |
|---|---|---|---|---|---|---|
| DumitRescustefan/Bert-Base-Romanian-Cased-V1 | バート | 124m | 0.8815 | 0.7966 | 0.982 | 0.1039 |
| DumitRescustefan/Bert-Base-Romanian-Uncased-V1 | バート | 124m | 0.8572 | 0.8149 | 0.9826 | 0.1038 |
| Racai/Distillbert-Base-Romanian-Cased | Distilbert | 81m | 0.8573 | 0.7285 | 0.9637 | 0.1119 |
| Readerbench/Robert-Small | バート | 19m | 0.8512 | 0.7827 | 0.9794 | 0.1085 |
| ReaderBench/Robert-Base | バート | 114m | 0.8768 | 0.8102 | 0.9819 | 0.1041 |
| モデル | タイプ | サイズ | ner/em_strict | Rosts/Pearson | ro-pos-tagger/upos F1 | redv2/hamming_loss | 困惑 |
|---|---|---|---|---|---|---|---|
| Readerbench/rogpt2-base | GPT2 | 124m | 0.6865 | 0.7963 | 0.9009 | 0.1068 | 52.34 |
| Readerbench/rogpt2-medium | GPT2 | 354m | 0.7123 | 0.7979 | 0.9098 | 0.114 | 31.26 |
HuggingfaceのTransformers Libを使用して、モデルをインスタンス化し、必要に応じてモデル名を置き換えます。次に、タスクに応じて適切なモデルヘッドを使用します。ここにいくつかの例があります:
from transformers import AutoTokenizer , AutoModel
import torch
# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )
# get encoding
last_hidden_states = outputs [ 0 ] # The last hidden-state is the first element of the output tuple text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")
生成モデルにプロンプトを与えて、それを書かせてください。
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )
text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )
print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))PSここですべての生成モデルをテストできます:https://huggingface.co/spaces/dumitrescustefan/romanian-text-generation