Romanian Transformersダウンロード - Romanian Transformersソースコードのダウンロード

Romanian Transformers

AI ソースコード

1.0.0

ダウンロード

ルーマニアの変圧器

このレポは、ルーマニアの変圧器を集中化し、均一な評価を提供するスペースとして意図されています。貢献は大歓迎です。

NLPの素晴らしいツールであるHuggingfaceのトランスフォーマーLIBを使用しています。あなたが尋ねるバートとは何ですか？これは、バートが何であり、何ができるかについての明確で凝縮された記事です。また、さまざまなトランスモデルのこの要約をご覧ください。

以下は、マスクされた言語モデルと条件付き言語モデルの両方のルーマニアトランスモデルのリストです。

お気軽に問題を開いて、ここでモデル/評価を追加してください！

マスクされた言語モデル（MLMS）

モデル	タイプ	サイズ	記事/引用/ソース	事前に訓練された /微調整	発売日
DumitRescustefan/Bert-Base-Romanian-Cased-V1	バート	124m	PDF /引用	事前に訓練されています	2020年4月
DumitRescustefan/Bert-Base-Romanian-Uncased-V1	バート	124m	PDF /引用	事前に訓練されています	2020年4月
Racai/Distillbert-Base-Romanian-Cased	Distilbert	81m	-	事前に訓練されています	2021年4月
Readerbench/Robert-Small	バート	19m	PDF	事前に訓練されています	5月、2021年
ReaderBench/Robert-Base	バート	114m	PDF	事前に訓練されています	5月、2021年
ReaderBench/Robert-Large	バート	341m	PDF	事前に訓練されています	5月、2021年
dumitrescustefan/bert-base-romanian-ner	バート	124m	HFスペース	Ronecv2の名前付きエンティティ認識	2022年1月
Snisioi/Bert-Legal-Romanian-Cased-V1	バート	124m	-	marcellv2に関する法的文書	2022年1月
ReaderBench/Jurbert-Base	バート	111m	PDF	法的文書	2021年10月
ReaderBench/Jurbert-Large	バート	337m	PDF	法的文書	2021年10月

生成言語モデル（CLM）

モデル	タイプ	サイズ	記事/引用/ソース	事前に訓練された /微調整	発売日
dumitrescustefan/gpt-neo-romanian-780m	gpt-neo	780m	まだ / hfスペース	事前に訓練されています	9月、2022年
Readerbench/rogpt2-base	GPT2	124m	PDF	事前に訓練されています	2021年7月
Readerbench/rogpt2-medium	GPT2	354m	PDF	事前に訓練されています	2021年7月
Readerbench/rogpt2-large	GPT2	774m	PDF	事前に訓練されています	2021年7月

新しい：ルーマニアの生成モデルで遊ぶこのHFスペースをチェックしてください：https：//huggingface.co/spaces/dumitrescustefan/romanian-text-generation

モデル評価

モデルは、ここで入手可能なパブリックコラブスクリプトを使用して評価されます。報告されたすべての結果は、同じパラメーターを使用して5回の平均スコアです。より大きなモデルの場合、可能であれば、すべてのモデルが同じ有効なバッチサイズを持つように、より大きなバッチサイズを蓄積することによってシミュレートされました。標準モデルのみ（特定のタスクでは微調整されていません）と16GBのRAMに収まる可能性があります。

テストは次のフィールドをカバーし、簡潔にするために、各フィールドから単一のメトリックを選択します。

名前付きエンティティ認識：Ronecv2では、テストの厳密な一致測定値を測定します。モデルは、単語がエンティティであるかどうかを正しく検出し、正しいクラスでタグ付けする必要があります。
音声タグ付けの一部：RO-POS-Taggerでは、テストUPOS F1スコアを測定します。このテストは、モデルが言語の構造をどれだけよく理解しているかを明らかにするはずです。
セマンティックテキストの類似性：RO-STSでは、テストピアソン相関係数を測定します。 2つの文章を考慮して、モデルは、それらが伴うか、矛盾しているか、異なる被験者であるかを予測する必要があります（ニュートラル）。このテストでは、モデルが文の意味をどれだけうまく埋め込むことができるかを強調する必要があります。
感情検出：ルーマニアのツイートでのRedv2感情検出では、分類設定でのテストハミング損失を測定します（低い方が優れています）。このテストでは、モデルが短いテキストから感情をどの程度よく「理解」できるかを示すはずです。
困惑：Wiki-Roのテスト分割では、CLMのみのモデルの困惑を測定し、512のストライドとバッチサイズ4を測定します。

MLMモデル評価

モデル	タイプ	サイズ	ner/em_strict	Rosts/Pearson	ro-pos-tagger/upos F1	redv2/hamming_loss
DumitRescustefan/Bert-Base-Romanian-Cased-V1	バート	124m	0.8815	0.7966	0.982	0.1039
DumitRescustefan/Bert-Base-Romanian-Uncased-V1	バート	124m	0.8572	0.8149	0.9826	0.1038
Racai/Distillbert-Base-Romanian-Cased	Distilbert	81m	0.8573	0.7285	0.9637	0.1119
Readerbench/Robert-Small	バート	19m	0.8512	0.7827	0.9794	0.1085
ReaderBench/Robert-Base	バート	114m	0.8768	0.8102	0.9819	0.1041

CLMモデルの評価

モデル	タイプ	サイズ	ner/em_strict	Rosts/Pearson	ro-pos-tagger/upos F1	redv2/hamming_loss	困惑
Readerbench/rogpt2-base	GPT2	124m	0.6865	0.7963	0.9009	0.1068	52.34
Readerbench/rogpt2-medium	GPT2	354m	0.7123	0.7979	0.9098	0.114	31.26

これらのモデルでできること

HuggingfaceのTransformers Libを使用して、モデルをインスタンス化し、必要に応じてモデル名を置き換えます。次に、タスクに応じて適切なモデルヘッドを使用します。ここにいくつかの例があります：

トークンの埋め込みを取得します

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

Dumitrescustefan/*モデルの場合、モデルに供給する前にș/țディクリティックスを修正することを忘れないでください（正しいカンマスタイルのディークリティクスでのみ訓練され、セディラシェアをUnksとして、したがって全体的なパフォーマンスを減らすことができます）：

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

生成モデルを使用してテキストを作成します

生成モデルにプロンプトを与えて、それを書かせてください。

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

PSここですべての生成モデルをテストできます：https：//huggingface.co/spaces/dumitrescustefan/romanian-text-generation

最終メモ

このレポは当初、2020年に単一のトランスモデルの詳細として始まりましたが、より多くのモデルが迅速に追加されることを期待していますが、良いモデルをトレーニングするのはそれほど簡単ではなく、データをキュレートして十分な計算電力にアクセスするには多くの努力が必要であることが判明しました。そのため、いくつかのモデルをリストするだけでももはや役に立たないと感じており、ルーマニアのみのモデルをすべてリストし、パフォーマンス/ドキュメントのレベルを最小限に抑えることができます。どうぞ：）
このレポは、ルーマニアのコーパスをダウンロードしてクリーニングするためのいくつかのコードが含まれていました。オスカーがHuggingface（新しいバージョン）で提供されているため、この部分を削除しました（新しいバージョン）、OpusのAPIは機能するように機能しなくなりました（新しいリソースが絶えず追加されていることは言うまでもありません）。したがって、このコードを維持することは実際には実現できません。
このレポは、あなたが見つけた新しいルーマニアのモデル、または既存のモデルの引用や更新で貢献してください。

拡大する

追加情報