greek bertダウンロード - greek bertソースコードのダウンロード

greek bert

AI ソースコード

1.0.0

ダウンロード

Greekbert

GoogleのBert Pre-Trained Languageモデルのギリシャ版。

トレーニング前のコーパス

bert-base-greek-uncased-v1の事前トレーニングコーパスには以下が含まれます。

ウィキペディアのギリシャの部分、
欧州議会のギリシャの部分は並行するコーパス、そして
オスカーのギリシャ部分、Common Crawlの清掃バージョン。

将来のリリースには以下も含まれます。

国立出版事務所が発行したギリシャの立法のコーパス全体、
Eur-Exで公開されているように、EU法のコーパス全体（ギリシャ語翻訳）。

トレーニング前の詳細

Google BertのGitHubリポジトリ（https://github.com/google-research/bert）で提供される公式コードを使用してBertをトレーニングしました。
英語のbert-base-uncasedモデル（12層、768人のハンド、12頭、110mパラメーター）に似たモデルをリリースしました。
同じトレーニングのセットアップに従うことを選択しました。最初の学習率1E-4を備えた長さ512の256シーケンスのバッチを使用した100万のトレーニングステップ。
Tensorflow Research Cloud（TFRC）から無料で提供される単一のGoogle Cloud TPU V3-8を使用することができ、GCPの研究クレジットも利用できました。私たちをサポートしてくれたGoogleプログラムの両方に感謝します！

要件

FaceのTransformersリポジトリを抱き締める一環としてbert-base-greek-uncased-v1を公開しました。したがって、PytorchまたはTensorflow 2とともにTransfomersライブラリをPIPからインストールする必要があります。

 pip install unicodedata
pip install transfomers
pip install (torch|tensorflow)

前処理テキスト（deaccent -lower）

bert-base-greek-uncased-v1使用するには、テキストを前処理文字に前処理し、すべてのギリシャ語のディアティックスを削除する必要があります。

 import unicodedata

def strip_accents_and_lowercase ( s ):
   return '' . join ( c for c in unicodedata . normalize ( 'NFD' , s )
                  if unicodedata . category ( c ) != 'Mn' ). lower ()

accented_string = "Αυτή είναι η Ελληνική έκδοση του BERT."
unaccented_string = strip_accents_and_lowercase ( accented_string )

print ( unaccented_string ) # αυτη ειναι η ελληνικη εκδοση του bert.

前提型モデルをロードします

 from transformers import AutoTokenizer , AutoModel

tokenizer = AutoTokenizer . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )
model = AutoModel . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )

前提型モデルを言語モデルとして使用します

 import torch
from transformers import *

# Load model and tokenizer
tokenizer_greek = AutoTokenizer . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )
lm_model_greek = AutoModelWithLMHead . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )

# ================ EXAMPLE 1 ================
text_1 = 'O ποιητής έγραψε ένα [MASK] .'
# EN: 'The poet wrote a [MASK].'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'o', 'ποιητης', 'εγραψε', 'ενα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 5 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "song"

# ================ EXAMPLE 2 ================
text_2 = 'Είναι ένας [MASK] άνθρωπος.'
# EN: 'He is a [MASK] person.'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 3 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "good"

# ================ EXAMPLE 3 ================
text_3 = 'Είναι ένας [MASK] άνθρωπος και κάνει συχνά [MASK].'
# EN: 'He is a [MASK] person he does frequently [MASK].'
input_ids = tokenizer_greek . encode ( text_3 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', 'και', 'κανει', 'συχνα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 8 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for the second [MASK] is "trips"