greek bert скачать - скачать исходный код greek bert

greek bert

AI Исходный код

1.0.0

Скачать

Грекберт

Греческое издание модели Google Bert, предварительно обученной языком.

Предварительно тренировочная корпорация

Предварительно тренировочная корпорация bert-base-greek-uncased-v1 включает в себя:

Греческая часть Википедии,
Греческая часть европейского парламента. Параллельный корпус, и
Греческая часть Оскара, очищенная версия Common Crawl.

Будущий релиз также будет включать в себя:

Весь корпус греческого законодательства, опубликованный Национальным публикационным управлением,
Весь корпус законодательства ЕС (греческий перевод), как опубликовано в Eur-Lex.

Предварительные детали

Мы обучили Берта, используя официальный код, предоставленный в репозитории Google Bert Github (https://github.com/google-research/bert).
Мы выпустили модель, аналогичную английской модели bert-base-uncased , 12-слойной, 768 скрытой, 12 голов, 110 м).
Мы решили следовать той же учебной установке: 1 миллион обучающих этапов с партиями из 256 последовательностей длины 512 с начальной скоростью обучения 1E-4.
Мы смогли использовать один Google Cloud TPU V3-8, предоставляемый бесплатно от Tensorflow Research Cloud (TFRC), а также использует исследовательские кредиты GCP. Огромное спасибо обе программы Google за поддержку нас!

Требования

Мы опубликовали bert-base-greek-uncased-v1 как часть репозитория Transformers Hugging Face. Таким образом, вам нужно установить библиотеку Transfomers через PIP вместе с Pytorch или TensorFlow 2.

 pip install unicodedata
pip install transfomers
pip install (torch|tensorflow)

Предварительный текст (Deaccent - ниже)

Чтобы использовать bert-base-greek-uncased-v1 , вам необходимо предварительно обработать тексты для строчных букв и удалить все греческие диаклитики.

 import unicodedata

def strip_accents_and_lowercase ( s ):
   return '' . join ( c for c in unicodedata . normalize ( 'NFD' , s )
                  if unicodedata . category ( c ) != 'Mn' ). lower ()

accented_string = "Αυτή είναι η Ελληνική έκδοση του BERT."
unaccented_string = strip_accents_and_lowercase ( accented_string )

print ( unaccented_string ) # αυτη ειναι η ελληνικη εκδοση του bert.

Загрузка предварительно проведена модель

 from transformers import AutoTokenizer , AutoModel

tokenizer = AutoTokenizer . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )
model = AutoModel . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )

Используйте предварительную модель в качестве языковой модели

 import torch
from transformers import *

# Load model and tokenizer
tokenizer_greek = AutoTokenizer . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )
lm_model_greek = AutoModelWithLMHead . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )

# ================ EXAMPLE 1 ================
text_1 = 'O ποιητής έγραψε ένα [MASK] .'
# EN: 'The poet wrote a [MASK].'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'o', 'ποιητης', 'εγραψε', 'ενα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 5 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "song"

# ================ EXAMPLE 2 ================
text_2 = 'Είναι ένας [MASK] άνθρωπος.'
# EN: 'He is a [MASK] person.'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 3 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "good"

# ================ EXAMPLE 3 ================
text_3 = 'Είναι ένας [MASK] άνθρωπος και κάνει συχνά [MASK].'
# EN: 'He is a [MASK] person he does frequently [MASK].'
input_ids = tokenizer_greek . encode ( text_3 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', 'και', 'κανει', 'συχνα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 8 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for the second [MASK] is "trips"

Оценка по нисходящим задачам

ТБА

Автор

Ilias Chalkidis от имени группы обработки естественного языка AUEB

| GitHub: @ilias.chalkidis | Twitter: @Kiddothe2b |

О нас

Группа обработки естественного языка AUEB разрабатывает алгоритмы, модели и системы, которые позволяют компьютерам обрабатывать и генерировать тексты естественного языка.

Текущие исследовательские интересы группы включают:

Системы ответа на вопросы для баз данных, онтологий, коллекций документов и Интернета, особенно биомедицинский ответ на вопрос,
Генерация естественного языка из баз данных и онтологий, особенно онтологии семантической сети, классификация текста, включая фильтрацию спама и оскорбительный контент,
Извлечение информации и добыча мнений, включая анализ юридической текста и анализ настроений,
Инструменты обработки естественного языка для греческого языка, например, анализаторы и признание названных факторов, машинное обучение в обработке естественного языка, особенно глубокое обучение.

Группа является частью лаборатории обработки информации Департамента информатики Афинского университета экономики и бизнеса.

Расширять

Дополнительная информация