Download greek bert - Download de código fonte greek bert

greek bert

Código-Fonte de IA

1.0.0

Baixar

Greekbert

Uma edição grega do modelo de idioma pré-treinado Bert do Google.

Corpora pré-treinamento

Os corpora pré-treinamento de bert-base-greek-uncased-v1 incluem:

A parte grega da Wikipedia,
A parte grega do Parlamento Europeu do Parlamento Paralela corpus e
A parte grega do Oscar, uma versão limpa do rastreamento comum.

O lançamento futuro também incluirá:

Todo o corpus da legislação grega, como publicado pelo National Publication Office,
Todo o corpus da legislação da UE (tradução grega), como publicado em Eur-Lex.

Detalhes pré-treinamento

Treinamos o BERT usando o código oficial fornecido no repositório do Google Bert (https://github.com/google-research/bert).
Lançamos um modelo semelhante ao modelo inglesa bert-base-uncased (12 camadas, 768 parâmetros de 12 cabeças, 110m).
Optamos por seguir a mesma configuração de treinamento: 1 milhão de etapas de treinamento com lotes de 256 sequências de comprimento 512 com uma taxa de aprendizado inicial 1E-4.
Conseguimos usar um único Google Cloud TPU V3-8, fornecido gratuitamente na Tensorflow Research Cloud (TFRC), além de utilizar créditos de pesquisa do GCP. Agradecimentos enormes aos dois programas do Google por nos apoiarem!

Requisitos

Publicamos bert-base-greek-uncased-v1 como parte do repositório de Transformers do Abraçando o rosto. Portanto, você precisa instalar a biblioteca Transfomers através do PIP junto com Pytorch ou Tensorflow 2.

 pip install unicodedata
pip install transfomers
pip install (torch|tensorflow)

Texto pré -processo (Deaccent - inferior)

Para usar bert-base-greek-uncased-v1 , você precisa pré-processar textos para baixar letras e remover todos os diacríticos gregos.

 import unicodedata

def strip_accents_and_lowercase ( s ):
   return '' . join ( c for c in unicodedata . normalize ( 'NFD' , s )
                  if unicodedata . category ( c ) != 'Mn' ). lower ()

accented_string = "Αυτή είναι η Ελληνική έκδοση του BERT."
unaccented_string = strip_accents_and_lowercase ( accented_string )

print ( unaccented_string ) # αυτη ειναι η ελληνικη εκδοση του bert.

Carregar o modelo pré -terenciado

 from transformers import AutoTokenizer , AutoModel

tokenizer = AutoTokenizer . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )
model = AutoModel . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )

Use o modelo pré -terenciado como um modelo de idioma

 import torch
from transformers import *

# Load model and tokenizer
tokenizer_greek = AutoTokenizer . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )
lm_model_greek = AutoModelWithLMHead . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )

# ================ EXAMPLE 1 ================
text_1 = 'O ποιητής έγραψε ένα [MASK] .'
# EN: 'The poet wrote a [MASK].'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'o', 'ποιητης', 'εγραψε', 'ενα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 5 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "song"

# ================ EXAMPLE 2 ================
text_2 = 'Είναι ένας [MASK] άνθρωπος.'
# EN: 'He is a [MASK] person.'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 3 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "good"

# ================ EXAMPLE 3 ================
text_3 = 'Είναι ένας [MASK] άνθρωπος και κάνει συχνά [MASK].'
# EN: 'He is a [MASK] person he does frequently [MASK].'
input_ids = tokenizer_greek . encode ( text_3 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', 'και', 'κανει', 'συχνα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 8 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for the second [MASK] is "trips"

Avaliação sobre tarefas a jusante

TBA

Autor

Ilias Chalkidis em nome do grupo de processamento de linguagem natural de Aeb

| Github: @ilias.chalkidis | Twitter: @KidDothe2b |

Sobre nós

O grupo de processamento de linguagem natural da AUBE desenvolve algoritmos, modelos e sistemas que permitem aos computadores processar e gerar textos de linguagem natural.

Os interesses atuais de pesquisa do grupo incluem:

Sistemas de resposta a perguntas para bancos de dados, ontologias, coleções de documentos e a Web, especialmente a resposta de perguntas biomédicas,
Geração de linguagem natural a partir de bancos de dados e ontologias, especialmente ontologias semânticas da web, classificação de texto, incluindo spam de filtragem e conteúdo abusivo,
Extração de informações e mineração de opinião, incluindo análise de texto legal e análise de sentimentos,
Ferramentas de processamento de linguagem natural para o grego, por exemplo, analisadores e reconhecedores de entidades nomeadas, aprendizado de máquina no processamento de linguagem natural, especialmente aprendizado profundo.

O grupo faz parte do Laboratório de Processamento de Informações do Departamento de Informática da Universidade de Economia e Negócios de Atenas.

Expandir

Informações adicionais