greek bert - Descargar el código fuente greek bert

greek bert

Código Fuente de IA

1.0.0

Descargar

Griego

Una edición griega del modelo de lenguaje pre-entrenado Bert de Google.

Corpus para capacitar

Los corporativos previos a la capacitación de bert-base-greek-uncased-v1 incluyen:

La parte griega de Wikipedia,
La parte griega de los procedimientos del parlamento europeo corpus paralelo, y
La parte griega de Oscar, una versión limpia de Common Crawl.

El lanzamiento futuro también incluirá:

Todo el corpus de la legislación griega, publicado por la Oficina Nacional de Publicación,
Todo el corpus de la legislación de la UE (traducción griega), como se publicó en EUR-LEX.

Detalles previos al entrenamiento

Entrenamos a Bert utilizando el código oficial proporcionado en el repositorio GitHub de Google Bert (https://github.com/google-research/bert).
Lanzamos un modelo similar al modelo inglés bert-base-uncased (12 capas, 768 escondidas, 12 cabezas, parámetros de 110 m).
Elegimos seguir la misma configuración de entrenamiento: 1 millón de pasos de entrenamiento con lotes de 256 secuencias de longitud 512 con una tasa de aprendizaje inicial 1E-4.
Pudimos usar una sola TPU de Google Cloud V3-8 proporcionada de forma gratuita de TensorFlow Research Cloud (TFRC), al tiempo que utilizan créditos de investigación de GCP. ¡Muchas gracias a ambos programas de Google por apoyarnos!

Requisitos

Publicamos bert-base-greek-uncased-v1 como parte del repositorio de Transformers de Hugging Face. Por lo tanto, debe instalar la biblioteca de transfomeros a través de PIP junto con Pytorch o TensorFlow 2.

 pip install unicodedata
pip install transfomers
pip install (torch|tensorflow)

Texto de preprocesos (Deaccent - Inferior)

Para utilizar bert-base-greek-uncased-v1 , debe preprocesar los textos para letras minúsculas y eliminar todos los diacríticos griegos.

 import unicodedata

def strip_accents_and_lowercase ( s ):
   return '' . join ( c for c in unicodedata . normalize ( 'NFD' , s )
                  if unicodedata . category ( c ) != 'Mn' ). lower ()

accented_string = "Αυτή είναι η Ελληνική έκδοση του BERT."
unaccented_string = strip_accents_and_lowercase ( accented_string )

print ( unaccented_string ) # αυτη ειναι η ελληνικη εκδοση του bert.

Modelo de carga previa

 from transformers import AutoTokenizer , AutoModel

tokenizer = AutoTokenizer . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )
model = AutoModel . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )

Utilice el modelo previo a la aparición como modelo de lenguaje

 import torch
from transformers import *

# Load model and tokenizer
tokenizer_greek = AutoTokenizer . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )
lm_model_greek = AutoModelWithLMHead . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )

# ================ EXAMPLE 1 ================
text_1 = 'O ποιητής έγραψε ένα [MASK] .'
# EN: 'The poet wrote a [MASK].'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'o', 'ποιητης', 'εγραψε', 'ενα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 5 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "song"

# ================ EXAMPLE 2 ================
text_2 = 'Είναι ένας [MASK] άνθρωπος.'
# EN: 'He is a [MASK] person.'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 3 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "good"

# ================ EXAMPLE 3 ================
text_3 = 'Είναι ένας [MASK] άνθρωπος και κάνει συχνά [MASK].'
# EN: 'He is a [MASK] person he does frequently [MASK].'
input_ids = tokenizer_greek . encode ( text_3 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', 'και', 'κανει', 'συχνα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 8 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for the second [MASK] is "trips"

Evaluación en tareas aguas abajo

TBA

Autor

Ilias chalkidis en nombre del grupo de procesamiento del lenguaje natural de Aueve

| Github: @ilias.Chalkidis | Twitter: @kiddothe2b |

Sobre nosotros

El grupo de procesamiento del lenguaje natural de Auev desarrolla algoritmos, modelos y sistemas que permiten a las computadoras procesar y generar textos del lenguaje natural.

Los intereses de investigación actuales del grupo incluyen:

Sistemas de respuesta de preguntas para bases de datos, ontologías, colecciones de documentos y la web, especialmente la respuesta de las preguntas biomédicas,
Generación del lenguaje natural a partir de bases de datos y ontologías, especialmente ontologías web semánticas, clasificación de texto, incluido el filtrado de spam y contenido abusivo,
extracción de información y minería de opinión, incluidos análisis de texto legal y análisis de sentimientos,
Herramientas de procesamiento del lenguaje natural para griego, por ejemplo, analizadores y reconocedores de la entidad nombrados, aprendizaje automático en el procesamiento del lenguaje natural, especialmente el aprendizaje profundo.

El grupo es parte del Laboratorio de Procesamiento de Información del Departamento de Informática de la Universidad de Economía y Negocios de Atenas.

Expandir

Información adicional