Téléchargement greek bert - Téléchargement du code source greek bert

greek bert

Code Source AI

1.0.0

Télécharger

Grecbert

Une édition grecque du modèle de langue pré-formé Bert de Google.

Corpus pré-formation

Les corpus pré-formation de bert-base-greek-uncased-v1 comprennent:

La partie grecque de Wikipedia,
La partie grecque de la procédure du Parlement européen corpus parallèle, et
La partie grecque d'Oscar, une version nettoyée de Common Crawl.

La version future comprendra également:

L'ensemble du corpus de la législation grecque, publié par le National Publication Office,
L'ensemble du corpus de la législation de l'UE (traduction grecque), tel que publié dans Eur-flux.

Détails de pré-formation

Nous avons formé Bert en utilisant le code officiel fourni dans le référentiel GitHub de Google Bert (https://github.com/google-research/bert).
Nous avons publié un modèle similaire au modèle anglais bert-base-uncased (paramètres de 120 m).
Nous avons choisi de suivre la même configuration de formation: 1 million d'étapes de formation avec des lots de 256 séquences de longueur 512 avec un taux d'apprentissage initial 1E-4.
Nous avons pu utiliser un seul Google Cloud TPU V3-8 fourni pour TensorFlow Research Cloud (TFRC), tout en utilisant les crédits de recherche GCP. Un grand merci aux deux programmes Google pour nous soutenir!

Exigences

Nous avons publié bert-base-greek-uncased-v1 dans le cadre du référentiel de Transformers de Hugging Face. Vous devez donc installer la bibliothèque des transfomes via PIP avec Pytorch ou TensorFlow 2.

 pip install unicodedata
pip install transfomers
pip install (torch|tensorflow)

Texte de pré-processus (Deaccent - inférieur)

Afin d'utiliser bert-base-greek-uncased-v1 , vous devez pré-traiter des textes pour les lettres minuscules et supprimer toutes les diacritiques grecques.

 import unicodedata

def strip_accents_and_lowercase ( s ):
   return '' . join ( c for c in unicodedata . normalize ( 'NFD' , s )
                  if unicodedata . category ( c ) != 'Mn' ). lower ()

accented_string = "Αυτή είναι η Ελληνική έκδοση του BERT."
unaccented_string = strip_accents_and_lowercase ( accented_string )

print ( unaccented_string ) # αυτη ειναι η ελληνικη εκδοση του bert.

Modèle de charge pré-entraîné

 from transformers import AutoTokenizer , AutoModel

tokenizer = AutoTokenizer . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )
model = AutoModel . from_pretrained ( "nlpaueb/bert-base-greek-uncased-v1" )

Utilisez le modèle pré-entraîné comme modèle de langue

 import torch
from transformers import *

# Load model and tokenizer
tokenizer_greek = AutoTokenizer . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )
lm_model_greek = AutoModelWithLMHead . from_pretrained ( 'nlpaueb/bert-base-greek-uncased-v1' )

# ================ EXAMPLE 1 ================
text_1 = 'O ποιητής έγραψε ένα [MASK] .'
# EN: 'The poet wrote a [MASK].'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'o', 'ποιητης', 'εγραψε', 'ενα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 5 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "song"

# ================ EXAMPLE 2 ================
text_2 = 'Είναι ένας [MASK] άνθρωπος.'
# EN: 'He is a [MASK] person.'
input_ids = tokenizer_greek . encode ( text_1 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 3 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for [MASK] is "good"

# ================ EXAMPLE 3 ================
text_3 = 'Είναι ένας [MASK] άνθρωπος και κάνει συχνά [MASK].'
# EN: 'He is a [MASK] person he does frequently [MASK].'
input_ids = tokenizer_greek . encode ( text_3 )
print ( tokenizer_greek . convert_ids_to_tokens ( input_ids ))
# ['[CLS]', 'ειναι', 'ενας', '[MASK]', 'ανθρωπος', 'και', 'κανει', 'συχνα', '[MASK]', '.', '[SEP]']
outputs = lm_model_greek ( torch . tensor ([ input_ids ]))[ 0 ]
print ( tokenizer_greek . convert_ids_to_tokens ( outputs [ 0 , 8 ]. max ( 0 )[ 1 ]. item ()))
# the most plausible prediction for the second [MASK] is "trips"

Évaluation des tâches en aval

TBA

Auteur

Ilias Chalkidis au nom du groupe de traitement du langage naturel d'Aueb

| Github: @ ilias.chalkidis | Twitter: @ kiddothe2b |

À propos de nous

Le groupe de traitement du langage naturel d'Aueb développe des algorithmes, des modèles et des systèmes qui permettent aux ordinateurs de traiter et de générer des textes de langage naturel.

Les intérêts de recherche actuels du groupe comprennent:

Question répondant aux systèmes pour les bases de données, les ontologies, les collections de documents et le Web, en particulier la réponse aux questions biomédicales,
Génération du langage naturel à partir de bases de données et d'ontologies, en particulier des ontologies Web sémantiques, la classification du texte, y compris le filtrage du spam et du contenu abusif,
Extraction d'informations et exploitation d'opinion, y compris l'analyse juridique de texte et l'analyse des sentiments,
Outils de traitement du langage naturel pour les analyseurs grecs, par exemple et les reconnaissances de l'entité nommée, l'apprentissage automatique dans le traitement du langage naturel, en particulier l'apprentissage en profondeur.

Le groupe fait partie du laboratoire de traitement de l'information du Département d'informatique de l'Université d'Athènes d'économie et d'entreprise.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-10
taille 485.77KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout