Téléchargement Romanian Transformers - Téléchargement du code source Romanian Transformers

Romanian Transformers

Code Source AI

1.0.0

Télécharger

Transformers roumains

Ce repo est conçu comme un espace pour centraliser les transformateurs roumains et pour fournir une évaluation uniforme. Les contributions sont les bienvenues.

Nous utilisons Transformers Lib de HuggingFace, un outil génial pour NLP. Que demandez-vous Bert? Voici un article clair et condensé sur ce qu'est Bert et ce qu'il peut faire. Consultez également ce résumé de différents modèles de transformateurs.

Ce qui suit est la liste des modèles de transformateurs roumains, à la fois des modèles de langage masqué et conditionnel.

N'hésitez pas à ouvrir un problème et à ajouter votre modèle / évaluation ici!

Modèles de langage masqué (MLMS)

Modèle	Taper	Taille	Article / citation / source	Pré-formé / affiné	Date de sortie
Dumitrescustefan / Bert-Base-Roumanie-Cased-V1	Bert	124m	Pdf / citer	Pré-formé	Avril 2020
Dumitrescustefan / Bert-Base-Roumanie-Oclélé-V1	Bert	124m	Pdf / citer	Pré-formé	Avril 2020
racai / distillbert-base-romain à base	Distilbert	81m	-	Pré-formé	Avril 2021
ReaderBench / Robert-Small	Bert	19m	Pdf	Pré-formé	Mai 2021
ReaderBench / Robert-base	Bert	114m	Pdf	Pré-formé	Mai 2021
ReaderBench / Robert-Garg	Bert	341m	Pdf	Pré-formé	Mai 2021
Dumitrescustefan / Bert-Base-Roumane-NER	Bert	124m	Espace HF	Reconnaissance de l'entité nommée sur RONECV2	Janvier 2022
SNISIOI / BERT-LEGAL-RUMANIAN-CASTING-V1	Bert	124m	-	Documents juridiques sur Marcellv2	Janvier 2022
ReaderBench / Jurbert-base	Bert	111m	Pdf	Documents juridiques	Octobre 2021
ReaderBench / Jurbert-Garg	Bert	337m	Pdf	Documents juridiques	Octobre 2021

Modèles de langage génératif (CLMS)

Modèle	Taper	Taille	Article / citation / source	Pré-formé / affiné	Date de sortie
Dumitrescustefan / GPT-Neo-Romanian-780m	Gpt-neo	780m	pas encore / hf espace	Pré-formé	Sept. 2022
ReaderBench / Rogpt2-base	Gpt2	124m	Pdf	Pré-formé	Jul, 2021
ReaderBench / Rogpt2-Medium	Gpt2	354m	Pdf	Pré-formé	Jul, 2021
ReaderBench / Rogpt2-Gar	Gpt2	774m	Pdf	Pré-formé	Jul, 2021

NOUVEAU: Découvrez cet espace HF pour jouer avec des modèles génératifs roumains: https://huggingface.co/spaces/dumitrecustefan/romanian-text-generation

Évaluation du modèle

Les modèles sont évalués à l'aide du script Colab public disponible ici. Tous les résultats rapportés sont le score moyen de 5 exécutions, en utilisant les mêmes paramètres. Pour les modèles plus grands, si cela était possible, une taille par lots plus grande a été simulée en accumulant des gradients, de sorte que tous les modèles devraient avoir la même taille de lot efficace. Seuls les modèles standard (non finetunés pour une tâche particulière) et qui pourraient tenir dans 16 Go de RAM sont évalués.

Les tests couvrent les champs suivants et, par concision, nous sélectionnons une seule métrique dans chaque champ:

Reconnaissance de l'entité nommée : Sur RONECV2, nous mesurons la mesure de correspondance stricte du test. Un modèle doit détecter correctement si un mot est une entité et le marquer avec sa classe correcte.
Une partie du marquage de la parole : sur Ro-Pos-Tagger, nous mesurons le score Test Upos F1. Ce test devrait révéler à quel point un modèle comprend la structure du langage.
Similitude textuelle sémantique : Sur les RO-ST, nous mesurons le test du coefficient de corrélation de Pearson. Compte tenu de deux phrases, le modèle doit prédire s'ils sont impliqués, contradictoires ou sont sur des sujets différents (neutre). Ce test devrait mettre en évidence la façon dont un modèle peut intégrer la signification d'une phrase.
Détection des émotions : Sur la détection des émotions Redv2 dans les tweets roumains, nous mesurons la perte de Hamming de test dans le cadre de la classification ( plus bas est meilleur ). Ce test devrait montrer à quel point un modèle peut "comprendre" les émotions à partir de textes courts.
Perplexité : sur la fraction de test de Wiki-Ro, nous mesurons la perplexité des modèles CLM uniquement avec une foulée de 512 et une taille de lot de 4.

Évaluation du modèle MLM

Modèle	Taper	Taille	Ner / em_strict	Rosts / Pearson	Ro-Pos-Tagger / UPOS F1	Redv2 / hamming_loss
Dumitrescustefan / Bert-Base-Roumanie-Cased-V1	Bert	124m	0,8815	0,7966	0,982	0.1039
Dumitrescustefan / Bert-Base-Roumanie-Oclélé-V1	Bert	124m	0,8572	0,8149	0,9826	0.1038
racai / distillbert-base-romain à base	Distilbert	81m	0,8573	0,7285	0,9637	0.1119
ReaderBench / Robert-Small	Bert	19m	0,8512	0,7827	0,9794	0.1085
ReaderBench / Robert-base	Bert	114m	0,8768	0,8102	0.9819	0.1041

Évaluation du modèle CLM

Modèle	Taper	Taille	Ner / em_strict	Rosts / Pearson	Ro-Pos-Tagger / UPOS F1	Redv2 / hamming_loss	Perplexité
ReaderBench / Rogpt2-base	Gpt2	124m	0,6865	0,7963	0.9009	0,1068	52.34
ReaderBench / Rogpt2-Medium	Gpt2	354m	0,7123	0,7979	0,9098	0,114	31.26

Ce que vous pouvez faire avec ces modèles

En utilisant les transformateurs de HuggingFace, Instancier un modèle et remplacez le nom du modèle si nécessaire. Utilisez ensuite une tête de modèle appropriée en fonction de votre tâche. Voici quelques exemples:

Obtenez des intérêts de jeton

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

Pour les modèles DumitreScustefan / * , n'oubliez pas de corriger la diacritique ș / ț avant de l'alimenter au modèle (il n'a été formé qu'avec la diacritique correcte de style virgule, et verra la Cedilla ş an ţ comme lesks et ainsi la diminution des performances globales):

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

Écrire du texte avec des modèles génératifs

Donnez une invite à un modèle génératif et laissez-le écrire:

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

PS Vous pouvez tester tous les modèles génératifs ici: https://huggingface.co/spaces/dumitrecustefan/romanian-text-teneration

Note finale

Bien que ce dépôt ait initialement commencé comme une profondeur d'un modèle de transformateur unique en 2020, avec l'espoir express que davantage de modèles seraient ajoutés rapidement, il s'est avéré que l'entraînement d'un bon modèle n'est pas si simple, et cela demande beaucoup d'efforts pour organiser les données et ensuite avoir accès à une puissance de calcul suffisante. Donc, je pense qu'il n'est plus utile de simplement énumérer quelques modèles, et cela aurait plus d'impact pour énumérer tous les modèles que je pourrais trouver qui sont uniquement roumains et avoir un niveau minimal de performances / documents. Voici :)
Ce dépôt contenait du code pour télécharger et nettoyer un corpus roumain. J'ai supprimé cette partie car Oscar est désormais offerte sur HuggingFace (nouvelle version), et l'API d'Opus ne fonctionne plus comme elle le devrait (un filtrage manuel est désormais nécessaire, sans oublier que de nouvelles ressources sont ajoutées constamment) - le maintien de ce code n'est donc pas vraiment possible.
Veuillez contribuer à ce dépôt avec de nouveaux modèles roumains que vous trouvez, ou avec des citations ou des mises à jour des modèles existants.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-10
taille 6.16KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Transformers : la guerre pour Cybertron

2022-08-19
Transformateurs : De

2022-08-18
Transformers : L'Ascension de l'étincelle sombre

2022-08-17

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout