QuBERT
QuBERT - BPE_guide - Normalized Data
Caloberta est un modèle de langue basé à Roberta pour Quechua. Notre modèle de langue a été pré-interrogatoire avec du texte de Quechua Southern (Collao et Chanka).
| Module | Décharge |
|---|---|
| Callberta | config.json, pytorch_model.bin |
| Jetons | Merges.txt, vocab.json |
Le modèle utilise un jetons BPE au niveau des octets avec un vocabulaire des jetons de 52000 Subpalabras.
Une fois que les poids et le tokenzer dans la section ci-dessus sont déchargés, il est nécessaire de le fixer dans un seul dossier, dans ce cas, il devait LlamaRoBERTa .
from transformers import pipeline
fill_mask = pipeline (
"fill-mask" ,
model = "./LlamaRoBERTa" ,
tokenizer = "./LlamaRoBERTa"
)Le test est effectué, qui est en phases d'amélioration.
fill_mask ( "allinllachu <mask> allinlla huk wasipita." ) [{'score': 0.23992203176021576,
'sequence': 'allinllachu nisqaqa allinlla huk wasipita.',
'token': 334,
'token_str': ' nisqaqa'},
{'score': 0.061005301773548126,
'sequence': 'allinllachu, allinlla huk wasipita.',
'token': 16,
'token_str': ','},
{'score': 0.028720015659928322,
'sequence': "allinllachu' allinlla huk wasipita.",
'token': 11,
'token_str': "'"},
{'score': 0.012927944771945477,
'sequence': 'allinllachu kay allinlla huk wasipita.',
'token': 377,
'token_str': ' kay'},
{'score': 0.01230092253535986,
'sequence': 'allinllachu. allinlla huk wasipita.',
'token': 18,
'token_str': '.'}]