QuBERT
QuBERT - BPE_guide - Normalized Data
Calloberta adalah model bahasa berbasis Roberta untuk Quechua. Model bahasa kami telah dipertanyakan dengan teks dari Quechua Southern (Collao dan Chanka).
| Modul | Memulangkan |
|---|---|
| Callberta | config.json, pytorch_model.bin |
| Tokenizer | Gabungan.txt, vocab.json |
Model ini menggunakan tokenizer BPE tingkat byte dengan kosakata Token subpalabras 52000.
Setelah bobot dan tokenizer di bagian di atas dikeluarkan, perlu untuk memasangnya dalam satu folder, dalam hal ini LlamaRoBERTa .
from transformers import pipeline
fill_mask = pipeline (
"fill-mask" ,
model = "./LlamaRoBERTa" ,
tokenizer = "./LlamaRoBERTa"
)Tes dilakukan, yang merupakan fase perbaikan.
fill_mask ( "allinllachu <mask> allinlla huk wasipita." ) [{'score': 0.23992203176021576,
'sequence': 'allinllachu nisqaqa allinlla huk wasipita.',
'token': 334,
'token_str': ' nisqaqa'},
{'score': 0.061005301773548126,
'sequence': 'allinllachu, allinlla huk wasipita.',
'token': 16,
'token_str': ','},
{'score': 0.028720015659928322,
'sequence': "allinllachu' allinlla huk wasipita.",
'token': 11,
'token_str': "'"},
{'score': 0.012927944771945477,
'sequence': 'allinllachu kay allinlla huk wasipita.',
'token': 377,
'token_str': ' kay'},
{'score': 0.01230092253535986,
'sequence': 'allinllachu. allinlla huk wasipita.',
'token': 18,
'token_str': '.'}]