QuBERT
QuBERT - BPE_guide - Normalized Data
Calloberta是Quechua的基於羅伯塔的語言模型。我們的語言模型是通過Quechua Southern(Collao和Chanka)的文字預先提出的。
| 模塊 | 釋放 |
|---|---|
| 卡爾伯塔 | config.json,pytorch_model.bin |
| 令牌 | Merges.txt,vocab.json |
該模型使用一個字節級的BPE令牌,並帶有52000個子Palabras代幣詞彙。
一旦放出了上面的重量和令牌,就必須將其連接到單個文件夾中,在這種情況下, LlamaRoBERTa 。
from transformers import pipeline
fill_mask = pipeline (
"fill-mask" ,
model = "./LlamaRoBERTa" ,
tokenizer = "./LlamaRoBERTa"
)該測試已完成,這是改進的階段。
fill_mask ( "allinllachu <mask> allinlla huk wasipita." ) [{'score': 0.23992203176021576,
'sequence': 'allinllachu nisqaqa allinlla huk wasipita.',
'token': 334,
'token_str': ' nisqaqa'},
{'score': 0.061005301773548126,
'sequence': 'allinllachu, allinlla huk wasipita.',
'token': 16,
'token_str': ','},
{'score': 0.028720015659928322,
'sequence': "allinllachu' allinlla huk wasipita.",
'token': 11,
'token_str': "'"},
{'score': 0.012927944771945477,
'sequence': 'allinllachu kay allinlla huk wasipita.',
'token': 377,
'token_str': ' kay'},
{'score': 0.01230092253535986,
'sequence': 'allinllachu. allinlla huk wasipita.',
'token': 18,
'token_str': '.'}]