BR BERTo
1.0.0
Modelo de transformador para a língua portuguesa (Brasil PT_BR)
O primeiro modelo treinado (que é um modelo Roberta) pode ser encontrado na página de tags: https://github.com/rdenadai/br-berto/releases/tag/0.1
O modelo completo e mais recente deve ser baixado da página Huggingface : https://huggingface.co/rdenadai/br_berto
Treinado em um corpus de 6_993_330 frases.
Eu sigo o ótimo tutorial da equipe da Huggingface:
Como treinar um novo modelo de idioma do zero usando transformadores e tokenizadores