Download Romanian Transformers - Download de código -fonte Romanian Transformers

Romanian Transformers

Código-Fonte de IA

1.0.0

Baixar

Transformadores romenos

Este repo é um espaço para centralizar transformadores romenos e fornecer uma avaliação uniforme. Contribuições são bem -vindas.

Estamos usando os Transformers Lib da Huggingface, uma ferramenta incrível para a PNL. O que é Bert você pergunta? Aqui está um artigo claro e condensado sobre o que é Bert e o que pode fazer. Confira também este resumo de diferentes modelos de transformadores.

O que se segue é a lista de modelos de transformadores romenos, modelos de linguagem mascarados e condicionais.

Sinta -se à vontade para abrir um problema e adicionar seu modelo/avaliação aqui!

Modelos de linguagem mascarada (MLMS)

Modelo	Tipo	Tamanho	Artigo/citação/fonte	Pré-treinado / ajustado	Data de lançamento
Dumitrescustefan/Bert-Base-Romano-Case-V1	Bert	124m	Pdf / citar	Pré-treinado	Abr, 2020
Dumitrescustefan/Bert-Base-Romano-Baseado-V1	Bert	124m	Pdf / citar	Pré-treinado	Abr, 2020
Racai/Distillbert-Base-Romaniano	Distilbert	81m	-	Pré-treinado	Abril de 2021
Readerbench/Robert-Small	Bert	19m	Pdf	Pré-treinado	Maio de 2021
Readerbench/Robert-Base	Bert	114m	Pdf	Pré-treinado	Maio de 2021
Readerbench/Robert-Large	Bert	341m	Pdf	Pré-treinado	Maio de 2021
Dumitrescustefan/Bert-Base-Romanian-ir	Bert	124m	HF Space	Reconhecimento de entidade nomeado no ronecv2	Jan, 2022
Snisioi/Bert-Legal-Romano-Case-V1	Bert	124m	-	Documentos legais em Marcellv2	Jan, 2022
Readerbench/Jurbert-Base	Bert	111m	Pdf	Documentos legais	Out, 2021
Readerbench/Jurbert-Large	Bert	337m	Pdf	Documentos legais	Out, 2021

Modelos de linguagem generativa (CLMS)

Modelo	Tipo	Tamanho	Artigo/citação/fonte	Pré-treinado / ajustado	Data de lançamento
Dumitrescustefan/Gpt-Neo-Romanian-780m	GPT-Neo	780m	ainda não / hf espaço	Pré-treinado	Set, 2022
Readerbench/ROGPT2-BASE	GPT2	124m	Pdf	Pré-treinado	Jul, 2021
Readerbench/ROGPT2-MEDIUM	GPT2	354m	Pdf	Pré-treinado	Jul, 2021
Readerbench/Rogpt2-Large	GPT2	774m	Pdf	Pré-treinado	Jul, 2021

NOVO: Confira este espaço de HF para brincar com modelos generativos romenos: https://huggingface.co/spaces/dumitrescustefan/Romanian-text-generação

Avaliação do modelo

Os modelos são avaliados usando o script público colab disponível aqui. Todos os resultados relatados são a pontuação média de 5 execuções, usando os mesmos parâmetros. Para modelos maiores, se foi possível, um tamanho maior em lote foi simulado pela acumulação de gradientes, de modo que todos os modelos tenham o mesmo tamanho eficaz do lote. Somente modelos padrão (não finetunados para uma tarefa específica) e que podem se encaixar em 16 GB de RAM são avaliados.

Os testes cobrem os seguintes campos e, para a brevidade, selecionamos uma única métrica de cada campo:

Nomeado de reconhecimento de entidade : no roneCv2, medimos a medida de correspondência estrita do teste. Um modelo deve detectar corretamente se uma palavra é uma entidade e marcar -a com sua classe correta.
Parte da marcação de fala : no ro-poss-tagger, medimos a pontuação do teste UPOS F1. Este teste deve revelar o quão bem um modelo entende a estrutura do idioma.
Similaridade Textual Semântica : No RO-STS, medimos o coeficiente de correlação de Pearson. Dadas duas frases, o modelo deve prever se é implicando, contraditório ou está em diferentes assuntos (neutros). Este teste deve destacar o quão bem um modelo pode incorporar o significado de uma frase.
Detecção de emoções : Sobre a detecção de emoção Redv2 em tweets romenos, medimos a perda de hamming no teste no cenário de classificação ( mais baixo é melhor ). Este teste deve mostrar como um modelo pode "entender" as emoções de textos curtos.
Perplexidade : Na divisão de teste de Wiki-Ro, medimos a perplexidade dos modelos somente CLM com um passo de 512 e um tamanho de lotes de 4.

Avaliação do modelo MLM

Modelo	Tipo	Tamanho	NER/EM_STRITT	ROSts/Pearson	Ro-poss-tagger/ups f1	Redv2/hamming_loss
Dumitrescustefan/Bert-Base-Romano-Case-V1	Bert	124m	0,8815	0,7966	0,982	0.1039
Dumitrescustefan/Bert-Base-Romano-Baseado-V1	Bert	124m	0,8572	0,8149	0,9826	0,1038
Racai/Distillbert-Base-Romaniano	Distilbert	81m	0,8573	0,7285	0,9637	0.1119
Readerbench/Robert-Small	Bert	19m	0,8512	0,7827	0,9794	0,1085
Readerbench/Robert-Base	Bert	114m	0,8768	0.8102	0,9819	0.1041

Avaliação do modelo CLM

Modelo	Tipo	Tamanho	NER/EM_STRITT	ROSts/Pearson	Ro-poss-tagger/ups f1	Redv2/hamming_loss	Perplexidade
Readerbench/ROGPT2-BASE	GPT2	124m	0,6865	0,7963	0,9009	0.1068	52.34
Readerbench/ROGPT2-MEDIUM	GPT2	354m	0,7123	0,7979	0,9098	0,114	31.26

O que você pode fazer com esses modelos

Usando os Transformers da Huggingface, instancie um modelo e substitua o nome do modelo conforme necessário. Em seguida, use uma cabeça de modelo apropriada, dependendo da sua tarefa. Aqui estão alguns exemplos:

Obtenha incorporações de token

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

Para os modelos dumitrescustefan/* , lembre-se de corrigir os diacríticos ș/ț antes de alimentá-lo com o modelo (foi treinado apenas com os diacríticos corretos no estilo de vírgula, e verá a cedilla ţ como ţ como Unks e, assim, diminuirá o desempenho geral):

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

Escreva texto com modelos generativos

Dê um aviso a um modelo generativo e deixe escrever:

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

PS Você pode testar todos os modelos generativos aqui: https://huggingface.co/spaces/dumitrescustefan/Romanian-text-generação

Nota final

Embora esse repositório tenha começado inicialmente como uma profunda e aprofundada um modelo de transformador em 2020, com a esperança expressa de que mais modelos seriam adicionados rapidamente, o treinamento de um bom modelo não é tão fácil e é preciso muito esforço para curar os dados e, em seguida, ter acesso a energia de computação suficiente. Então, sinto que não é mais útil listar apenas alguns modelos, e isso causaria mais impacto em listar todos os modelos que eu poderia encontrar que são somente romeno e teria um nível mínimo de desempenho/documentação. Aqui você vai :)
Este repo continha algum código para baixar e limpar um corpus romeno. Eu removi essa parte como o Oscar agora é oferecido no Huggingface (nova versão), e a API da Opus não está mais funcionando como deveria (agora é necessária alguma filtragem manual, sem mencionar que novos recursos estão sendo adicionados constantemente) - mantendo assim que esse código não é realmente viável.
Contribua com este repositório com os novos modelos romenos que você encontra ou com citações ou atualizações nos modelos existentes.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-10
tamanho 6.16KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Transformers: Guerra por Cybertron

2022-08-19
Transformadores: De

2022-08-18
Transformers: A Ascensão da Centelha Negra

2022-08-17

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos