Download RobBERT - Download de código fonte de RobBERT

RobBERT

Código-Fonte de IA

v2.0

Baixar

Robbert: um modelo de idioma baseado em Roberta holandês

Robbert: Modelo de idioma holandês baseado em Roberta.

Robbert é o modelo Bert holandês de última geração. É um grande modelo de idioma holandês geral pré-treinado que pode ser ajustado em um determinado conjunto de dados para executar qualquer tarefa de classificação, regressão ou margem de token. Como tal, foi usado com sucesso por muitos pesquisadores e profissionais para alcançar o desempenho de última geração para uma ampla gama de tarefas de processamento de linguagem natural holandesa, incluindo:

Detecção de emoções
Análise de sentimentos (resenhas de livros, artigos de notícias*)
Resolução de Coreferência
Nomeado reconhecimento de entidade (Conll, títulos de emprego*, sonar)
Marcação de parte de fala (pequena UD Lassy, CGN)
Previsão de palavras com tiro zero
Detecção de humor
Detecção de cyberbullying
Corrigindo erros de ortografia dt*

e também alcançou resultados excelentes e próximos à SOTA para:

Inferência de linguagem natural*
Classificação de revisão*

* Observe que várias avaliações usam Robbert-V1 e que o segundo e melhorado Robbert-V2 supera esse primeiro modelo em tudo o que testamos

(Observe também que esta lista não é exaustiva. Se você usou Robbert para sua inscrição, estamos felizes em saber sobre isso! Envie -nos um e -mail ou adicione -o a esta lista enviando uma solicitação de tração com a edição!)

Para usar o modelo Robbert usando Transformers Huggingface, use o nome pdelobelle/robbert-v2-dutch-base .

Informações mais aprofundadas sobre Robbert podem ser encontradas em nossa postagem no blog e em nosso artigo.

Índice

Como usar
- Usando Transformers Huggingface (mais fácil)
- Usando Fairseq (mais difícil)
Detalhes técnicos do artigo
- Nossos resultados de avaliação de desempenho
- Análise de sentimentos
- Die/DAT (Resolução de Coreferência)
  - Finetuning em todo o conjunto de dados
  - Finetuning em exemplos de 10k
  - Usando a tarefa de mascaramento de palavras com tiro zero
- Marcação de parte da fala.
- Reconhecimento de entidade nomeado
Detalhes do procedimento de pré-treinamento
Investigando limitações e preconceitos
Como replicar nossos experimentos em papel
- Classificação
  - Análise de sentimentos usando o conjunto de dados de revisão do livro holandês
  - Prever os pronomes holandeses morrem e dat
Nome Origin of Robbert
Créditos e citação

Como usar

Robbert usa a arquitetura e pré-treinamento Roberta, mas com um tokenizador holandês e dados de treinamento. Roberta é o modelo Bert inglês robustamente otimizado, tornando -o ainda mais poderoso que o modelo Bert original. Dada a mesma arquitetura, Robbert pode ser facilmente fino e inferido usando o código para os modelos FineTune Roberta e a maioria dos códigos usados para os modelos Bert, por exemplo, conforme fornecido pela Biblioteca de Transformers do Huggingface.

Robbert pode ser facilmente usado de duas maneiras diferentes, ou seja, usando o código Fairseq Roberta ou usando os Transformers Huggingface

Por padrão, Robbert possui o cabeçalho do modelo de idioma mascarado usado no treinamento. Isso pode ser usado como uma maneira de tiro zero de preencher máscaras nas frases. Ele pode ser testado gratuitamente na API Hosterence Host Hospedy de Robbert de Huggingface. Você também pode criar uma nova cabeça de previsão para sua própria tarefa, usando qualquer um dos Roberta-Runners da Huggingface, seus notebooks de ajuste fino alterando o nome do modelo para pdelobelle/robbert-v2-dutch-base ou usar os regimes originais de treinamento Fairseq Roberta.

Usando Transformers Huggingface (mais fácil)

Você pode fazer o download facilmente do Robbert V2 usando? Transformadores. Use o código a seguir para baixar o modelo básico e o FineTune, ou use um de nossos modelos FinetUned (documentado em nosso site de projeto).

 from transformers import RobertaTokenizer , RobertaForSequenceClassification
tokenizer = RobertaTokenizer . from_pretrained ( "pdelobelle/robbert-v2-dutch-base" )
model = RobertaForSequenceClassification . from_pretrained ( "pdelobelle/robbert-v2-dutch-base" )

Começando com transformers v2.4.0 (ou instalando da fonte), você pode usar o AutoTokenizer e o Automodel. Em seguida, você pode usar a maior parte dos notebooks baseados em Bert da HuggingFace para o Finetuning Robbert no seu tipo de conjunto de dados de idiomas holandês.

Usando Fairseq (mais difícil)

Como alternativa, você também pode usar o Robbert usando o Código de Arquitetura Roberta. Você pode baixar o modelo Fairseq do Robbert V2 aqui: (Robbert-Base, 1,5 GB). Usando model.pt de Robbert, esse método permite que você use todas as outras funcionalidades de Roberta.

Detalhes técnicos do artigo

Nossos resultados de avaliação de desempenho

Todas as experiências são descritas em mais detalhes em nosso artigo, com o código em nosso repositório do GitHub.

Análise de sentimentos

Prevendo se uma revisão é positiva ou negativa usando o conjunto de dados de análises de livros holandeses.

Modelo	Precisão [%]
Ulmfit	93.8
Bertje	93.0
Robbert V2	95.1

Die/DAT (Resolução de Coreferência)

Medimos o quão bem os modelos são capazes de fazer resolução de coreferência prevendo se "morrer" ou "dat" deve ser preenchido em uma frase. Para isso, usamos o Corpus Europarl.

Finetuning em todo o conjunto de dados

Modelo	Precisão [%]	F1 [%]
Linha de base (LSTM)		75.03
Mbert	98.285	98.033
Bertje	98.268	98.014
Robbert V2	99.232	99.121

Finetuning em exemplos de 10k

Também medimos o desempenho usando apenas 10K de treinamento em exemplos. Este experimento ilustra claramente que Robbert supera outros modelos quando há poucos dados disponíveis.

Modelo	Precisão [%]	F1 [%]
Mbert	92.157	90.898
Bertje	93.096	91.279
Robbert V2	97.816	97.514

Usando a tarefa de mascaramento de palavras com tiro zero

Como os modelos BERT são pré-treinados usando a tarefa de mascaramento de palavras, podemos usá-la para prever se "Die" ou "Dat" é mais provável. Este experimento mostra que Robbert internalizou mais informações sobre holandês do que outros modelos.

Modelo	Precisão [%]
Zeror	66.70
Mbert	90.21
Bertje	94.94
Robbert V2	98.75

Marcação de parte da fala.

Usando o conjunto de dados Lassy UD.

Modelo	Precisão [%]
Sapo	91.7
Mbert	96.5
Bertje	96.3
Robbert V2	96.4

Curiosamente, descobrimos que, ao lidar com pequenos conjuntos de dados , o Robbert V2 supera significativamente outros modelos.

Desempenho de Robbert em conjuntos de dados menores

Reconhecimento de entidade nomeado

Usando o script de avaliação Conll 2002.

Modelo	Precisão [%]
Sapo	57.31
Mbert	90.94
Bert-nl	89.7
Bertje	88.3
Robbert V2	89.08

Detalhes do procedimento de pré-treinamento

Robert pré-treinados usando o regime de treinamento de Roberta. Pré-treinamos nosso modelo na seção holandesa do Oscar Corpus, um grande corpus multilíngue que foi obtido pela classificação de idiomas no corpus de rastreamento comum. Este corpus holandês é 39 GB grande, com 6,6 bilhões de palavras espalhadas por 126 milhões de linhas de texto, onde cada linha pode conter várias frases, usando mais dados do que os modelos hutch Bert desenvolvidos simultaneamente.

Robbert compartilha sua arquitetura com o modelo básico de Roberta, que por si só é uma replicação e melhoria sobre Bert. Como Bert, sua arquitetura consiste em 12 camadas de auto-ataque com 12 cabeças com 117 milhões de parâmetros treináveis. Uma diferença com o modelo BERT original se deve à diferente tarefa de pré-treinamento especificada por Roberta, usando apenas a tarefa MLM e não a tarefa NSP. Durante o pré-treinamento, assim prevê apenas quais palavras são mascaradas em certas posições de determinadas frases. O processo de treinamento usa o otimizador Adam com decaimento polinomial da taxa de aprendizado l_r = 10^-6 e um período de aceleração de 1000 iterações, com hyperparameters beta_1 = 0.9 e beta_2 padrão de Roberta = 0,98. Além disso, uma decaimento de peso de 0,1 e um pequeno abandono de 0,1 ajuda a impedir que o modelo exagere.

Robbert foi treinado em um cluster de computação com 4 GPUs NVIDIA P100 por nó, onde o número de nós foi ajustado dinamicamente, mantendo um tamanho fixo em lote de 8192 frases. No máximo 20 nós foram utilizados (por exemplo, 80 GPUs) e a mediana foi de 5 nós. Ao usar o acúmulo de gradiente, o tamanho do lote pode ser definido independentemente do número de GPUs disponíveis, a fim de utilizar o cluster ao máximo. Usando a biblioteca Fairseq, o modelo treinado para duas épocas, que equivale a mais de 16k lotes no total, que levaram cerca de três dias no cluster de computação. Entre os trabalhos de treinamento no cluster de computação, o 2 NVIDIA 1080 TIs também abrangeu algumas atualizações de parâmetros do Robbert V2.

Investigando limitações e preconceitos

No artigo de Robbert, também investigamos possíveis fontes de preconceito em Robbert.

Descobrimos que o modelo de Zeroshot estima a probabilidade de a HIJ (ele) ser maior que Zij (ela) para a maioria das ocupações em frases de modelo branqueado, independentemente da relação de gênero real na realidade.

Desempenho de Robbert em conjuntos de dados menores

Ao aumentar o conjunto de dados de análise de análise de sentimentos do livro holandês do DBRB com o gênero declarado do autor da revisão, descobrimos que críticas altamente positivas escritas por mulheres eram geralmente detectadas com mais precisão por Robbert como positivas do que as escritas por homens.

Desempenho de Robbert em conjuntos de dados menores

Como replicar nossos experimentos em papel

Você pode replicar os experimentos feitos em nosso artigo seguindo as etapas a seguir. Você pode instalar as dependências necessárias os requisitos.txt ou Pipenv:

Instalando as dependências do arquivo requisitos.txt usando pip install -r requirements.txt
Ou instale usando o PipeNV (instale executando pip install pipenv no seu terminal) executando pipenv install .

Classificação

Nesta seção, descrevemos como usar os scripts que fornecemos aos modelos ajustados, que devem ser gerais o suficiente para reutilizar para outras tarefas desejadas de classificação textual.

Análise de sentimentos usando o conjunto de dados de revisão do livro holandês

Faça o download do conjunto de dados de revisão do livro holandês em https://github.com/benjaminvdb/dbrd e salve -o em data/raw/DBRD
Execute src/preprocess_dbrd.py para preparar o conjunto de dados.
Para não ser cego durante o treinamento, recomendamos deixar de lado um pequeno conjunto de avaliações do conjunto de treinamento. Para esta execução src/split_dbrd_training.sh .
Siga os notebooks notebooks/finetune_dbrd.ipynb para finalizar o modelo.

Prever os pronomes holandeses morrem e dat

Nós ajustamos nosso modelo no corpus europarl holandês. Você pode baixá -lo primeiro com:

 cd dataraweuroparl
wget -N 'http://www.statmt.org/europarl/v7/nl-en.tgz'
tar zxvf nl-en.tgz

Como verificação de sanidade, agora você deve ter os seguintes arquivos em sua pasta data/raw/europarl :

 europarl-v7.nl-en.en
europarl-v7.nl-en.nl
nl-en.tgz

Em seguida, você pode executar o pré -processamento com o seguinte script, que preenche o primeiro processo do Europarl Corpus para remover frases sem qualquer dado ou dat . Posteriormente, ele virará o pronome e unirá as duas frases junto com um token <sep> .

 python src/preprocess_diedat.py
. src/preprocess_diedat.sh

NOTA: Você pode monitorar o progresso da primeira etapa de pré -processamento com watch -n 2 wc -l data/europarl-v7.nl-en.nl.sentences . Isso vai demorar um pouco, mas certamente não é necessário usar todas as entradas. Afinal, é por isso que você deseja usar um modelo de idioma pré-treinado. Você pode encerrar o script python a qualquer momento e a segunda etapa usará apenas isso.

Nome Origin of Robbert

A maioria dos modelos semelhantes a Bert tem a palavra Bert em seu nome (por exemplo, Roberta, Albert, Camembert e muitos, muitos outros). Como tal, consultamos nosso modelo recém -treinado usando seu modelo de linguagem mascarada para se nomear <kask> bert usando todos os tipos de instruções, e ele se chamou consistentemente de robert. Achamos que era realmente bastante apropriado, já que Robbert é um nome muito holandês (e, portanto, claramente um modelo de idioma holandês) e, além disso, tem uma alta semelhança com sua arquitetura raiz, a saber, Roberta.

Como "Rob" é uma palavra holandesa para denotar um selo, decidimos desenhar um selo e vesti -lo como Bert da Vila Sésamo para o logotipo do Robbert.

Créditos e citação

Este projeto é criado por Pieter Delobelle, Thomas Winters e Bettina Berendt.

Somos gratos a Liesbeth Allein, por seu trabalho sobre a desambiguação de débitos, Huggingface para o seu pacote de transformadores, o Facebook para o pacote Fairseq e todas as outras pessoas cujo trabalho poderíamos usar.

Lançamos nossos modelos e esse código no MIT.

Se você deseja citar nosso papel ou modelo, pode usar o seguinte código Bibtex:

 @inproceedings{delobelle2020robbert,
    title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
    author = "Delobelle, Pieter  and
      Winters, Thomas  and
      Berendt, Bettina",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
    doi = "10.18653/v1/2020.findings-emnlp.292",
    pages = "3255--3265"
}

Expandir

Informações adicionais

Versão v2.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-09
tamanho 1.02MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos