Descarga de RobBERT - Descarga del código fuente RobBERT

RobBERT

Código Fuente de IA

v2.0

Descargar

Robbert: un modelo de idioma holandés con sede en Roberta

Robbert: modelo de idioma holandés con sede en Roberta.

Robbert es el modelo de Bert holandés de última generación. Es un gran modelo de lenguaje holandés general previamente entrenado que se puede ajustar en un conjunto de datos determinado para realizar cualquier tarea de clasificación de texto, regresión o etiqueta de token. Como tal, muchos investigadores y profesionales lo han utilizado con éxito para lograr un desempeño de última generación para una amplia gama de tareas de procesamiento del lenguaje natural holandés, que incluyen:

Detección de emociones
Análisis de sentimientos (reseñas de libros, artículos de noticias*)
Resolución de coreferencia
Reconocimiento de entidad nombrado (Conll, títulos de trabajo*, sonar)
Etiquetado de parte de voz (Small UD Lassy, CGN)
Predicción de palabras de disparo cero
Detección de humor
Detección de ciberacoso
Corrección de errores de DT-Spell*

y también logró resultados sobresalientes y cercanos a Sota para:

Inferencia del lenguaje natural*
Clasificación de revisión*

* Tenga en cuenta que varias evaluaciones usan Robbert-V1, y que el segundo y mejorado Robbert-V2 supera a este primer modelo en todo lo que probamos

(Tenga en cuenta que esta lista no es exhaustiva. Si usó Robbert para su solicitud, ¡nos complace saberlo! ¡Envíenos un correo o agréguelo usted mismo a esta lista enviando una solicitud de extracción con la edición!)

Para usar el modelo Robbert utilizando los transformadores Huggingface, use el nombre pdelobelle/robbert-v2-dutch-base .

Se puede encontrar información más detallada sobre Robbert en nuestra publicación de blog y en nuestro artículo.

Tabla de contenido

Cómo usar
- Usar transformadores de Huggingface (más fácil)
- Usando Fairseq (más duro)
Detalles técnicos del documento
- Nuestros resultados de evaluación de desempeño
- Análisis de sentimientos
- Die/DAT (resolución de coreferencia)
  - Fineting en todo el conjunto de datos
  - Finetuning en 10k ejemplos
  - Usando la tarea de enmascaramiento de palabras de mando cero
- Etiquetado de parte de voz.
- Reconocimiento de entidad nombrado
Detalles del procedimiento previo al entrenamiento
Investigar limitaciones y sesgo
Cómo replicar nuestros experimentos en papel
- Clasificación
  - Análisis de sentimientos utilizando el conjunto de datos de revisión del libro holandés
  - Predecir los pronombres holandeses muere y dat
Nombre Origen de Robbert
Créditos y citas

Cómo usar

Robbert utiliza la arquitectura de Roberta y el pre-entrenamiento, pero con un tokenizador holandés y datos de capacitación. Roberta es el modelo de Bert inglés sólido optimizado, lo que lo hace aún más poderoso que el modelo Bert original. Dada esta misma arquitectura, Robbert puede ser fácilmente fingido e inferenciado utilizando el código para Finetune Roberta y la mayoría del código utilizado para los modelos BERT, por ejemplo, según lo proporcionado por Huggingface Transformers Library.

Robbert se puede usar fácilmente de dos maneras diferentes, a saber, utilizando el código Fairseq Roberta o usando Huggingface Transformers

Por defecto, Robbert tiene el cabezal de modelo de lenguaje enmascarado utilizado en la capacitación. Esto se puede usar como una forma de disparo cero para llenar las máscaras en las oraciones. Se puede probar de forma gratuita en la API de inferencia alojada de Robbert de Huggingface. También puede crear un nuevo cabezal de predicción para su propia tarea utilizando cualquiera de los corredores de Roberta de Huggingface, sus cuadernos ajustados cambiando el nombre del modelo a pdelobelle/robbert-v2-dutch-base , o utilizar los regímenes de entrenamiento originales de Fairseq Roberta.

Usar transformadores de Huggingface (más fácil)

¿Puede descargar fácilmente Robbert V2 usando? Transformadores. Use el siguiente código para descargar el modelo base y finetune usted mismo, o use uno de nuestros modelos Finetuned (documentado en nuestro sitio del proyecto).

 from transformers import RobertaTokenizer , RobertaForSequenceClassification
tokenizer = RobertaTokenizer . from_pretrained ( "pdelobelle/robbert-v2-dutch-base" )
model = RobertaForSequenceClassification . from_pretrained ( "pdelobelle/robbert-v2-dutch-base" )

Comenzando con transformers v2.4.0 (o instalando desde la fuente), puede usar AutoTokenizer y Automodel. Luego puede usar la mayoría de los cuadernos con sede en Bert de Huggingface para Finetuning Robbert en su tipo de conjunto de datos de idiomas holandeses.

Usando Fairseq (más duro)

Alternativamente, también puede usar Robbert utilizando el código de arquitectura de Roberta. Puede descargar el modelo FairSeq de Robbert V2 aquí: (Robbert-Base, 1.5 GB). Utilizando Robbert's model.pt , este método le permite usar todas las demás funcionalidades de Roberta.

Detalles técnicos del documento

Nuestros resultados de evaluación de desempeño

Todos los experimentos se describen con más detalle en nuestro documento, con el código en nuestro repositorio de GitHub.

Análisis de sentimientos

Predecir si una revisión es positiva o negativa utilizando el conjunto de datos de revisiones de libros holandeses.

Modelo	Exactitud [%]
Ulmfit	93.8
Bertje	93.0
Robbert V2	95.1

Die/DAT (resolución de coreferencia)

Medimos qué tan bien los modelos pueden hacer una resolución de coreferencia al predecir si "morir" o "dat" debe llenarse en una oración. Para esto, utilizamos el Corpus Europarl.

Fineting en todo el conjunto de datos

Modelo	Exactitud [%]	F1 [%]
Línea de base (LSTM)		75.03
mbert	98.285	98.033
Bertje	98.268	98.014
Robbert V2	99.232	99.121

Finetuning en 10k ejemplos

También medimos el rendimiento utilizando solo 10k ejemplos de entrenamiento. Este experimento ilustra claramente que Robbert supera a otros modelos cuando hay pocos datos disponibles.

Modelo	Exactitud [%]	F1 [%]
mbert	92.157	90.898
Bertje	93.096	91.279
Robbert V2	97.816	97.514

Usando la tarea de enmascaramiento de palabras de mando cero

Dado que los modelos BERT se entrenan previamente utilizando la tarea de enmascaramiento de palabras, podemos usar esto para predecir si "morir" o "dat" es más probable. Este experimento muestra que Robbert ha internalizado más información sobre holandés que otros modelos.

Modelo	Exactitud [%]
Zeror	66.70
mbert	90.21
Bertje	94.94
Robbert V2	98.75

Etiquetado de parte de voz.

Usando el conjunto de datos UD Lassy.

Modelo	Exactitud [%]
Rana	91.7
mbert	96.5
Bertje	96.3
Robbert V2	96.4

Curiosamente, descubrimos que cuando se trata de pequeños conjuntos de datos , Robbert V2 supera significativamente a otros modelos.

El rendimiento de Robbert en conjuntos de datos más pequeños

Reconocimiento de entidad nombrado

Utilizando el script de evaluación de Conll 2002.

Modelo	Exactitud [%]
Rana	57.31
mbert	90.94
Bert-nl	89.7
Bertje	88.3
Robbert V2	89.08

Detalles del procedimiento previo al entrenamiento

Pre-capacitamos Robbert usando el régimen de entrenamiento de Roberta. Pre-capacitamos nuestro modelo en la sección holandesa del Corpus Oscar, un gran corpus multilingüe que se obtuvo por clasificación de idiomas en el Corpus de Crawl Common. Este corpus holandés es de 39 GB grande, con 6.600 millones de palabras repartidas en 126 millones de líneas de texto, donde cada línea podría contener múltiples oraciones, utilizando así más datos que los modelos Bert holandeses desarrollados simultáneamente.

Robbert comparte su arquitectura con el modelo base de Roberta, que es una replicación y una mejora sobre Bert. Al igual que Bert, su arquitectura consta de 12 capas de autoatimiento con 12 cabezas con 117m parámetros capacitables. Una diferencia con el modelo Bert original se debe a la diferente tarea de pre-entrenamiento especificada por Roberta, utilizando solo la tarea MLM y no la tarea NSP. Durante la capacitación previa, solo predice qué palabras están enmascaradas en ciertas posiciones de oraciones dadas. El proceso de entrenamiento utiliza el Optimizador de Adam con desintegración polinomial de la tasa de aprendizaje l_r = 10^-6 y un período de aumento de 1000 iteraciones, con hiperparametros beta_1 = 0.9 y el valor predeterminado de Roberta Beta_2 = 0.98. Además, una descomposición de peso de 0.1 y un pequeño abandono de 0.1 ayuda a evitar que el modelo se sobreajuste.

Robbert fue entrenado en un clúster informático con 4 GPU P100 NVIDIA por nodo, donde el número de nodos se ajustó dinámicamente mientras mantenía un tamaño de lote fijo de 8192 oraciones. En la mayoría de los 20 nodos se usaron (es decir, 80 GPU), y la mediana era de 5 nodos. Al usar la acumulación de gradiente, el tamaño del lote podría establecerse independientemente del número de GPU disponibles, para utilizar al máximo el clúster. Utilizando la biblioteca Fairseq, el modelo entrenó para dos épocas, lo que equivale a más de 16k lotes en total, que tomó aproximadamente tres días en el clúster informático. Entre los trabajos de capacitación en el clúster informático, 2 Nvidia 1080 TI también cubrieron algunas actualizaciones de parámetros para Robbert V2.

Investigar limitaciones y sesgo

En el documento de Robbert, también investigamos posibles fuentes de sesgo en Robbert.

Descubrimos que el modelo de Zeroshot estima que la probabilidad de Hij (él) es más alta que Zij (ella) para la mayoría de las ocupaciones en oraciones de plantilla blanqueadas, independientemente de su relación de género de trabajo real en realidad.

El rendimiento de Robbert en conjuntos de datos más pequeños

Al aumentar el conjunto de datos de análisis de sentimientos del libro holandés DBRB con el género declarado del autor de la revisión, encontramos que las revisiones altamente positivas escritas por las mujeres generalmente fueron detectadas con mayor precisión por Robbert como positivas que las escritas por los hombres.

El rendimiento de Robbert en conjuntos de datos más pequeños

Cómo replicar nuestros experimentos en papel

Puede replicar los experimentos realizados en nuestro artículo siguiendo los siguientes pasos. Puede instalar las dependencias requeridas, ya sea requisitos.txt o pipenv:

Instalación de las dependencias desde el archivo requisitos.txt utilizando pip install -r requirements.txt
O instalar usando Pipenv (instalar ejecutando pip install pipenv en su terminal) ejecutando pipenv install .

Clasificación

En esta sección describimos cómo usar los scripts que proporcionamos para ajustar los modelos, que deberían ser lo suficientemente generales como para reutilizar otras tareas de clasificación textual deseadas.

Análisis de sentimientos utilizando el conjunto de datos de revisión del libro holandés

Descargue el conjunto de datos de revisión del libro holandés de https://github.com/benjaminvdb/dbrd, y guárdelo en data/raw/DBRD
Ejecute src/preprocess_dbrd.py para preparar el conjunto de datos.
Para no ser ciego durante el entrenamiento, recomendamos dejar de lado un pequeño conjunto de evaluación del conjunto de capacitación. Para esta ejecución src/split_dbrd_training.sh .
Siga el notebooks/finetune_dbrd.ipynb para Finetune el modelo.

Predecir los pronombres holandeses muere y dat

Atinamos nuestro modelo en el Corpus Europarl holandés. Puedes descargarlo primero con:

 cd dataraweuroparl
wget -N 'http://www.statmt.org/europarl/v7/nl-en.tgz'
tar zxvf nl-en.tgz

Como verificación de cordura, ahora debe tener los siguientes archivos en su carpeta data/raw/europarl :

 europarl-v7.nl-en.en
europarl-v7.nl-en.nl
nl-en.tgz

Luego puede ejecutar el preprocesamiento con el siguiente script, que llena el primer proceso del Europarl Corpus para eliminar las oraciones sin ningún dado o DAT . Posteriormente, volteará el pronombre y unirá ambas oraciones junto con un token <sep> .

 python src/preprocess_diedat.py
. src/preprocess_diedat.sh

Nota: Puede monitorear el progreso del primer paso de preprocesamiento con watch -n 2 wc -l data/europarl-v7.nl-en.nl.sentences . Esto llevará un tiempo, pero ciertamente no es necesario usar todas las entradas. Después de todo, esta es la razón por la que desea utilizar un modelo de lenguaje previamente capacitado. Puede finalizar el script de Python en cualquier momento y el segundo paso solo los usará.

Nombre Origen de Robbert

La mayoría de los modelos tipo Bert tienen la palabra Bert en su nombre (por ejemplo, Roberta, Albert, Camembert y muchos, muchos otros). Como tal, consultamos nuestro modelo recién entrenado utilizando su modelo de lenguaje enmascarado para nombrarse <mask> Bert usando todo tipo de indicaciones, y se llamó constantemente Robbert. Pensamos que era realmente apropiado, dado que Robbert es un nombre muy holandés (y por lo tanto, claramente un modelo de lenguaje holandés) , y además tiene una alta similitud con su arquitectura raíz, a saber, Roberta.

Dado que "Rob" son palabras holandesas para denotar un sello, decidimos dibujar un sello y vestirlo como Bert de Sesame Street para el logotipo de Robbert.

Créditos y citas

Este proyecto es creado por Pieter Delobelle, Thomas Winters y Bettina Berendt.

Estamos agradecidos con Liesbeth Allein, por su trabajo en desambiguación de di-diatante, Huggingface por su paquete Transformer, Facebook por su paquete Fairseq y todas las demás personas cuyo trabajo podríamos usar.

Lanzamos nuestros modelos y este código en MIT.

Si desea citar nuestro documento o modelo, puede usar el siguiente código Bibtex:

 @inproceedings{delobelle2020robbert,
    title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
    author = "Delobelle, Pieter  and
      Winters, Thomas  and
      Berendt, Bettina",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
    doi = "10.18653/v1/2020.findings-emnlp.292",
    pages = "3255--3265"
}

Expandir

Información adicional

Versión v2.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-09
tamaño 1.02MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo