Descarga Romanian Transformers - Descarga del código fuente Romanian Transformers

Romanian Transformers

Código Fuente de IA

1.0.0

Descargar

Transformadores rumanos

Este repositorio se entiende como un espacio para centralizar los transformadores rumanos y proporcionar una evaluación uniforme. Las contribuciones son bienvenidas.

Estamos usando Transformers Lib de Huggingface, una herramienta increíble para NLP. ¿Qué es Bert que preguntas? Aquí hay un artículo claro y condensado sobre lo que es Bert y lo que puede hacer. También vea este resumen de diferentes modelos de transformadores.

Lo que sigue es la lista de modelos de transformadores rumanos, tanto modelos de lenguaje enmascarados como condicionales.

¡No dude en abrir un problema y agregar su modelo/evaluación aquí!

Modelos de idiomas enmascarados (MLM)

Modelo	Tipo	Tamaño	Artículo/cita/fuente	Pre-entrenado / ajustado	Fecha de lanzamiento
Dumitrescustefan/Bert-Base-Romanian-Cased-V1	Bert	124m	PDF / citar	Pre-entrenado	Abr, 2020
Dumitrescustefan/Bert-Base-Romanian-Oncoed-V1	Bert	124m	PDF / citar	Pre-entrenado	Abr, 2020
Racai/Distillbert-Base-Romanian-Cased	Distilbert	81m	-	Pre-entrenado	Abr, 2021
ReaderBench/Robert-Small	Bert	19m	Pdf	Pre-entrenado	Mayo de 2021
ReaderBench/Robert-Base	Bert	114m	Pdf	Pre-entrenado	Mayo de 2021
ReaderBench/Robert-Large	Bert	341m	Pdf	Pre-entrenado	Mayo de 2021
Dumitrescustefan/Bert-Base-Romanian-Ner	Bert	124m	Espacio HF	Reconocimiento de entidad nombrado en Ronecv2	Enero de 2022
Snisioi/bert-legal-romanian-caded-v1	Bert	124m	-	Documentos legales en Marcellv2	Enero de 2022
Readerbench/Jurbert-Base	Bert	111m	Pdf	Documentos legales	Oct, 2021
ReaderBench/Jurbert-Large	Bert	337m	Pdf	Documentos legales	Oct, 2021

Modelos de lenguaje generativo (CLMS)

Modelo	Tipo	Tamaño	Artículo/cita/fuente	Pre-entrenado / ajustado	Fecha de lanzamiento
Dumitrescustefan/GPT-Neo-Romanian-780m	Gpt-neo	780m	aún no / espacio HF	Pre-entrenado	Sep, 2022
ReaderBench/Rogpt2-Base	GPT2	124m	Pdf	Pre-entrenado	Jul, 2021
ReaderBench/Rogpt2-Medio	GPT2	354m	Pdf	Pre-entrenado	Jul, 2021
ReaderBench/Rogpt2-Large	GPT2	774m	Pdf	Pre-entrenado	Jul, 2021

NUEVO: Echa un vistazo a este espacio HF para jugar con modelos generativos rumanos: https://huggingface.co/spaces/dumitritescustefan/romanian-text-generation

Evaluación del modelo

Los modelos se evalúan utilizando el script público de Colab disponible aquí. Todos los resultados informados son la puntuación promedio de 5 corridas, utilizando los mismos parámetros. Para modelos más grandes, si era posible, se simuló un tamaño de lote más grande por gradientes acumulados, de modo que todos los modelos deberían tener el mismo tamaño de lote efectivo. Solo se evalúan los modelos estándar (no finales para una tarea en particular) y que podrían caber en 16 GB de RAM.

Las pruebas cubren los siguientes campos y, para la brevedad, seleccionamos una sola métrica de cada campo:

Reconocimiento de la entidad nombrada : en Ronecv2 medimos la prueba de coincidencia estricta de prueba. Un modelo debe detectar correctamente si una palabra es una entidad y etiquetarla con su clase correcta.
Parte del etiquetado del habla : en Ro-Pos-Tagger medimos la puntuación de prueba UPOS F1. Esta prueba debería revelar qué tan bien un modelo comprende la estructura del lenguaje.
Similitud textual semántica : en RO-STS medimos el coeficiente de correlación de Pearson Pearson. Dadas dos oraciones, el modelo debe predecir si están implicados, contradictorios o están en diferentes sujetos (neutrales). Esta prueba debe resaltar qué tan bien un modelo puede incorporar el significado de una oración.
Detección de emociones : en la detección de emociones REDV2 en tweets rumanos, medimos la pérdida de testigo en el entorno de clasificación ( más bajo es mejor ). Esta prueba debe mostrar qué tan bien un modelo puede "comprender" las emociones de textos cortos.
Perplejidad : en la división de pruebas de Wiki-Ro, medimos la perplejidad de los modelos solo de CLM con un paso de 512 y un tamaño por lotes de 4.

Evaluación del modelo MLM

Modelo	Tipo	Tamaño	Ner/em_strict	Rosts/Pearson	Ro-Pos-Tagger/Upos F1	Redv2/hamming_loss
Dumitrescustefan/Bert-Base-Romanian-Cased-V1	Bert	124m	0.8815	0.7966	0.982	0.1039
Dumitrescustefan/Bert-Base-Romanian-Oncoed-V1	Bert	124m	0.8572	0.8149	0.9826	0.1038
Racai/Distillbert-Base-Romanian-Cased	Distilbert	81m	0.8573	0.7285	0.9637	0.1119
ReaderBench/Robert-Small	Bert	19m	0.8512	0.7827	0.9794	0.1085
ReaderBench/Robert-Base	Bert	114m	0.8768	0.8102	0.9819	0.1041

Evaluación del modelo CLM

Modelo	Tipo	Tamaño	Ner/em_strict	Rosts/Pearson	Ro-Pos-Tagger/Upos F1	Redv2/hamming_loss	Perplejidad
ReaderBench/Rogpt2-Base	GPT2	124m	0.6865	0.7963	0.9009	0.1068	52.34
ReaderBench/Rogpt2-Medio	GPT2	354m	0.7123	0.7979	0.9098	0.114	31.26

Lo que puedes hacer con estos modelos

Usando Transformers LIB de Huggingface, instanciar un modelo y reemplazar el nombre del modelo según sea necesario. Luego use un cabezal de modelo apropiado dependiendo de su tarea. Aquí hay algunos ejemplos:

Obtener incrustaciones de token

 from transformers import AutoTokenizer , AutoModel
import torch

# load tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )
model = AutoModel . from_pretrained ( "dumitrescustefan/bert-base-romanian-cased-v1" )

# tokenize a sentence and run through the model
input_ids = tokenizer . encode ( "Acesta este un test." , add_special_tokens = True , return_tensors = "pt" )
outputs = model ( input_ids )

# get encoding
last_hidden_states = outputs [ 0 ]  # The last hidden-state is the first element of the output tuple

Para los modelos DumitRescustefan/* , recuerde corregir los diacríticos ș/ț antes de alimentarlo al modelo (solo se entrenó con los diacríticos correctos de estilo coma, y verá el cedilla ş una ţ como unks y, por lo tanto, disminuyó el rendimiento general):

 text = text.replace("ţ", "ț").replace("ş", "ș").replace("Ţ", "Ț").replace("Ş", "Ș")

Escribir texto con modelos generativos

Dé un aviso a un modelo generativo y déjelo escribir:

 tokenizer = AutoTokenizer . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )
model = AutoModelForCausalLM . from_pretrained ( "dumitrescustefan/gpt-neo-romanian-125m" )

input_ids = tokenizer . encode ( "Cine a fost Mihai Eminescu? A fost" , return_tensors = 'pt' )

text = model . generate ( input_ids , max_length = 128 , do_sample = True , no_repeat_ngram_size = 2 , top_k = 50 , top_p = 0.9 , early_stopping = True )

print ( tokenizer . decode ( text [ 0 ], skip_special_tokens = True ))

PD puede probar todos los modelos generativos aquí: https://huggingface.co/spaces/dumitritrescustefan/romanian-text-generation

Nota final

Si bien este repositorio inicialmente comenzó como un modelo de transformador único en 2020, con la esperanza expresa de que se agregarían más modelos rápidamente, resultó que capacitar a un buen modelo no es tan fácil, y se necesita mucho esfuerzo para curar los datos y luego tener acceso a suficiente poder de cómputo. Por lo tanto, creo que ya no es útil enumerar un par de modelos, y tendría un mayor impacto enumerar todos los modelos que podría encontrar que son solo rumanos y tienen un nivel mínimo de rendimiento/documentación. Aquí tienes :)
Este repositorio contenía algún código para descargar y limpiar un corpus rumano. He eliminado esta parte ya que Oscar ahora se ofrece en Huggingface (nueva versión), y la API de Opus ya no funciona como debería (ahora se requiere un filtrado manual, sin mencionar que los nuevos recursos se agregan constantemente), así que no es realmente factible mantener este código.
Contribuya a este repositorio con nuevos modelos rumanos que encuentre, o con citas o actualizaciones a los modelos existentes.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-10
tamaño 6.16KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Transformers: Guerra por Cybertron

2022-08-19
Transformadores: De

2022-08-18
Transformers El ascenso de la chispa oscura

2022-08-17

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo