Descargar electra_pytorch - Descargar el código fuente de electra

electra_pytorch

Otro código fuente

1.0.0

Descargar

Implementación no oficial de Pytorch de

Electra: codificadores de texto previos al entrenamiento como discriminadores en lugar de generadores de Kevin Clark. Minh-Thang Luong. Quoc V. LE. Christopher D. Manning

※ Para actualizaciones y más trabajo en el futuro, siga

Resultados replicados

Pretran el electro-pequeña desde cero y he replicado con éxito los resultados del documento sobre el pegamento.

Modelo	Reajuste salarial	SST	MRPC	Sts	QQP	Mnli	Qnli	RTE	Avg. de avg.
Electro-pala	56.8	88.3	87.4	86.8	88.3	78.9	87.9	68.5	80.36
Electra-Small-Owt (my)	58.72	88.03	86.04	86.16	88.63	80.4	87.45	67.46	80.36

Tabla 1: Resultados en el conjunto de desarrollo de pegamento. El resultado oficial proviene de los resultados esperados. Los puntajes son los puntajes promedio finetos desde el mismo punto de control. (Vea este problema) Mi resultado proviene de previamente un modelo desde cero y Thens tomando un promedio de 10 ejecuciones de finising para cada tarea. Ambos resultados están entrenados en OpenWebText Corpus

Modelo	Reajuste salarial	SST	MRPC	Sts	QQP	Mnli	Qnli	RTE	Avg.
Electra-Small ++	55.6	91.1	84.9	84.6	88.0	81.6	88.3	63.6	79.7
Electra-Small ++ (my)	54.8	91.6	84.6	84.2	88.5	82	89	64.7	79.92

Tabla 2: Resultados en el conjunto de pruebas de pegamento. Mi resultado Finetunes el punto de control preventivo cargado de Huggingface.

Curva de pérdida de capacitación oficial	Mi curva de pérdida de entrenamiento

Tabla 3: Ambos son modelos pequeños entrenados en OpenWebText. El oficial es de aquí. Debe tomar el valor de la pérdida de entrenamiento con un grano de sal, ya que no refleja el rendimiento de las tareas aguas abajo.

Características de esta implementación

No necesita descargar y procesar conjuntos de datos manualmente, el scIRPT cuidan los que se encuentran automáticamente. (Gracias a Huggingface/DataSets y Hugginface/Transformers)
AFAIK, la reimplementación más cercana al original, que se ocupa de muchos detalles fáciles de pasar por alto (descritos a continuación).
AFAIK, el único se valora con éxito replicando los resultados en el documento.
Viene con cuadernos Jupyter, que puede explorar el código e inspeccionar los datos procesados.
No necesita descargar y preprocesar nada por sí mismo, todo lo que necesita es ejecutar el script de entrenamiento.

Más resultados

¿Qué tan estable es el envío de electra?

Significar	Std	Máximo	Mínimo	#modelos
81.38	0.57	82.23	80.42	14

Tabel 4: Estadísticas de los resultados de Glue Devset para modelos pequeños. Cada modelo está previamente provocado desde cero con diferentes semillas y Finetuned para 10 ejecuciones aleatorias para cada tarea de pegamento. La puntuación de un modelo es el promedio de los mejores de 10 para cada tarea. (El proceso es lo mismo que el descrito en el documento) como podemos ver, aunque Electra se está burlando de la capacitación de Adeversarial, tiene una buena estabilidad de entrenamiento.

¿Qué tan estable es Electra Fineting on Glue?

Modelo	Reajuste salarial	SST	MRPC	Sts	QQP	Mnli	Qnli	RTE
Electra-Small-Owt (my)	1.30	0.49	0.7	0.29	0.1	0.15	0.33	1.93

Tabla 5: Desviación estándar para cada tarea. Este es el mismo modelo que la Tabla 1, que Finetunes 10 se ejecuta para cada tarea.

Discusión

Publicación del foro de Huggingface
Publicación del foro de Fastai

Uso

Nota: Este proyecto es en realidad para mi investigación personal. Así que no traté de hacer que fuera fácil de usar para todos los usuarios, pero tratando de facilitar la lectura y modificación.

Requisitos de instalación

pip3 install -r requirements.txt

Pasos

python pretrain.py
Establezca pretrained_checkcpoint en finetune.py para usar el punto de control que ha pretrionado y guardado en electra_pytorch/checkpoints/pretrain .
python finetune.py (con do_finetune establecido en True )
Vaya a Neptuno, elija la mejor ejecución de 10 ejecuciones para cada tarea y configure th_runs en finetune.py de acuerdo con los números en los nombres de las ejecuciones que eligió.
python finetune.py (con do_finetune establecido en False ), este OUTPUS predicción en TestSet, puede comprimir y enviar .tsv s en electra_pytorch/test_outputs/<group_name>/*.tsv para el sitio de pegamento para obtener la puntuación de prueba.

Notas

No utilicé argumentos CLI, así que configure las opciones adjuntas dentro de MyConfig en los archivos de Python a sus necesidades antes de ejecutarlas. (Hay comentarios a continuación que muestran las opciones para la configuración de vainilla)
Necesitará una cuenta de Neptuno y creará un proyecto de Neptuno en el sitio web para registrar resultados de finete de pegamento. No olvide reemplazar richarddwang/electra-glue con el nombre de su proyecto Neptuno
Los archivos de Python pretrain.py , finetune.py se convierten de Pretrain.ipynb y Finetune_GLUE.ipynb . También puede usar esos cuadernos para explorar la capacitación de electra y la finura.

Detalles avanzados

A continuación enumera los detalles de la implementación/documento original que son fáciles de pasar por alto y me he encargado. Encontré que estos detalles son indispensables para replicar con éxito los resultados del documento.

Mejoramiento

Usando Adam Optimizer sin corrección de polarización (la corrección de sesgo es predeterminada para Adam Optimizer en Pytorch y Fastai)
Hay un error de decaimiento de las tasas de aprendizaje a través de capas en la implementación oficial, de modo que al finchar, LR decae más que las establecidas en el documento. Ver _get_layer_lrs. Vea también este problema.
Usando gradiente de clip
Usar 0 de peso de peso al sintonizar el pegamento
No hizo calentamiento y luego realizó una descomposición lineal, pero las realizan juntos, lo que significa que los calentamientos de la tasa de aprendizaje y las descomposición al mismo tiempo durante la fase de calentamiento. Ver aquí

Proceso de datos

Para el preprocesamiento de los datos de pretra, concatena y trunca las setencias para que se ajusten a la longitud máxima, y deja de estar de acuerdo cuando se trata del final de un documento.
Para el preprocesamiento del preprocesamiento de datos, por casualidad divide el texto en la oración A y la oración B, y también por casualidad cambia la longitud máxima
Para el preprocesamiento de datos del fino, sigue el camino de Bert para truncar la más larga de la oración A y B para que se ajuste a la longitud máxima

Truco

Para las tareas MRPC y STS, aumenta los datos de capacitación agregando los mismos datos de capacitación, pero con la oración cambiada A y B. Esto se llama "Double_unordered" en la implementación oficial.
No enmascaraba oraciones como Bert, dentro de la probabilidad de máscara (15% u otro valor) de tokens, un token tiene un 85% de posibilidades de ser reemplazado por [máscara] y el 15% sigue siendo el mismo, pero no hay posibilidad de ser reemplazado por un token aleatorio.

Parámetro de atado

Incrustos de palabras de entrada y salida del generador e incrustaciones de palabras de entrada del discriminador. Los tres están atados.
Se une no solo los incrustaciones de tipo Word/POS/token, sino también la norma de capa en las capas de incrustación del generador y el discriminador.

Otro

La capa de salida se inicializa mediante la inicialización predeterminada de TensorFlow V1 (es decir, uniforme Xavier)
Uso de Gumbel Softmax para muestrear generaciones de Geneartor como entrada de discriminador
Utiliza un abandono y una capa lineal en la capa de salida para ficlar la fina de pegamento, no lo que usa ElectraClassificationHead .
Todo el modelo público de los puntos de control Electra es en realidad el modelo ++. Ver este problema
El generador de escala de baja por Hidden_Size, número de cabezas de atención y tamaño intermedio, pero no número de capas.

Arquitectura de archivos

Si se envía previamente, finetune y genera resultados de las pruebas. electra_pytorch generará estos para usted.

 project root
|
|── datasets
|   |── glue
|       |── <task>
|       ...
|
|── checkpoints
|   |── pretrain
|   |   |── <base_run_name>_<seed>_<percent>.pth
|   |    ...
|   |
|   |── glue
|       |── <group_name>_<task>_<ith_run>.pth
|       ...
|
|── test_outputs
|   |── <group_name>
|   |   |── CoLA.tsv
|   |   ...
|   | 
|   | ...

Citación

Papel original

 @inproceedings{clark2020electra,
  title = {{ELECTRA}: Pre-training Text Encoders as Discriminators Rather Than Generators},
  author = {Kevin Clark and Minh-Thang Luong and Quoc V. Le and Christopher D. Manning},
  booktitle = {ICLR},
  year = {2020},
  url = {https://openreview.net/pdf?id=r1xMH1BtvB}
}

Esta implementación.

 @misc{electra_pytorch,
  author = {Richard Wang},
  title = {PyTorch implementation of ELECTRA},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/richarddwang/electra_pytorch}}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-16
tamaño 51.92KB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo