Descargar GPT2 NewsTitle - Descargar el código fuente GPT2 NewsTitle

GPT2 NewsTitle

Otro código fuente

1.0.0

Descargar

Gpt2-newstitle

Proyecto de generación de títulos de noticias GPT2 con anotaciones súper detalladas

Actualización 02.19.2022

Agregue las páginas de transmisión e implementa una hermosa página sin usar Flask+HTML.
Descripción detallada del documento, consulte que el algoritmo no tiene la parte delantera, también puede crear una interfaz de buen aspecto

Ejecutar el código

 streamlit run app.py
or
streamlit run app.py --server.port your_port

Los detalles se muestran en la figura a continuación:

Actualización 01.02.2021

Recopile datos de Internet, organice y limpie los conjuntos de datos de noticias, como datos de noticias de Tsinghua, datos de noticias de Sogou y algunos datos abstractos de código abierto para crear un conjunto de datos abstractos chino relativamente completo.
Al limpiar el conjunto de datos, solo se realiza una limpieza regular simple. Por ejemplo: limpiar las marcas HTLM, eliminar el exceso de caracteres vacíos, eliminar las marcas de imágenes, etc.
Para obtener información detallada sobre el conjunto de datos procesado, consulte la descripción del conjunto de datos

datos	Dirección original de datos/proyecto	Dirección de descarga de archivos después del procesamiento
Datos de noticias de Tsinghua	DIRECCIÓN	Código de extracción de disco de la nube de Baidu: VHOL
Datos de noticias de Sogou	DIRECCIÓN	Código de extracción de disco en la nube de Baidu: ODE6
NLPCC2017 Datos de resumen	DIRECCIÓN	Código de extracción de disco en la nube de Baidu: E0ZQ
Datos de resumen de CSL	DIRECCIÓN	Código de extracción de disco de la nube de Baidu: 0qot
Datos de resumen de la industria de la educación y capacitación	DIRECCIÓN	Código de extracción de disco en la nube de Baidu: KJZ3
Datos de resumen de LCSS	DIRECCIÓN	Código de extracción de disco de la nube de Baidu: BZOV
Datos de resumen de Shence Cup 2018	DIRECCIÓN	Código de extracción de disco en la nube de Baidu: 6F4F
Datos de resumen de Wanfang	DIRECCIÓN	Código de extracción de disco en la nube de Baidu: P69G
Datos de resumen de cuenta oficial de WeChat	DIRECCIÓN	Código de extracción de disco de la nube de Baidu: 5has
Datos de Weibo	DIRECCIÓN	Código de extracción de disco de la nube de Baidu: 85T5
News2016zh Datos de noticias	DIRECCIÓN	Código de extracción de disco de la nube de Baidu: QSJ1

Colección del conjunto de datos: Baidu Cloud Disk Code: 7am8

Descripción del proyecto

Este proyecto es un proyecto de generación de títulos de noticias basado en el modelo GPT2 con anotaciones chinas súper detalladas.
Este proyecto se refiere a múltiples proyectos de código abierto GPT2, como GPT2-Chinese, GPT2-Chitchat, CDIAL-GPT, GPT2, etc., y refactores el código de acuerdo con su propia comprensión y agregue comentarios detallados, con la esperanza de ayudar a los necesitados.
Este proyecto utiliza los transformadores de Huggingface para implementar la escritura, capacitación y pruebas de código de modelo GPT2.
Este proyecto construye un servicio web a través del marco de frascos, ingeniería el modelo de generación de digestos de noticias y puede experimentar visualmente el efecto de generación de títulos de noticias a través de la página.
El código de este proyecto se explica en detalle. Puede leer el código usted mismo o ver la introducción del comentario del código.
El modelo de título de noticias proporcionado por este proyecto es un modelo pequeño de 6 capas (en realidad, son las personas pobres las que no tienen a nadie atrapado, por lo que solo pueden entrenar modelos pequeños). Durante el entrenamiento de este modelo, el modelo GPT2 previamente capacitado no está cargado, pero los parámetros se inicializan aleatoriamente, y el número de rondas de entrenamiento es pequeña (5 rondas, aún no convergente), por lo que el efecto es promedio. Si desea un modelo mejor, puede capacitar a un modelo de acuerdo con sus necesidades personales.
El propósito de este proyecto es llevar a todos a través de todo el proceso de capacitación, prueba y implementación del modelo de generación GPT2.

Estructura de archivo

configuración
- La información de configuración del modelo config.json, incluidos n_ctx, n_embd, n_head, n_layer, etc.
vocabulario
- El archivo del diccionario Vocab.txt, que tiene un tamaño de 13317, elimina el "## chino" en el diccionario original y agrega etiquetas como "[contenido]", "[título]", "[espacio]".
carpeta data_dir para almacenar datos
Plantillas La carpeta donde se almacenan las páginas HTML
Data_helper.py Archivo de preprocesamiento de datos, limpieza simple de datos
archivo de clase de datos data_set.py define las clases de datos requeridas por el modelo y es conveniente para la capacitación y uso del modelo
Model.py GPT2 Modelo File, reescribe principalmente GPT2LMHeadModel en el paquete Transformers, modifica la parte de pérdida de cálculo y solo calcula la parte de pérdida de la parte del título predicha.
Archivo de trenes de Train.py para el modelo GPT2 que genera títulos de noticias a través de News Body
generar_title.py genera títulos de noticias y predice archivos basados en el modelo capacitado
http_server.py construye archivos de servicio web

Entorno de funcionamiento

Gevent == 1.3a1
Frasco == 0.12.2
Transformers == 3.0.2

Consulte requisitos.txt archivo para más detalles

Conjunto de datos

Los datos provienen de Sina Weibo, enlace de datos: https://www.jiansshu.com/p/8f52352f0748?tdsourcetag=s_pcqq_aiomsg

Descripción de los datos	Dirección de descarga
Datos sin procesar	Baidu NetDisk, Código de extracción: NQZI
Datos procesados	Baidu NetDisk, Código de extracción: Duba

Los datos originales son datos de noticias descargados directamente de Internet. Después del procesamiento, los datos se procesan con datos utilizando data_helper.py y pueden usarse directamente para la capacitación.

Parámetros del modelo

Consulte el archivo config/config.json para obtener más detalles

parámetro	valor
inicializador_range	0.02
LAYER_NORM_EPSILON	1e-05
N_CTX	512
N_EMBD	768
n_head	12
N_LAYER	6
N_Positions	512
VOCAB_SIZE	13317

Nota: Además de la representación vectorial de cada palabra, la entrada del modelo también incluye la representación del vector del párrafo de texto y la representación del vector de posición.

Intercambio de archivos de modelo

Modelo	Dirección de descarga
Modelo GPT2	Baidu NetDisk, Código de extracción: 165b

Entrenamiento modelo

 python3 train.py
或
python3 train.py --output_dir output_dir/(自定义保存模型路径)

Los parámetros de entrenamiento se pueden agregar usted mismo, incluidos los parámetros de la siguiente manera:

parámetro	tipo	valor predeterminado	describir
dispositivo	stri	"0"	Configure la tarjeta gráfica utilizada para capacitación o prueba
config_path	stri	"config/config.json"	Información de configuración de parámetros del modelo
VOCAB_PATH	stri	"Vocab/Vocab.txt"	La lista de palabras es una pequeña lista de palabras y ha agregado algunas marcas nuevas
Train_file_path	stri	"data_dir/trenes_data.json"	Datos de capacitación generados por títulos de noticias
test_file_path	stri	"data_dir/test_data.json"	Datos de prueba generados por títulos de noticias
Pretrenado_model_path	stri	Ninguno	Camino al modelo GPT2 previamente capacitado
data_dir	stri	"data_dir"	Generar la ruta de almacenamiento de datos en caché
num_train_epochs	intencionalmente	5	Número de rondas para el entrenamiento modelo
Train_batch_size	intencionalmente	16	El tamaño de cada lote durante el entrenamiento
test_batch_size	intencionalmente	8	El tamaño de cada lote durante la prueba
aprendizaje_rate	flotar	1e-4	Tasa de aprendizaje durante la capacitación de modelos
Warmup_proportion	flotar	0.1	La probabilidad de calentamiento, es decir, el porcentaje del tamaño total del paso de entrenamiento, realiza la operación de calentamiento
Adam_epsilon	flotar	1e-8	Valor Epsilon de Adam Optimizer
logging_steps	intencionalmente	20	Número de pasos para guardar el registro de capacitación
eval_steps	intencionalmente	4000	¿Cuántos pasos se realizarán durante el entrenamiento?
gradiente_accumulación_steps	intencionalmente	1	Acumulación de gradiente
max_grad_norm	flotar	1.0
salida_dir	stri	"output_dir/"	Ruta de salida del modelo
semilla	intencionalmente	2020	Semillas aleatorias
max_len	intencionalmente	512	La longitud máxima del modelo de entrada es menor que N_CTX en config

O modifique el contenido de la función SET_ARGS en el archivo Train.py para modificar el valor predeterminado.

Los modelos proporcionados por este proyecto han capacitado 5 épocas, y la pérdida de entrenamiento del modelo y la pérdida del conjunto de pruebas son las siguientes:

El modelo aún no ha sido completamente entrenado. Según la tendencia de pérdida, puede continuar entrenando.

Prueba modelo

 python3 generate_title.py
或
python3 generate_title.py --top_k 3 --top_p 0.9999 --generate_max_len 32

Los parámetros se pueden agregar usted mismo, incluidos los parámetros de la siguiente manera:

parámetro	tipo	valor predeterminado	describir
dispositivo	stri	"0"	Configure la tarjeta gráfica utilizada para capacitación o prueba
modelo_path	stri	"output_dir/checkpoint-139805"	Ruta de archivo de modelo
VOCAB_PATH	stri	"Vocab/Vocab.txt"	La lista de palabras es una pequeña lista de palabras y ha agregado algunas marcas nuevas
lote_size	intencionalmente	3	Número de títulos generados
generar_max_len	intencionalmente	32	Longitud máxima del título generado
repetición_penalia	flotar	1.2	Tasa de penalización repetida
top_k	intencionalmente	5	Cuántas etiquetas con la mayor probabilidad de retención durante la decodificación
Top_p	flotar	0.95	Marcadores cuya probabilidad de retención es mayor de lo que es la probabilidad de retención acumulada durante la decodificación
max_len	intencionalmente	512	La longitud máxima del modelo de entrada es menor que N_CTX en config

Los resultados de la prueba son los siguientes:

从测试集中抽一篇
content：
今日，中国三条重要高铁干线——兰新高铁、贵广铁路和南广铁路将开通运营。其中兰新高铁是中国首条高原高铁，全长1776公里，最高票价658元。贵广铁路最贵车票320元，南广铁路最贵车票206.5元，这两条线路大大缩短西南与各地的时空距离。出行更方便了！中国“高铁版图”再扩容 三条重要高铁今日开通
title：
生成的第1个标题为：中国“高铁版图”再扩容 三条重要高铁今日开通
生成的第2个标题为：贵广铁路最高铁版图
生成的第3个标题为：出行更方便了！中国“高铁版图”再扩容三条重要高铁今日开通

从网上随便找一篇新闻
content：
值岁末，一年一度的中央经济工作会议牵动全球目光。今年的会议，背景特殊、节点关键、意义重大。12月16日至18日。北京，京西宾馆。站在“两个一百年”奋斗目标的历史交汇点上，2020年中央经济工作会议谋划着中国经济发展大计。习近平总书记在会上发表了重要讲话，深刻分析国内外经济形势，提出2021年经济工作总体要求和政策取向，部署重点任务，为开局“十四五”、开启全面建设社会主义现代化国家新征程定向领航。
title：
生成的第1个标题为：习近平总书记在京会上发表重大计划 提出2025年经济工作总体要求和政策
生成的第2个标题为：习近平总书记在会上发表重要讲话
生成的第3个标题为：习近平总书记在会上发表重要讲话，深刻分析国内外经济形势

La decodificación adopta estrategias de decodificación TOP_K y TOP_P, que tienen cierta aleatoriedad y pueden generarse repetidamente.

Servicio de frascos de inicio

 python3 http_server.py
或
python3 http_server.py --http_id "0.0.0.0" --port 5555

Las pruebas locales usan "127.0.0.1:5555/News-Title Generate". Si le da acceso a otros, solo necesita reemplazar "127.0.0.1" con la dirección IP de la computadora.

Los detalles se muestran en la figura a continuación:

Trabajo futuro

En la etapa posterior, los conjuntos de datos de noticias, como los datos de noticias de Tsinghua, y los datos de noticias de Sogou pueden clasificarse y limpiarse para construir un conjunto de datos de títulos de noticias relativamente completos.
Un pequeño modelo de petróleo GPT2 puede ser capacitado más tarde utilizando datos de noticias.
El modelo de título de noticias cargados puede actualizarse más tarde para entrenar un modelo con mejores resultados.

Expresiones de gratitud

Gracias a @junkroy por proporcionar la interfaz web

referirse a

Gpt2-china
GPT2-CHITCHAT
Cdial-GPT
GPT2
transformadores

Citando

 @misc{GPT2-NewsTitle,
  author = {Cong Liu},
  title = {Chinese NewsTitle Generation Project by GPT2},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  url="https://github.com/liucongg/GPT2-NewsTitle",
}