Al ajustar el modelo de código abierto CHATGLM-6B usando LORA, el modelo CHATGLM se puede utilizar para el procesamiento de tareas compuestas. Este proyecto trata principalmente de dos tareas: clasificación inteligente de los comentarios de la industria de los nuevos medios y la extracción de información
El proyecto se está actualizando continuamente ...
La clasificación de texto se refiere al proceso de dividir uno o más párrafos de texto en diferentes categorías o etiquetas de acuerdo con sus características de contenido o tema. En el trabajo real, la clasificación de texto se usa ampliamente, como: clasificación de noticias, clasificación de currículums, clasificación de correo electrónico, clasificación de documentos de oficina, clasificación de área, etc. El filtrado de texto también se puede realizar para identificar y filtrar rápidamente información que cumpla con requisitos especiales de una gran cantidad de texto.
La extracción de información es una tecnología que identifica descripciones fácticas de entidades, relaciones, eventos, etc. de textos naturales no estructurados o semiestructurados, y las tiendas y las utiliza en una forma estructurada. por
"Xiao Ming y Xiao Qin son buenos amigos. Ambos son de Yunnan. Xiao Ming vive en Dali y Xiao Qin vive en Lijiang".
Como ejemplo, puede obtener:
<Xiao Ming, amigo, Xiao Qin> y <Xiao Qin, Living, Living, Living, Dali> y otra información triple.
Con el rápido desarrollo de la tecnología de Internet, la nueva industria de los medios se ha convertido en una de las principales plataformas para la difusión de información. En esta era de explosión de información, las personas obtienen información a través de las redes sociales, clientes de noticias, blogs y otras formas. Sin embargo, con la creciente cantidad de información, cómo administrar y utilizar esta información de manera eficiente se ha convertido en un problema urgente. Basado en algunos datos de la "nueva industria de los medios" como antecedentes, este proyecto ayuda a la industria de los nuevos medios a obtener información útil de información útil y realizar una clasificación y gestión razonables a través de la clasificación y la extracción de información de los comentarios de texto. Esto no solo ayuda a la nueva plataforma de medios a mejorar la experiencia del usuario, sino que también proporciona a los productores de información un análisis de datos más preciso y un soporte de toma de decisiones.
Basado en el modelo CHATGLM-6B Modelo + Lora Finuning, el desarrollo de tareas conjuntas de clasificación de texto y extracción de información se realiza
| Modelo | Memoria de video GPU |
|---|---|
| Chatglm-6b | 13 GB |
| Paquete de dependencia | Requisitos de la versión |
|---|---|
| protobuf | > = 3.19.5, <3.20.1 |
| transformadores | > = 4.27.1 |
| racionalizar | == 1.17.0 |
| conjuntos de datos | > == 2.10.1 |
| Acelerar | == 0.17.1 |
| Embalaje | > = 20.0 |
La tecnología Lora congela los pesos del modelo previamente provocado e inyecta una capa entrenable (llamada matriz de descomposición de rango) en cada bloque de transformador, es decir, agrega una "rama lateral" A y B junto a la capa lineal del modelo. Entre ellos, A reduce los datos de la dimensión D a la dimensión R, que es el rango de lora, que es un hiperparámetro importante; B eleva los datos de la dimensión R a la dimensión D, y los parámetros de la Parte B son inicialmente 0. Después de completar el entrenamiento del modelo, los parámetros de la parte A+B deben combinarse con los parámetros del modelo grande original.
Formato de datos: estilo de diccionario; El contenido de contexto representa: texto de entrada original (indicador); Punto objetivo: texto objetivo. Los conjuntos de datos mixtos incluyen datos de clasificación de texto y datos de extracción de información.
El conjunto de datos de entrenamiento contiene un total de: 902 muestras.
El conjunto de datos de verificación contiene un total de: 122 muestras.
El uso de los pesos del modelo CHATGLM-6B en este proyecto está sujeto a permiso del modelo.