En amenant le modèle Open Source ChatGLM-6B à l'aide de LORA, le modèle ChatGLM peut être utilisé pour le traitement des tâches composites. Ce projet traite principalement de deux tâches: la classification intelligente des commentaires de l'industrie des nouveaux médias et l'extraction d'informations
Le projet est mis à jour en continu ...
La classification du texte fait référence au processus de division d'un ou plusieurs paragraphes de texte en différentes catégories ou balises en fonction de leur contenu ou de leurs caractéristiques de sujet. Dans le travail réel, la classification du texte est largement utilisée, telle que: la classification des informations, la classification des CV, la classification des e-mails, la classification des documents de bureau, la classification de la zone, etc. Le filtrage de texte peut également être réalisé pour identifier et filtrer rapidement les informations qui répondent aux exigences spéciales à partir d'une grande quantité de texte.
L'extraction d'informations est une technologie qui identifie les descriptions factuelles des entités, des relations, des événements, etc. à partir de textes naturels non structurés ou semi-structurés, et les stores et les utilise sous une forme structurée. par
"Xiao Ming et Xiao Qin sont de bons amis. Ils sont tous les deux du Yunnan. Xiao Ming vit à Dali et Xiao Qin vit à Lijiang."
Par exemple, vous pouvez obtenir:
<Xiao Ming, ami, xiao qin> et <xiao qin, vivant, vivant, vivant, dali> et autres informations triples.
Avec le développement rapide de la technologie Internet, la nouvelle industrie des médias est devenue l'une des principales plateformes de diffusion de l'information. À cette époque de l'explosion de l'information, les gens obtiennent des informations via les médias sociaux, les clients des nouvelles, les blogs et autres formulaires. Cependant, avec la quantité croissante d'informations, comment gérer et utiliser efficacement ces informations est devenu un problème urgent. Sur la base de certaines données de "nouvelle industrie des médias" comme contexte, ce projet aide la nouvelle industrie des médias à obtenir rapidement et avec précision des informations utiles à partir d'informations massives et à effectuer une classification et une gestion raisonnables grâce à la classification et à l'extraction d'informations des commentaires de texte. Cela aide non seulement la nouvelle plate-forme multimédia à améliorer l'expérience utilisateur, mais fournit également aux producteurs d'informations avec une analyse des données et un soutien à la prise de décision plus précis.
Basé sur le modèle chatGLM-6B + la méthode de fin de réglage de Lora, le développement de tâches conjointes de classification du texte et d'extraction d'informations est réalisée
| Modèle | Mémoire vidéo GPU |
|---|---|
| Chatglm-6b | 13 Go |
| Package de dépendance | Exigences de version |
|---|---|
| protobuf | > = 3,19,5, <3,20.1 |
| transformateurs | > = 4.27.1 |
| rationaliser | == 1.17.0 |
| ensembles de données | > == 2.10.1 |
| Accélérer | == 0,17.1 |
| Conditionnement | > = 20.0 |
La technologie LORA gèle les poids du modèle pré-entraîné et injecte une couche formable (appelée la matrice de décomposition de rang) dans chaque bloc de transformateur, c'est-à-dire, ajoute un "branch latérale "A et B à côté de la couche linéaire du modèle. Parmi eux, A réduit les données de la dimension D à la dimension R, qui est le rang de LORA, qui est un hyperparamètre important; B augmente les données de la dimension R à la dimension D, et les paramètres de la partie B sont initialement 0. Une fois la formation du modèle terminée, les paramètres de la partie A + B doivent être combinés avec les paramètres du grand modèle d'origine.
Format de données: style de dictionnaire; Contexte Contenu représente: Texte d'entrée d'origine (invite); Point cible: texte cible. Les ensembles de données mixtes incluent les données de classification du texte et les données d'extraction d'informations.
L'ensemble de données de formation contient un total de: 902 échantillons.
L'ensemble de données de vérification contient un total de: 122 échantillons.
L'utilisation des poids du modèle ChatGLM-6B dans ce projet est soumise à l'autorisation du modèle.