Chinese Text Classification PyTorch - Chinese Text Classification PyTorch Code source Télécharger

Chinese Text Classification PyTorch

Autre code source

1.0.0

Télécharger

Chinois-text-classification

Classification de texte chinois, basée sur Pytorch, et est disponible à l'origine de la boîte.

Modèles de réseau neuronal: TextCnn, Textrnn, FastText, Textrcnn, Bilstm_attention, DPCNN, Transformer
Modèle pré-formé: Bert, Ernie

introduire

Modèle de réseau neuronal

Introduction du modèle, processus de flux de données: référence

Les données sont entrées dans le modèle en unités de mots, et le vecteur de mot pré-formé utilise Sogou News Word + Character 300D, cliquez ici pour télécharger

Modèle	introduire
Textcnn	Classification de texte CNN classique de Kim 2014
Textrnn	Bilstm
Textrnn_att	Bilstm + attention
Textrcnn	Bilstm + pool
Texte rapide	Bow + Bigram + Trigram, l'effet est étonnamment bon
Dpcnn	Pyramide profonde CNN
Transformateur	Mauvais résultats

Modèle pré-formé

Modèle	introduire	Remarque
bert	Bert d'origine
Ernie	Ernie
bert_cnn	En tant que couche d'incorporation, Bert se connecte au CNN de trois noyaux de convolution.	Bert + CNN
bert_rnn	Bert comme couche d'intégration, accès à LSTM	Bert + RNN
bert_rcnn	En tant que couche d'incorporation, Bert est épissé avec une sortie Bert via LSTM et passe par une couche de pool maximale.	bert + rcnn
bert_dpcnn	En tant que couche d'incorporation, Bert passe par une couche d'intégration de région contenant trois extracteurs de caractéristiques de convolution différents, qui peuvent être considérés comme l'intégration de sortie, puis par la convolution de la longueur égale de deux couches pour fournir un œil sensoriel plus large pour l'extraction de fonctionnalité suivante (améliorant la richesse de l'expansion), puis il passera à plusieurs reprises un bloc de mise en commun du 1/2. La mise en commun de 1/2 améliore en continu la sémantique de la position du mot, et le caractéristique_maps est fixe. L'introduction du réseau résiduel est de résoudre les problèmes de disparition de gradient et d'explosion de gradient pendant le processus de formation.	bert + dpcnn

se référer à:

Ernie - Explication détaillée
Explication détaillée du modèle DPCNN
Du modèle de classification de texte classique textcnn au modèle de profondeur dpcnn

environnement

Python 3.7
pytorch 1.1
tqdm
sklearn
Tensorboardx
~~pytorch_pretrain_bert~~ (Le code pré-formation a également été téléchargé, et cette bibliothèque n'est pas nécessaire)

Ensemble de données chinois

J'ai tiré 200 000 titres d'actualités de Thucnews, téléchargés sur GitHub, avec des longueurs de texte comprises entre 20 et 30. Il y a 10 catégories au total, avec 20 000 éléments dans chaque catégorie. Les données sont entrées dans le modèle en mots.

Catégorie: Finance, immobilier, stocks, éducation, science et technologie, société, affaires courantes, sports, jeux, divertissement.

Division de l'ensemble de données:

Ensemble de données	Volume de données
Ensemble de formation	180 000
Ensemble de vérification	10 000
Test de test	10 000

Remplacez l'ensemble de données

Formatez votre propre ensemble de données chinois en fonction du format de l'ensemble de données Thucnews.
Pour les modèles de réseau neuronal:
- Si vous utilisez des mots, formatez vos données dans le format de l'ensemble de données.
- Si vous utilisez des mots, divisez les mots à l'avance et séparez-les avec des espaces. python run.py --model TextCNN --word True
- Utilisez des vecteurs de mots pré-entraînés: la fonction principale de utils.py peut extraire les vecteurs de mot pré-entraînés correspondant à la liste de vocabulaire.

Effet expérimental

Machine: un morceau de 2080ti, temps de formation: 30 minutes.

Modèle	accrocheur	Remarque
Textcnn	91,22%	Classification de texte CNN classique de Kim 2014
Textrnn	91,12%	Bilstm
Textrnn_att	90,90%	Bilstm + attention
Textrcnn	91,54%	Bilstm + pool
Texte rapide	92,23%	Bow + Bigram + Trigram, l'effet est étonnamment bon
Dpcnn	91,25%	Pyramide profonde CNN
Transformateur	89,91%	Mauvais résultats
bert	94,83%	Simple bert
Ernie	94,61%	Quel est le chinois promis qui écrase Bert
bert_cnn	94,44%	Bert + CNN
bert_rnn	94,57%	Bert + RNN
bert_rcnn	94,51%	bert + rcnn
bert_dpcnn	94,47%	bert + dpcnn

L'effet Bert d'origine est très bon. Si vous utilisez Bert comme couche d'incorporation et l'envoyez à d'autres modèles, l'effet sera réduit. Plus tard, vous essairez de comparer l'effet du texte long.

Modèle de langue pré-formée

Le modèle BERT est placé dans le répertoire Bert_pretain, et le modèle Ernie est placé dans le répertoire ERNIE_PRETRAIN. Chaque répertoire a trois fichiers:

pytorch_model.bin
bert_config.json
vocab.txt

Adresse de téléchargement du modèle pré-formé:

Bert_chinese: modèle https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese.tar.gz
Vocabulaire https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-vocab.txt

De là

Alternate: l'adresse du disque réseau du modèle: https://pan.baidu.com/s/1qsad5gwclq7xlgzl_4w3pw

Ernie_Chinese: https://pan.baidu.com/s/1lepddn1-yqjmked_g9rlgw

De là

Après décompression, mettez-le dans le répertoire correspondant comme mentionné ci-dessus et confirmez que le nom du fichier est correct.

Instructions pour une utilisation

Méthodes de réseau neuronal

 # 训练并测试：
# TextCNN
python run.py --model TextCNN

# TextRNN
python run.py --model TextRNN

# TextRNN_Att
python run.py --model TextRNN_Att

# TextRCNN
python run.py --model TextRCNN

# FastText, embedding层是随机初始化的
python run.py --model FastText --embedding random 

# DPCNN
python run.py --model DPCNN

# Transformer
python run.py --model Transformer

Méthode de pré-formation

Téléchargez le modèle pré-formé et exécutez:

 # 预训练模型训练并测试：
# bert
python pretrain_run.py --model bert

# bert + 其它
python pretrain_run.py --model bert_CNN

# ERNIE
python pretrain_run.py --model ERNIE

prédire

Modèle pré-formé:

 python pretrain_predict.py

Modèle de réseau neuronal:

 python predict.py

paramètre

Les modèles sont tous dans le répertoire des modèles, et la définition de l'hyperparamètre et la définition du modèle sont dans le même fichier.

se référer à

papier

[1] Réseaux de neurones convolutionnels pour la classification des phrases

[2] Réseau neuronal récurrent pour la classification du texte avec apprentissage multi-tâches

[3] Réseaux de mémoire bidirectionnels à court terme basés sur l'attention pour la classification des relations

[4] Réseaux de neurones convolutionnels récurrents pour la classification du texte

[5] Sac d'astuces pour une classification de texte efficace

[6] Pyramide profond Réseaux de neurones convolutionnels pour la catégorisation de texte

[7] L'attention est tout ce dont vous avez besoin

[8] Bert: pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage

[9] Ernie: représentation améliorée par l'intégration des connaissances

entrepôt

Ce projet continue de se développer et d'optimiser en fonction des entrepôts suivants:

https://github.com/649453932/chinese-text-classification-pytorch
https://github.com/649453932/bert-chinese-text-classification-pytorch

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-18
taille 16.02MB
Provenant de Github

Applications connexes

pytorch image models

2024-11-03
Texte avec Jésus chinois

2023-08-23
Texte avec Jésus

2023-08-17
Texte Avec Jésus version chinoise

2023-08-17
Envoyez un SMS ou mourez

2023-07-03
RTE (éditeur de texte enrichi) ASP.NET

2011-05-25

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout