Téléchargement character based cnn - Téléchargement du code source character based cnn

character based cnn

Autre code source

English Model

Télécharger

CNN basé sur le caractère

Ce dépôt contient une implémentation pytorch d'un réseau neuronal convolutionnel au niveau des caractères pour la classification du texte.

L'architecture modèle provient de cet article: https://arxiv.org/pdf/1509.01626.pdf

Architecture de réseau

Il y a deux variantes: un grand et un petit. Vous pouvez basculer entre les deux en modifiant le fichier de configuration.

Cette architecture a 6 couches convolutionnelles:

Couche	Grande fonctionnalité	Caractéristique	Noyau	Piscine
1	1024	256	7	3
2	1024	256	7	3
3	1024	256	3	N / A
4	1024	256	3	N / A
5	1024	256	3	N / A
6	1024	256	3	3

et 2 couches entièrement connectées:

Couche	Unités de sortie grandes	Unités de sortie petites
7	2048	1024
8	2048	1024
9	Dépend du problème	Dépend du problème

Tutoriel vidéo

Si vous êtes intéressé par le fonctionnement du personnage CNN ainsi que par la démo de ce projet, vous pouvez consulter mon tutoriel vidéo YouTube.

Pourquoi vous devriez vous soucier du niveau de personnage CNNS

Ils ont de très belles propriétés:

Ils sont assez puissants dans la classification du texte (voir Benchmark de Paper) même s'ils n'ont aucune notion de sémantique
Vous n'avez pas besoin d'appliquer de prétraitement de texte (tokenisation, lemmatisation, engelures ...) tout en les utilisant
Ils gèrent les mots mal orthographiés et les jetons OOV (hors vocabulaire)
Ils sont plus rapides à s'entraîner par rapport aux réseaux de neurones récurrents
Ils sont légers car ils ne nécessitent pas de stockage d'un gros mot incorporant une matrice. Par conséquent, vous pouvez les déployer facilement en production

Formation d'un classificateur de sentiment sur les avis sur les clients français

J'ai testé ce modèle sur un ensemble de critiques de clients étiquetées françaises (de plus de 3 millions de lignes). J'ai signalé les mesures dans Tensorboardx.

J'ai obtenu les résultats suivants

	Score F1	Précision
former	0,965	0,9366
test	0,945	0,915

Métriques de formation

Dépendances

nombant
pandas
sklearn
Pytorch 0.4.1
Tensorboardx
TensorFlow (pour pouvoir exécuter Tensorboardx)

Structure du code

À l'origine du projet, vous aurez:

Train.py : utilisé pour la formation d'un modèle
prédire.py : utilisé pour les tests et l'inférence
config.json : un fichier de configuration pour le stockage des paramètres du modèle (nombre de filtres, neurones)
src : un dossier qui contient:
- cnn_model.py : le modèle CNN réel (initialisation du modèle et méthode de transfert)
- data_loader.py : le script responsable de passer les données à la formation après les traiter
- utils.py : un ensemble de fonctions utilitaires pour le prétraitement du texte (URL / hashtag / user_mentition supprimer)

Comment utiliser le code

Entraînement

Le code ne fonctionne actuellement que sur les étiquettes binaires (0/1)

Lancez Train.py avec les arguments suivants:

data_path : chemin des données. Les données doivent être au format CSV avec au moins une colonne de texte et une colonne pour l'étiquette
validation_split : le rapport des données de validation. par défaut à 0,2
label_column : Nom de la colonne des étiquettes
text_column : Nom de la colonne des textes
max_rows : le nombre maximum de lignes à charger à partir de l'ensemble de données. (J'utilise principalement ceci pour les tests pour aller plus vite)
chunksize : Taille des morceaux lors du chargement des données à l'aide de pandas. par défaut à 500000
encoding : par défaut vers UTF-8
steps : étapes de prétraitement du texte à inclure sur le texte comme le hashtag ou la suppression d'URL
group_labels : Que ce soit pour regrouper ou non des étiquettes. Par défaut à aucun.
use_sampler : Que ce soit ou non un échantillonneur pondéré pour surmonter le déséquilibre des classes
alphabet : par défaut à ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789,;.!?: '"/ | _ @ # $% ^ & * ~` + - = <> () [] {} (normalement vous ne devez pas le modifier)
number_of_characters : par défaut 70
extra_characters : caractères supplémentaires que vous ajouteriez à l'alphabet. Par exemple, lettres majuscules ou caractères accentués
max_length : la longueur maximale à corriger pour tous les documents. par défaut à 150 mais devrait être adapté à vos données
epochs : nombre d'époches
batch_size : Taille du lot, par défaut à 128.
optimizer : Adam ou SGD, par défaut à SGD
learning_rate : par défaut à 0,01
class_weights : Que ce soit pour utiliser ou non des poids de classe dans la perte d'entropie croisée
focal_loss : s'il faut utiliser ou non la perte focale
gamma : paramètre gamma de la perte focale. par défaut à 2
Paramètre alpha : alpha de la perte focale. par défaut à 0,25
schedule : Nombre d'époches par lesquelles le taux d'apprentissage diminue de moitié (la planification du taux d'apprentissage fonctionne uniquement pour SGD), par défaut à 3.
patience : nombre maximum d'époches à attendre sans amélioration de la perte de validation, par défaut à 3
early_stopping : pour choisir d'arrêter ou non la formation ou non. par défaut à 0. réglé sur 1 pour l'activer.
checkpoint : pour choisir de sauvegarder le modèle sur le disque ou non. par défaut à 1, réglé sur 0 pour désactiver le point de contrôle du modèle
workers : Nombre de travailleurs dans Pytorch DatalOader, par défaut à 1
log_path : Chemin du fichier journal de Tensorboard
output : Chemin du dossier où les modèles sont enregistrés
model_name : Nom du préfixe des modèles enregistrés

Exemple d'utilisation:

python train.py --data_path=/data/tweets.csv --max_rows=200000

PLATING RÉSULTATS À TENSORBOEDX

Exécutez cette commande à la racine du projet:

tensorboard --logdir=./logs/ --port=6006

Ensuite, allez à: http: // localhost: 6006 (ou n'importe quel hôte que vous utilisez)

Prédiction

Lancez Predict.py avec les arguments suivants:

model : Chemin du modèle pré-formé
text : Texte de saisie
steps : Liste des étapes de prétraitement, par défaut
alphabet : par défaut à 'ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789 -,;.!?:' " / | _ @ # $% ^ & * ~` + - = <> () [] {} n '
number_of_characters : par défaut à 70
extra_characters : caractères supplémentaires que vous ajouteriez à l'alphabet. Par exemple, lettres majuscules ou caractères accentués
max_length : la longueur maximale à corriger pour tous les documents. par défaut à 150 mais devrait être adapté à vos données

Exemple d'utilisation:

python predict.py ./models/pretrained_model.pth --text= " I love pizza ! " --max_length=150

Télécharger les modèles pré-entraînés

Modèle d'analyse des sentiments sur les avis sur les clients français (documents 3M): Lien de téléchargement
Lorsque vous l'utilisez:
- Définir max_length sur 300
- Utilisez Extra_Characters = "Éàèùâêîôûçëïü" (lettres accentuées)

Contributions - Les PR sont les bienvenus:

Voici une liste non exhaustive des fonctionnalités futures potentielles à ajouter:

Adapter la perte de classification multi-classes
Journal des métriques de formation et de validation pour chaque époque dans un fichier texte
Fournir des tutoriels de cahier

Licence

Ce projet est concédé sous licence MIT

Développer

Informations supplémentaires

Version English Model
Type Autre code source
Date de mise à jour 2025-04-18
taille 213.92KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Allez-y à fond – Personnage Zorro

2022-08-20

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout