Téléchargement PhoNLP - Téléchargement du code source PhoNLP

PhoNLP

Code Source AI

1.0.0

Télécharger

Introduction
Exemple d'utilisation: lignes de commande
Exemple d'utilisation: API Python
Modèle phonlp pré-formé

logo

PhonLP: un modèle d'apprentissage multi-tâches basé sur Bert pour le marquage d'une partie du discours, la reconnaissance des entités et l'analyse de dépendance

PhonLP est un modèle d'apprentissage multi-tâches pour le marquage conjoint de la partie de la disposition (POS), la reconnaissance d'entité nommée (NER) et l'analyse de dépendance. Des expériences sur les ensembles de données de référence vietnamiens montrent que PhonLP produit des résultats de pointe, surpassant une approche d'apprentissage à une seule tâche qui affine le modèle de langue vietnamienne pré-formée Phobert pour chaque tâche indépendamment.

Bien que nous évaluions PhonLP sur les vietnamiens, nos exemples d'utilisation ci-dessous peuvent fonctionner directement pour d'autres langues qui ont des corpus annotés en or disponibles pour les trois tâches de Tagging POS, NER et analyse de dépendance, et un modèle de langue basé sur Bert pré-formé disponible auprès de Transformers (par exemple Bert, Mbert, Roberta, XLM-Roberta).

logo

Les détails de l'architecture du modèle PhonLP et des résultats expérimentaux peuvent être trouvés dans notre article suivant:

 @inproceedings{phonlp,
title     = {{PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech tagging, named entity recognition and dependency parsing}},
author    = {Linh The Nguyen and Dat Quoc Nguyen},
booktitle = {Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations},
pages     = {1--7},
year      = {2021}
}

Veuillez citer notre article lorsque PhonLP est utilisé pour aider à produire des résultats publiés ou incorporés dans d'autres logiciels.

Installation

Version Python> = 3,6; Version pytorch> = 1.4.0
PhonLP peut être installé à l'aide pip comme suit: pip3 install phonlp
Ou PhonLP peut également être installé à partir de Source avec les commandes suivantes:
```
 git clone https://github.com/VinAIResearch/PhoNLP
 cd PhoNLP
 pip3 install -e .
```

Exemple d'utilisation: lignes de commande

Pour jouer avec les exemples à l'aide de lignes de commande, veuillez installer phonlp à partir de la source:

 git clone https://github.com/VinAIResearch/PhoNLP
cd PhoNLP
pip3 install -e .

Entraînement

 cd phonlp/models
python3 run_phonlp.py --mode train --save_dir <model_folder_path> 
	--pretrained_lm <transformers_pretrained_model> 
	--lr <float_value> --batch_size <int_value> --num_epoch <int_value> 
	--lambda_pos <float_value> --lambda_ner <float_value> --lambda_dep <float_value> 
	--train_file_pos <path_to_training_file_pos> --eval_file_pos <path_to_validation_file_pos> 
	--train_file_ner <path_to_training_file_ner> --eval_file_ner <path_to_validation_file_ner> 
	--train_file_dep <path_to_training_file_dep> --eval_file_dep <path_to_validation_file_dep>

--lambda_pos , --lambda_ner et --lambda_dep représente des poids de mélange associés au taggage de POS, aux pertes d'analyse de dépendance et de dépendance, respectivement, et lambda_pos + lambda_ner + lambda_dep = 1 .

Exemple:

 cd phonlp/models
python3 run_phonlp.py --mode train --save_dir ./phonlp_tmp 
	--pretrained_lm "vinai/phobert-base" 
	--lr 1e-5 --batch_size 32 --num_epoch 40 
	--lambda_pos 0.4 --lambda_ner 0.2 --lambda_dep 0.4 
	--train_file_pos ../sample_data/pos_train.txt --eval_file_pos ../sample_data/pos_valid.txt 
	--train_file_ner ../sample_data/ner_train.txt --eval_file_ner ../sample_data/ner_valid.txt 
	--train_file_dep ../sample_data/dep_train.conll --eval_file_dep ../sample_data/dep_valid.conll

Évaluation

 cd phonlp/models
python3 run_phonlp.py --mode eval --save_dir <model_folder_path> 
	--batch_size <int_value> 
	--eval_file_pos <path_to_test_file_pos> 
	--eval_file_ner <path_to_test_file_ner> 
	--eval_file_dep <path_to_test_file_dep>

Exemple:

 cd phonlp/models
python3 run_phonlp.py --mode eval --save_dir ./phonlp_tmp 
	--batch_size 8 
	--eval_file_pos ../sample_data/pos_test.txt 
	--eval_file_ner ../sample_data/ner_test.txt 
	--eval_file_dep ../sample_data/dep_test.conll

Annoter un corpus

 cd phonlp/models
python3 run_phonlp.py --mode annotate --save_dir <model_folder_path> 
	--batch_size <int_value> 
	--input_file <path_to_input_file> 
	--output_file <path_to_output_file>

Exemple:

 cd phonlp/models
python3 run_phonlp.py --mode annotate --save_dir ./phonlp_tmp 
	--batch_size 8 
	--input_file ../sample_data/input.txt 
	--output_file ../sample_data/output.txt

Exemple d'utilisation: API Python

 import phonlp

# Load the trained PhoNLP model
model = phonlp . load ( save_dir = '/absolute/path/to/phonlp_tmp' )

# Annotate a corpus where each line represents a word-segmented sentence
model . annotate ( input_file = '/absolute/path/to/input.txt' , output_file = '/absolute/path/to/output.txt' )

# Annotate a word-segmented sentence
model . print_out ( model . annotate ( text = "Tôi đang làm_việc tại VinAI ." ))

Par défaut, la sortie pour chaque phrase d'entrée est formatée avec 6 colonnes représentant l'index de mot, le formulaire de mot, la balise POS, l'étiquette NER, l'index de tête du mot actuel et son type de relation de dépendance:

 1	Tôi	P	O	3	sub	
2	đang	R	O	3	adv
3	làm_việc	V	O	0	root
4	tại	E	O	3	loc
5	VinAI	Np 	B-ORG	4	prob
6	.	CH	O	3	punct

La sortie peut être formatée en suivant le format Conll à 10 colonnes où la dernière colonne est utilisée pour représenter les prédictions NER. Cela peut être fait en ajoutant output_type='conll' dans la fonction model.annotate() .

De plus, dans la fonction model.annotate() , la valeur du paramètre batch_size peut être ajustée pour s'adapter à la mémoire de votre ordinateur au lieu d'utiliser la par défaut à 1 ( batch_size=1 ). Ici, un batch_size plus grand conduirait à une vitesse de performance plus rapide.

Modèle phonlp pré-formé pour les vietnamiens

Le modèle PhonLP pré-formé pour les vietnamiens peut être téléchargé manuellement à partir de https://public.vinai.io/phonlp.pt.
Ou il peut être téléchargé comme suit:

 import phonlp

# Automatically download the pre-trained PhoNLP model for Vietnamese
# and save it in a local machine folder
phonlp . download ( save_dir = '/absolute/path/to/pretrained_phonlp' )

# Load the pre-trained PhoNLP model for Vietnamese
model = phonlp . load ( save_dir = '/absolute/path/to/pretrained_phonlp' )

# Annotate a corpus where each line represents a word-segmented sentence
model . annotate ( input_file = '/absolute/path/to/input.txt' , output_file = '/absolute/path/to/output.txt' )

# Annotate a word-segmented sentence
model . print_out ( model . annotate ( text = "Tôi đang làm_việc tại VinAI ." ))

Utilisation de vncorenlp pour effectuer une segmentation des mots et des phrases sur des textes vietnamiens bruts

Dans le cas où les textes vietnamiens entrées sont raw , c'est-à-dire sans segmentation des mots et des phrases, un segmentateur de mots doit être appliqué pour produire des phrases à segment des mots avant de se nourrir au modèle PhonLP pré-formé pour le vietnamien. Les utilisateurs doivent utiliser VNCorenlp pour effectuer une segmentation des mots et des phrases (car il produit la même normalisation de tonalité vietnamienne qui a été appliquée aux données des tâches de marquage, NER et de dépendance à la dépendance).

Installation

 pip3 install py_vncorenlp

Exemple d'utilisation

 import py_vncorenlp

# Automatically download VnCoreNLP components from the original repository
# and save them in some local machine folder
py_vncorenlp . download_model ( save_dir = '/absolute/path/to/vncorenlp' )

# Load VnCoreNLP for word and sentence segmentation
rdrsegmenter = py_vncorenlp . VnCoreNLP ( annotators = [ "wseg" ], save_dir = '/absolute/path/to/vncorenlp' )

# Perform word and sentence segmentation 
print ( rdrsegmenter . word_segment ( "Ông Nguyễn Khắc Chúc  đang làm việc tại Đại học Quốc gia Hà Nội. Bà Lan, vợ ông Chúc, cũng làm việc tại đây." ))
# ['Ông Nguyễn_Khắc_Chúc đang làm_việc tại Đại_học Quốc_gia Hà_Nội .', 'Bà Lan , vợ ông Chúc , cũng làm_việc tại đây .']

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-10
taille 139.03KB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout