Download do PhoNLP - Download do código fonte PhoNLP

PhoNLP

Código-Fonte de IA

1.0.0

Baixar

Introdução
Exemplo de uso: linhas de comando
Exemplo de uso: Python API
Modelo de phonlp pré-treinado

logotipo

PHONLP: Um modelo de aprendizado de várias tarefas baseado em Bert para marcação de parte de fala, denominado reconhecimento de entidade e análise de dependência

O PHONLP é um modelo de aprendizado de várias tarefas para marcação de partida conjunta (POS), denominado reconhecimento de entidade (NER) e análise de dependência. Experimentos sobre conjuntos de dados de referência vietnamita mostram que a PHONLP produz resultados de última geração, superando uma abordagem de aprendizado de tarefa única que ajusta o modelo de idioma vietnamita pré-treinado para cada tarefa de forma independente.

Embora avaliemos o PHONLP em vietnamita, nossos exemplos de uso abaixo podem trabalhar diretamente para outros idiomas que possuem corpora anotada em ouro disponíveis para as três tarefas de marcação de POS, NER e análise de dependência e um modelo de linguagem baseado em Bert pré-treinado disponível em Transformers (EG Bert, Mbert, Roberta, XLM-Roberta).

logotipo

Detalhes da arquitetura do modelo PHONLP e resultados experimentais podem ser encontrados em nosso artigo a seguir:

 @inproceedings{phonlp,
title     = {{PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech tagging, named entity recognition and dependency parsing}},
author    = {Linh The Nguyen and Dat Quoc Nguyen},
booktitle = {Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations},
pages     = {1--7},
year      = {2021}
}

Cite nosso artigo quando o PHONLP for usado para ajudar a produzir resultados publicados ou incorporado a outro software.

Instalação

Versão python> = 3.6; Versão pytorch> = 1.4.0
O PHONLP pode ser instalado usando pip da pip3 install phonlp

Ou PHONLP também pode ser instalado a partir da fonte com os seguintes comandos:

 git clone https://github.com/VinAIResearch/PhoNLP
 cd PhoNLP
 pip3 install -e .

Exemplo de uso: linhas de comando

Para brincar com os exemplos usando linhas de comando, instale phonlp na fonte:

 git clone https://github.com/VinAIResearch/PhoNLP
cd PhoNLP
pip3 install -e .

Treinamento

 cd phonlp/models
python3 run_phonlp.py --mode train --save_dir <model_folder_path> 
	--pretrained_lm <transformers_pretrained_model> 
	--lr <float_value> --batch_size <int_value> --num_epoch <int_value> 
	--lambda_pos <float_value> --lambda_ner <float_value> --lambda_dep <float_value> 
	--train_file_pos <path_to_training_file_pos> --eval_file_pos <path_to_validation_file_pos> 
	--train_file_ner <path_to_training_file_ner> --eval_file_ner <path_to_validation_file_ner> 
	--train_file_dep <path_to_training_file_dep> --eval_file_dep <path_to_validation_file_dep>

--lambda_pos , --lambda_ner e --lambda_dep representam pesos de mistura associados à marcação de POS, NER e perdas de análise de dependência, respectivamente, e lambda_pos + lambda_ner + lambda_dep = 1 .

Exemplo:

 cd phonlp/models
python3 run_phonlp.py --mode train --save_dir ./phonlp_tmp 
	--pretrained_lm "vinai/phobert-base" 
	--lr 1e-5 --batch_size 32 --num_epoch 40 
	--lambda_pos 0.4 --lambda_ner 0.2 --lambda_dep 0.4 
	--train_file_pos ../sample_data/pos_train.txt --eval_file_pos ../sample_data/pos_valid.txt 
	--train_file_ner ../sample_data/ner_train.txt --eval_file_ner ../sample_data/ner_valid.txt 
	--train_file_dep ../sample_data/dep_train.conll --eval_file_dep ../sample_data/dep_valid.conll

Avaliação

 cd phonlp/models
python3 run_phonlp.py --mode eval --save_dir <model_folder_path> 
	--batch_size <int_value> 
	--eval_file_pos <path_to_test_file_pos> 
	--eval_file_ner <path_to_test_file_ner> 
	--eval_file_dep <path_to_test_file_dep>

Exemplo:

 cd phonlp/models
python3 run_phonlp.py --mode eval --save_dir ./phonlp_tmp 
	--batch_size 8 
	--eval_file_pos ../sample_data/pos_test.txt 
	--eval_file_ner ../sample_data/ner_test.txt 
	--eval_file_dep ../sample_data/dep_test.conll

Anote um corpus

 cd phonlp/models
python3 run_phonlp.py --mode annotate --save_dir <model_folder_path> 
	--batch_size <int_value> 
	--input_file <path_to_input_file> 
	--output_file <path_to_output_file>

Exemplo:

 cd phonlp/models
python3 run_phonlp.py --mode annotate --save_dir ./phonlp_tmp 
	--batch_size 8 
	--input_file ../sample_data/input.txt 
	--output_file ../sample_data/output.txt

Exemplo de uso: Python API

 import phonlp

# Load the trained PhoNLP model
model = phonlp . load ( save_dir = '/absolute/path/to/phonlp_tmp' )

# Annotate a corpus where each line represents a word-segmented sentence
model . annotate ( input_file = '/absolute/path/to/input.txt' , output_file = '/absolute/path/to/output.txt' )

# Annotate a word-segmented sentence
model . print_out ( model . annotate ( text = "Tôi đang làm_việc tại VinAI ." ))

Por padrão, a saída para cada frase de entrada é formatada com 6 colunas representando o índice de palavras, formulário de palavras, tag POS, etiqueta ner, índice de cabeça da palavra atual e seu tipo de relação de dependência:

 1	Tôi	P	O	3	sub	
2	đang	R	O	3	adv
3	làm_việc	V	O	0	root
4	tại	E	O	3	loc
5	VinAI	Np 	B-ORG	4	prob
6	.	CH	O	3	punct

A saída pode ser formatada após o formato Conll de 10 colunas, onde a última coluna é usada para representar as previsões do NER. Isso pode ser feito adicionando output_type='conll' na função model.annotate() .

Além disso, na função model.annotate() , o valor do parâmetro batch_size pode ser ajustado para se ajustar à memória do seu computador em vez de usar o padrão em 1 ( batch_size=1 ). Aqui, um batch_size maior levaria a uma velocidade de desempenho mais rápida.

Modelo de telefone pré-treinado para vietnamita

O modelo PHONLP pré-treinado para vietnamita pode ser baixado manualmente em https://public.vinai.io/phonlp.pt.
Ou pode ser baixado da seguinte forma:

 import phonlp

# Automatically download the pre-trained PhoNLP model for Vietnamese
# and save it in a local machine folder
phonlp . download ( save_dir = '/absolute/path/to/pretrained_phonlp' )

# Load the pre-trained PhoNLP model for Vietnamese
model = phonlp . load ( save_dir = '/absolute/path/to/pretrained_phonlp' )

# Annotate a corpus where each line represents a word-segmented sentence
model . annotate ( input_file = '/absolute/path/to/input.txt' , output_file = '/absolute/path/to/output.txt' )

# Annotate a word-segmented sentence
model . print_out ( model . annotate ( text = "Tôi đang làm_việc tại VinAI ." ))

Usando o vncorenlp para executar a segmentação de palavras e frases em textos vietnamitas crus

Caso os textos vietnamitas de entrada sejam raw , ou seja, sem segmentação de palavras e frases, um segmento de palavras deve ser aplicado para produzir frases segmentadas por palavras antes de se alimentar para o modelo de telefone pré-treinado para vietnamita. Os usuários devem usar o VncorenLP para executar a segmentação de palavras e frases (pois produz a mesma normalização do tom vietnamita que foi aplicada aos dados das tarefas de marcação de POS, NER e de análise de dependência).

Instalação

 pip3 install py_vncorenlp

Exemplo de uso

 import py_vncorenlp

# Automatically download VnCoreNLP components from the original repository
# and save them in some local machine folder
py_vncorenlp . download_model ( save_dir = '/absolute/path/to/vncorenlp' )

# Load VnCoreNLP for word and sentence segmentation
rdrsegmenter = py_vncorenlp . VnCoreNLP ( annotators = [ "wseg" ], save_dir = '/absolute/path/to/vncorenlp' )

# Perform word and sentence segmentation 
print ( rdrsegmenter . word_segment ( "Ông Nguyễn Khắc Chúc  đang làm việc tại Đại học Quốc gia Hà Nội. Bà Lan, vợ ông Chúc, cũng làm việc tại đây." ))
# ['Ông Nguyễn_Khắc_Chúc đang làm_việc tại Đại_học Quốc_gia Hà_Nội .', 'Bà Lan , vợ ông Chúc , cũng làm_việc tại đây .']

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-10
tamanho 139.03KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos