PhoNLP下载 - PhoNLP源代码下载

PhoNLP

Ai源码

1.0.0

下载

介绍
用法示例：命令行
用法示例：Python API
预训练的PHONLP模型

PHONLP：基于BERT的多任务学习模型，用于一部分语音标记，命名实体识别和依赖性解析

PHONLP是一个多任务学习模型，用于联合言论（POS）标签，命名为实体识别（NER）和依赖性解析。越南基准数据集的实验表明，PHONLP会产生最新的结果，表现优于单任务学习方法，该方法可以独立地对每个任务进行预培训的越南语模型Phobert。

尽管我们在越南语上评估了PhonLP，但下面的使用示例可以直接用于具有可用于POS标记，NER和依赖性解析的三个任务的其他语言，以及可从Transformers提供的基于BERT的BERT语言模型（Eg Bert，Mert，Robert，Roberta，XLM-Roberta，XLM-Roberta）。

PHONLP模型体系结构的详细信息和实验结果可以在我们的下文中找到：

 @inproceedings{phonlp,
title     = {{PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech tagging, named entity recognition and dependency parsing}},
author    = {Linh The Nguyen and Dat Quoc Nguyen},
booktitle = {Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations},
pages     = {1--7},
year      = {2021}
}

当使用PhonLP用来帮助产生已发布的结果或合并到其他软件中时，请引用我们的论文。

安装

Python版本> = 3.6; Pytorch版本> = 1.4.0
可以使用pip安装PHONLP： pip3 install phonlp

也可以通过以下命令从源安装PhonLP：

 git clone https://github.com/VinAIResearch/PhoNLP
 cd PhoNLP
 pip3 install -e .

用法示例：命令行

要使用命令行播放示例，请从源安装phonlp ：

 git clone https://github.com/VinAIResearch/PhoNLP
cd PhoNLP
pip3 install -e .

训练

 cd phonlp/models
python3 run_phonlp.py --mode train --save_dir <model_folder_path> 
	--pretrained_lm <transformers_pretrained_model> 
	--lr <float_value> --batch_size <int_value> --num_epoch <int_value> 
	--lambda_pos <float_value> --lambda_ner <float_value> --lambda_dep <float_value> 
	--train_file_pos <path_to_training_file_pos> --eval_file_pos <path_to_validation_file_pos> 
	--train_file_ner <path_to_training_file_ner> --eval_file_ner <path_to_validation_file_ner> 
	--train_file_dep <path_to_training_file_dep> --eval_file_dep <path_to_validation_file_dep>

--lambda_pos ， --lambda_ner和--lambda_dep分别代表与POS标记，NER和依赖关系解析损失相关的混合物权重，以及lambda_pos + lambda_ner + lambda_dep = 1 。

例子：

 cd phonlp/models
python3 run_phonlp.py --mode train --save_dir ./phonlp_tmp 
	--pretrained_lm "vinai/phobert-base" 
	--lr 1e-5 --batch_size 32 --num_epoch 40 
	--lambda_pos 0.4 --lambda_ner 0.2 --lambda_dep 0.4 
	--train_file_pos ../sample_data/pos_train.txt --eval_file_pos ../sample_data/pos_valid.txt 
	--train_file_ner ../sample_data/ner_train.txt --eval_file_ner ../sample_data/ner_valid.txt 
	--train_file_dep ../sample_data/dep_train.conll --eval_file_dep ../sample_data/dep_valid.conll

评估

 cd phonlp/models
python3 run_phonlp.py --mode eval --save_dir <model_folder_path> 
	--batch_size <int_value> 
	--eval_file_pos <path_to_test_file_pos> 
	--eval_file_ner <path_to_test_file_ner> 
	--eval_file_dep <path_to_test_file_dep>

例子：

 cd phonlp/models
python3 run_phonlp.py --mode eval --save_dir ./phonlp_tmp 
	--batch_size 8 
	--eval_file_pos ../sample_data/pos_test.txt 
	--eval_file_ner ../sample_data/ner_test.txt 
	--eval_file_dep ../sample_data/dep_test.conll

注释一个语料库

 cd phonlp/models
python3 run_phonlp.py --mode annotate --save_dir <model_folder_path> 
	--batch_size <int_value> 
	--input_file <path_to_input_file> 
	--output_file <path_to_output_file>

例子：

 cd phonlp/models
python3 run_phonlp.py --mode annotate --save_dir ./phonlp_tmp 
	--batch_size 8 
	--input_file ../sample_data/input.txt 
	--output_file ../sample_data/output.txt

用法示例：Python API

 import phonlp

# Load the trained PhoNLP model
model = phonlp . load ( save_dir = '/absolute/path/to/phonlp_tmp' )

# Annotate a corpus where each line represents a word-segmented sentence
model . annotate ( input_file = '/absolute/path/to/input.txt' , output_file = '/absolute/path/to/output.txt' )

# Annotate a word-segmented sentence
model . print_out ( model . annotate ( text = "Tôi đang làm_việc tại VinAI ." ))

默认情况下，每个输入句子的输出均使用6列的格式，代表单词索引，单词形式，pos tag，ner标签，当前单词的头部索引及其依赖关系类型：

 1	Tôi	P	O	3	sub	
2	đang	R	O	3	adv
3	làm_việc	V	O	0	root
4	tại	E	O	3	loc
5	VinAI	Np 	B-ORG	4	prob
6	.	CH	O	3	punct

可以按照10列孔格式将输出格式化，其中最后一列用于表示NER预测。这可以通过将output_type='conll'添加到model.annotate()函数中来完成。

另外，在model.annotate()函数中，可以调整参数batch_size的值以适合计算机的内存，而不是在1处使用默认值（ batch_size=1 ）。在这里，较大的batch_size会导致更快的性能速度。

越南人的预训练PHONLP模型

可以从https://public.vinai.io/phonlp.pt手动下载越南语的预训练的Phonlp模型。
或可以下载如下：

 import phonlp

# Automatically download the pre-trained PhoNLP model for Vietnamese
# and save it in a local machine folder
phonlp . download ( save_dir = '/absolute/path/to/pretrained_phonlp' )

# Load the pre-trained PhoNLP model for Vietnamese
model = phonlp . load ( save_dir = '/absolute/path/to/pretrained_phonlp' )

# Annotate a corpus where each line represents a word-segmented sentence
model . annotate ( input_file = '/absolute/path/to/input.txt' , output_file = '/absolute/path/to/output.txt' )

# Annotate a word-segmented sentence
model . print_out ( model . annotate ( text = "Tôi đang làm_việc tại VinAI ." ))

使用vncorenlp在原始越南文本上执行单词和句子细分

如果输入越南文本是raw ，即没有单词和句子进行分割，则必须应用一个单词分段器来产生单词分段的句子，然后再送给越南人的预训练的Phonlp模型。用户应使用VNCORENLP执行单词和句子细分（因为它会产生与POS标记，NER和依赖性解析任务的数据相同的越南语调归一化）。

安装

 pip3 install py_vncorenlp

示例用法

 import py_vncorenlp

# Automatically download VnCoreNLP components from the original repository
# and save them in some local machine folder
py_vncorenlp . download_model ( save_dir = '/absolute/path/to/vncorenlp' )

# Load VnCoreNLP for word and sentence segmentation
rdrsegmenter = py_vncorenlp . VnCoreNLP ( annotators = [ "wseg" ], save_dir = '/absolute/path/to/vncorenlp' )

# Perform word and sentence segmentation 
print ( rdrsegmenter . word_segment ( "Ông Nguyễn Khắc Chúc  đang làm việc tại Đại học Quốc gia Hà Nội. Bà Lan, vợ ông Chúc, cũng làm việc tại đây." ))
# ['Ông Nguyễn_Khắc_Chúc đang làm_việc tại Đại_học Quốc_gia Hà_Nội .', 'Bà Lan , vợ ông Chúc , cũng làm_việc tại đây .']