ark nlp
V0.0.9
يجمع Ark-NLP بشكل أساسي نماذج NLP شائعة الاستخدام في الأكاديمية والعمل.
pip install --upgrade ark-nlp
| ark_nlp | مكتبة معالجة اللغة الطبيعية مفتوحة المصدر |
| ark_nlp.dataset | تغليف وظائف مثل التحميل ومعالجة وتحويل البيانات |
| ark_nlp.nn | تغليف بعض نماذج الشبكة العصبية الكاملة |
| ark_nlp.processor | تجزئة الكلمات المغلفة ، القاموس والتكوين ، إلخ. |
| ark_nlp.factory | تغليف وظائف الخسارة والمحسّلات ووظائف التدريب والتنبؤ |
| ark_nlp.model | تغليف النماذج الشائعة الاستخدام وفقًا لمهام NLP الفعلية ، مما يجعل الاتصال سهلاً |
| نموذج | مراجع |
|---|---|
| بيرت | بيرت: ما قبل التدريب من محولات ثنائية الاتجاه العميقة لفهم اللغة |
| ernie1.0 | إرني: التمثيل المحسن من خلال تكامل المعرفة |
| نزها | NEZHA: التمثيل السياقي العصبي لفهم اللغة الصينية |
| roformer | roformer: محول محسن مع التضمين الموضع الدوار |
| ernie-ctm | Ernie-CTM (Ernie لتعدين النص الصيني) |
| نموذج | مقدمة |
|---|---|
| RNN/CNN/GRU/LSTM | هياكل تصنيف النص الكلاسيكية مثل RNN ، CNN ، GRU ، LSTM ، إلخ. |
| بيرت/إرني | تصنيف النموذج الذي تم تدريبه شائع الاستخدام |
| نموذج | مقدمة |
|---|---|
| بيرت/إرني | تصنيف مطابقة النموذج المسبق المستخدمة بشكل شائع |
| غير خاضع للإشراف | خوارزمية مطابقة SIMCSE غير خاضعة للرقابة |
| cosent | COSENT: مخطط متجه الجملة أكثر كفاءة من الجملة-بيرت |
| نموذج | مراجع | رمز مصدر الورق |
|---|---|---|
| CRF بيرت | ||
| بيافين بيرت | ||
| تمتد بيرت | ||
| المؤشر العالمي بيرت | GlobalPointer: التعامل مع ner المتداخلة وغير المغطاة بطريقة موحدة | |
| مؤشر عالمي فعال بيرت | GlobalPointer فعال: معلمات أقل ، المزيد من الآثار | |
| W2ner بيرت | الاعتراف بالكيان المسماة الموحدة كتصنيف علاقة بكلمة الكلمات | جيثب |
| نموذج | مراجع | رمز مصدر الورق |
|---|---|---|
| كازريل | إطار عمل علامات ثنائية جديدة من أجل الاستخراج الثلاثي العلائقي | جيثب |
| PRGC | PRGC: العلاقة المحتملة والمراسلات العالمية القائمة على الاستخراج الثلاثي المشترك | جيثب |
| نموذج | مراجع | رمز مصدر الورق |
|---|---|---|
| مسبب | استخراج المعلومات الشاملة UIE (استخراج المعلومات الشاملة) | جيثب |
| نموذج | مراجع | رمز مصدر الورق |
|---|---|---|
| برايمبرت | ما قبل المدرب ، الفوري ، والتنبؤ: مسح منهجي لطرق الأساليب في معالجة اللغة الطبيعية) |
للحصول على الرمز الكامل ، يرجى الرجوع إلى مجلد test .
تصنيف النص
import torch
import pandas as pd
from ark_nlp . model . tc . bert import Bert
from ark_nlp . model . tc . bert import BertConfig
from ark_nlp . model . tc . bert import Dataset
from ark_nlp . model . tc . bert import Task
from ark_nlp . model . tc . bert import get_default_model_optimizer
from ark_nlp . model . tc . bert import Tokenizer
# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本,label列为分类标签
tc_train_dataset = Dataset ( train_data_df )
tc_dev_dataset = Dataset ( dev_data_df )
# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )
# 文本切分、ID化
tc_train_dataset . convert_to_ids ( tokenizer )
tc_dev_dataset . convert_to_ids ( tokenizer )
# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
num_labels = len ( tc_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' ,
config = config )
# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )
# 训练
model . fit ( tc_train_dataset ,
tc_dev_dataset ,
lr = 2e-5 ,
epochs = 5 ,
batch_size = batch_size
)
# 推断
from ark_nlp . model . tc . bert import Predictor
tc_predictor_instance = Predictor ( model . module , tokenizer , tc_train_dataset . cat2id )
tc_predictor_instance . predict_one_sample (待预测文本)مطابقة النص
import torch
import pandas as pd
from ark_nlp . model . tm . bert import Bert
from ark_nlp . model . tm . bert import BertConfig
from ark_nlp . model . tm . bert import Dataset
from ark_nlp . model . tm . bert import Task
from ark_nlp . model . tm . bert import get_default_model_optimizer
from ark_nlp . model . tm . bert import Tokenizer
# 加载数据集
# train_data_df的columns必选包含"text_a"、"text_b"和"label"
# text_a和text_b列为文本,label列为匹配标签
tm_train_dataset = Dataset ( train_data_df )
tm_dev_dataset = Dataset ( dev_data_df )
# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )
# 文本切分、ID化
tm_train_dataset . convert_to_ids ( tokenizer )
tm_dev_dataset . convert_to_ids ( tokenizer )
# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
num_labels = len ( tm_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' ,
config = config )
# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )
# 训练
model . fit ( tm_train_dataset ,
tm_dev_dataset ,
lr = 2e-5 ,
epochs = 5 ,
batch_size = batch_size
)
# 推断
from ark_nlp . model . tm . bert import Predictor
tm_predictor_instance = Predictor ( model . module , tokenizer , tm_train_dataset . cat2id )
tm_predictor_instance . predict_one_sample ([待预测文本A , 待预测文本B ])كيان اسمه
import torch
import pandas as pd
from ark_nlp . model . ner . crf_bert import CRFBert
from ark_nlp . model . ner . crf_bert import CRFBertConfig
from ark_nlp . model . ner . crf_bert import Dataset
from ark_nlp . model . ner . crf_bert import Task
from ark_nlp . model . ner . crf_bert import get_default_model_optimizer
from ark_nlp . model . ner . crf_bert import Tokenizer
# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式,列表中每个元素是如下组织的字典
# {'start_idx': 实体首字符在文本的位置, 'end_idx': 实体尾字符在文本的位置, 'type': 实体类型标签, 'entity': 实体}
ner_train_dataset = Dataset ( train_data_df )
ner_dev_dataset = Dataset ( dev_data_df )
# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )
# 文本切分、ID化
ner_train_dataset . convert_to_ids ( tokenizer )
ner_dev_dataset . convert_to_ids ( tokenizer )
# 加载预训练模型
config = CRFBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
num_labels = len ( ner_train_dataset . cat2id ))
dl_module = CRFBert . from_pretrained ( 'nghuyong/ernie-1.0' ,
config = config )
# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )
# 训练
model . fit ( ner_train_dataset ,
ner_dev_dataset ,
lr = 2e-5 ,
epochs = 5 ,
batch_size = batch_size
)
# 推断
from ark_nlp . model . ner . crf_bert import Predictor
ner_predictor_instance = Predictor ( model . module , tokenizer , ner_train_dataset . cat2id )
ner_predictor_instance . predict_one_sample (待抽取文本)استخراج العلاقة CASREL
import torch
import pandas as pd
from ark_nlp . model . re . casrel_bert import CasRelBert
from ark_nlp . model . re . casrel_bert import CasRelBertConfig
from ark_nlp . model . re . casrel_bert import Dataset
from ark_nlp . model . re . casrel_bert import Task
from ark_nlp . model . re . casrel_bert import get_default_model_optimizer
from ark_nlp . model . re . casrel_bert import Tokenizer
from ark_nlp . factory . loss_function import CasrelLoss
# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式,列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_data_df )
re_dev_dataset = Dataset ( dev_data_df ,
categories = re_train_dataset . categories ,
is_train = False )
# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )
# 文本切分、ID化
# 注意:casrel的代码这部分其实并没有进行切分、ID化,仅是将分词器赋予dataset对象
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )
# 加载预训练模型
config = CasRelBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
num_labels = len ( re_train_dataset . cat2id ))
dl_module = CasRelBert . from_pretrained ( 'nghuyong/ernie-1.0' ,
config = config )
# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , CasrelLoss (), cuda_device = 0 )
# 训练
model . fit ( re_train_dataset ,
re_dev_dataset ,
lr = 2e-5 ,
epochs = 5 ,
batch_size = batch_size
)
# 推断
from ark_nlp . model . re . casrel_bert import Predictor
casrel_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )
casrel_re_predictor_instance . predict_one_sample (待抽取文本)استخراج العلاقة PRGC
import torch
import pandas as pd
from ark_nlp . model . re . prgc_bert import PRGCBert
from ark_nlp . model . re . prgc_bert import PRGCBertConfig
from ark_nlp . model . re . prgc_bert import Dataset
from ark_nlp . model . re . prgc_bert import Task
from ark_nlp . model . re . prgc_bert import get_default_model_optimizer
from ark_nlp . model . re . prgc_bert import Tokenizer
# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式,列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_df , is_retain_dataset = True )
re_dev_dataset = Dataset ( dev_df ,
categories = re_train_dataset . categories ,
is_train = False )
# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )
# 文本切分、ID化
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )
# 加载预训练模型
config = PRGCBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
num_labels = len ( re_train_dataset . cat2id ))
dl_module = PRGCBert . from_pretrained ( 'nghuyong/ernie-1.0' ,
config = config )
# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , None , cuda_device = 0 )
# 训练
model . fit ( re_train_dataset ,
re_dev_dataset ,
lr = 2e-5 ,
epochs = 5 ,
batch_size = batch_size
)
# 推断
from ark_nlp . model . re . prgc_bert import Predictor
prgc_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )
prgc_re_predictor_instance . predict_one_sample (待抽取文本)
Xiangking | Jimme | Zrealshadow |
يتم استخدام هذا المشروع لجمع وإعادة إنتاج نماذج NLP شائعة الاستخدام في الأكاديمية والعمل ، ودمجها في شكل مناسب من الاتصال ، لذلك تتم الإشارة إليها من قبل العديد من تطبيقات المصادر المفتوحة على الإنترنت. إذا كان هناك أي جوانب غير لائقة ، فيرجى الاتصال بنا للحصول على النقد والمشورة. هنا ، شكرًا لك يا رفاق على تنفيذ المصدر المفتوح.