تنزيل ark nlp - تنزيل رمز المصدر ark nlp

ark nlp

شفرة المصدر الأخرى

V0.0.9

تنزيل

Ark-NLP

يجمع Ark-NLP بشكل أساسي نماذج NLP شائعة الاستخدام في الأكاديمية والعمل.

بيئة

بيثون 3
الشعلة> = 1.0.0 ، <1.10.0
TQDM> = 4.56.0
Jieba> = 0.42.1
المحولات> = 3.0.0
Zhon> = 1.1.5
Scipy> = 1.2.0
Scikit-Learn> = 0.17.0

تثبيت PIP

 pip install --upgrade ark-nlp

هيكل المشروع

ark_nlp	مكتبة معالجة اللغة الطبيعية مفتوحة المصدر
ark_nlp.dataset	تغليف وظائف مثل التحميل ومعالجة وتحويل البيانات
ark_nlp.nn	تغليف بعض نماذج الشبكة العصبية الكاملة
ark_nlp.processor	تجزئة الكلمات المغلفة ، القاموس والتكوين ، إلخ.
ark_nlp.factory	تغليف وظائف الخسارة والمحسّلات ووظائف التدريب والتنبؤ
ark_nlp.model	تغليف النماذج الشائعة الاستخدام وفقًا لمهام NLP الفعلية ، مما يجعل الاتصال سهلاً

النموذج المنفذ

نموذج تدريب مسبقًا

نموذج	مراجع
بيرت	بيرت: ما قبل التدريب من محولات ثنائية الاتجاه العميقة لفهم اللغة
ernie1.0	إرني: التمثيل المحسن من خلال تكامل المعرفة
نزها	NEZHA: التمثيل السياقي العصبي لفهم اللغة الصينية
roformer	roformer: محول محسن مع التضمين الموضع الدوار
ernie-ctm	Ernie-CTM (Ernie لتعدين النص الصيني)

تصنيف النص

نموذج	مقدمة
RNN/CNN/GRU/LSTM	هياكل تصنيف النص الكلاسيكية مثل RNN ، CNN ، GRU ، LSTM ، إلخ.
بيرت/إرني	تصنيف النموذج الذي تم تدريبه شائع الاستخدام

مطابقة النص

نموذج	مقدمة
بيرت/إرني	تصنيف مطابقة النموذج المسبق المستخدمة بشكل شائع
غير خاضع للإشراف	خوارزمية مطابقة SIMCSE غير خاضعة للرقابة
cosent	COSENT: مخطط متجه الجملة أكثر كفاءة من الجملة-بيرت

اسم التعرف على الكيان

نموذج	مراجع	رمز مصدر الورق
CRF بيرت
بيافين بيرت
تمتد بيرت
المؤشر العالمي بيرت	GlobalPointer: التعامل مع ner المتداخلة وغير المغطاة بطريقة موحدة
مؤشر عالمي فعال بيرت	GlobalPointer فعال: معلمات أقل ، المزيد من الآثار
W2ner بيرت	الاعتراف بالكيان المسماة الموحدة كتصنيف علاقة بكلمة الكلمات	جيثب

استخراج العلاقة

نموذج	مراجع	رمز مصدر الورق
كازريل	إطار عمل علامات ثنائية جديدة من أجل الاستخراج الثلاثي العلائقي	جيثب
PRGC	PRGC: العلاقة المحتملة والمراسلات العالمية القائمة على الاستخراج الثلاثي المشترك	جيثب

استخراج المعلومات

نموذج	مراجع	رمز مصدر الورق
مسبب	استخراج المعلومات الشاملة UIE (استخراج المعلومات الشاملة)	جيثب

تعلم القليل من اللقطة

نموذج	مراجع	رمز مصدر الورق
برايمبرت	ما قبل المدرب ، الفوري ، والتنبؤ: مسح منهجي لطرق الأساليب في معالجة اللغة الطبيعية)

التطبيق العملي

Chip2021-TASK3 Clinical Terminology Clistivation Place-Third-Place
Chip2021-TASK1 Medical Dialogue Discovery Place First First First First
قائمة تحدي معالجة المعلومات الطبية الصينية CBLUE

استخدم مثال

للحصول على الرمز الكامل ، يرجى الرجوع إلى مجلد test .

تصنيف النص

 import torch
import pandas as pd

from ark_nlp . model . tc . bert import Bert
from ark_nlp . model . tc . bert import BertConfig
from ark_nlp . model . tc . bert import Dataset
from ark_nlp . model . tc . bert import Task
from ark_nlp . model . tc . bert import get_default_model_optimizer
from ark_nlp . model . tc . bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本，label列为分类标签
tc_train_dataset = Dataset ( train_data_df )
tc_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
tc_train_dataset . convert_to_ids ( tokenizer )
tc_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                   num_labels = len ( tc_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                 config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( tc_train_dataset , 
          tc_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . tc . bert import Predictor

tc_predictor_instance = Predictor ( model . module , tokenizer , tc_train_dataset . cat2id )

tc_predictor_instance . predict_one_sample (待预测文本)

مطابقة النص

 import torch
import pandas as pd

from ark_nlp . model . tm . bert import Bert
from ark_nlp . model . tm . bert import BertConfig
from ark_nlp . model . tm . bert import Dataset
from ark_nlp . model . tm . bert import Task
from ark_nlp . model . tm . bert import get_default_model_optimizer
from ark_nlp . model . tm . bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text_a"、"text_b"和"label"
# text_a和text_b列为文本，label列为匹配标签
tm_train_dataset = Dataset ( train_data_df )
tm_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
tm_train_dataset . convert_to_ids ( tokenizer )
tm_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                   num_labels = len ( tm_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                 config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( tm_train_dataset , 
          tm_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . tm . bert import Predictor

tm_predictor_instance = Predictor ( model . module , tokenizer , tm_train_dataset . cat2id )

tm_predictor_instance . predict_one_sample ([待预测文本A , 待预测文本B ])

كيان اسمه

 import torch
import pandas as pd

from ark_nlp . model . ner . crf_bert import CRFBert
from ark_nlp . model . ner . crf_bert import CRFBertConfig
from ark_nlp . model . ner . crf_bert import Dataset
from ark_nlp . model . ner . crf_bert import Task
from ark_nlp . model . ner . crf_bert import get_default_model_optimizer
from ark_nlp . model . ner . crf_bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# {'start_idx': 实体首字符在文本的位置, 'end_idx': 实体尾字符在文本的位置, 'type': 实体类型标签, 'entity': 实体}
ner_train_dataset = Dataset ( train_data_df )
ner_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
ner_train_dataset . convert_to_ids ( tokenizer )
ner_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = CRFBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                  num_labels = len ( ner_train_dataset . cat2id ))
dl_module = CRFBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                    config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( ner_train_dataset , 
          ner_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . ner . crf_bert import Predictor

ner_predictor_instance = Predictor ( model . module , tokenizer , ner_train_dataset . cat2id )

ner_predictor_instance . predict_one_sample (待抽取文本)

استخراج العلاقة CASREL

 import torch
import pandas as pd

from ark_nlp . model . re . casrel_bert import CasRelBert
from ark_nlp . model . re . casrel_bert import CasRelBertConfig
from ark_nlp . model . re . casrel_bert import Dataset
from ark_nlp . model . re . casrel_bert import Task
from ark_nlp . model . re . casrel_bert import get_default_model_optimizer
from ark_nlp . model . re . casrel_bert import Tokenizer
from ark_nlp . factory . loss_function import CasrelLoss

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_data_df )
re_dev_dataset = Dataset ( dev_data_df ,
                         categories = re_train_dataset . categories ,
                         is_train = False )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )

# 文本切分、ID化
# 注意：casrel的代码这部分其实并没有进行切分、ID化，仅是将分词器赋予dataset对象
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = CasRelBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                          num_labels = len ( re_train_dataset . cat2id ))
dl_module = CasRelBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                       config = config )

# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , CasrelLoss (), cuda_device = 0 )

# 训练
model . fit ( re_train_dataset , 
          re_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . re . casrel_bert import Predictor

casrel_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )

casrel_re_predictor_instance . predict_one_sample (待抽取文本)

استخراج العلاقة PRGC

 import torch
import pandas as pd

from ark_nlp . model . re . prgc_bert import PRGCBert
from ark_nlp . model . re . prgc_bert import PRGCBertConfig
from ark_nlp . model . re . prgc_bert import Dataset
from ark_nlp . model . re . prgc_bert import Task
from ark_nlp . model . re . prgc_bert import get_default_model_optimizer
from ark_nlp . model . re . prgc_bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_df , is_retain_dataset = True )
re_dev_dataset = Dataset ( dev_df ,
                         categories = re_train_dataset . categories ,
                         is_train = False )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )

# 文本切分、ID化
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = PRGCBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                          num_labels = len ( re_train_dataset . cat2id ))
dl_module = PRGCBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                       config = config )

# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , None , cuda_device = 0 )

# 训练
model . fit ( re_train_dataset , 
          re_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . re . prgc_bert import Predictor

prgc_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )

prgc_re_predictor_instance . predict_one_sample (待抽取文本)

مناقشة مجموعة

الحساب الرسمي: Dataark

WeChat

معرف WeChat: FK95624

المساهمون الرئيسيون

_Xiangking

_Jimme

_Zrealshadow

يُقرّ

يتم استخدام هذا المشروع لجمع وإعادة إنتاج نماذج NLP شائعة الاستخدام في الأكاديمية والعمل ، ودمجها في شكل مناسب من الاتصال ، لذلك تتم الإشارة إليها من قبل العديد من تطبيقات المصادر المفتوحة على الإنترنت. إذا كان هناك أي جوانب غير لائقة ، فيرجى الاتصال بنا للحصول على النقد والمشورة. هنا ، شكرًا لك يا رفاق على تنفيذ المصدر المفتوح.

يوسع

معلومات إضافية

الإصدار V0.0.9
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-17
الحجم 298.72KB
من Github

تطبيقات ذات صلة

ARK 4

2024-11-02
لعبة آرك باتل جيرلز للهواتف المحمولة حقيقية

2024-02-16
لعبة السفينة الأخيرة

2023-09-05
صراع ارك

2023-03-15
آرك: تشغيل

2022-08-30
سفينة زينياس

2022-07-30

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل