ark nlp Download - ark nlp Quellcode herunterladen

ark nlp

Anderer Quellcode

V0.0.9

Herunterladen

Ark-NLP

Ark-NLP sammelt und reproduziert hauptsächlich NLP-Modelle in Akademikern und Arbeiten.

Umfeld

Python 3
Fackel> = 1.0.0, <1.10.0
tqdm> = 4,56.0
Jieba> = 0,42,1
Transformatoren> = 3.0.0
Zhon> = 1,1,5
scipy> = 1.2.0
Scikit-Learn> = 0,17,0

PIP -Installation

 pip install --upgrade ark-nlp

Projektstruktur

ARK_NLP	Open Source natürliche Sprachverarbeitungsbibliothek
ARK_NLP.DATASET	Kapitulelle Funktionen wie das Laden, Verarbeitung und Umwandlung von Daten
ARK_NLP.NN	In ein paar komplette neuronale Netzwerkmodelle zusammenfassen
ARK_NLP.PROCESSOR	Kapulierte Wortsegmentierung, Wörterbuch und Zusammensetzung usw.
ARK_NLP.FAKTORY	Einkapselung von Verlustfunktionen, Optimierern, Trainings- und Vorhersagefunktionen
ARK_NLP.MODEL	Kapitulelle häufig verwendete Modelle gemäß den tatsächlichen NLP -Aufgaben einkapseln, so

Implementiertes Modell

Vorausgebildeter Modell

Modell	Referenzen
Bert	Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis
Ernie1.0	Ernie: Verbesserte Darstellung durch Wissensintegration
Nezha	Nezha: Neuronale kontextualisierte Darstellung für das Verständnis der chinesischen Sprache
Roformer	ROFORMER: Verbesserter Transformator mit der Einbettung von Rotary Position
Ernie-CTM	Ernie-CTM (Ernie für den chinesischen Textabbau)

Textklassifizierung

Modell	Einführung
RNN/CNN/Gru/lstm	Klassische Textklassifizierungsstrukturen wie RNN, CNN, Gru, LSTM usw.
Bert/Ernie	Häufig verwendete vorgebrachte Modellklassifizierung

Textübereinstimmung

Modell	Einführung
Bert/Ernie	Am häufig verwendeten vorab vorbereiteten Modellanpassungsklassifizierung
Unbeaufsichtigt	Unbeaufsichtigter Simcse -Matching -Algorithmus
Cosent	Cosent: Ein effizienteres Satzvektor-Schema als Satztbert

Genannte Entitätserkennung

Modell	Referenzen	Papierquellcode
CRF Bert
BIAFFINE BERT
Spaler Bert
Globaler Zeiger Bert	GlobalPointer: Behandeln Sie ein verschachtelter und nicht gesetzter Ner auf einheitliche Weise
Effizienter globaler Zeiger Bert	Effizienter globalPointer: weniger Parameter, mehr Effekte
W2ner Bert	Unified genannte Entitätserkennung als Klassifizierung der Wortwortbeziehung	Github

Beziehungsextraktion

Modell	Referenzen	Papierquellcode
Casrel	Ein neuartiger Binär -Tagging -Framework für die relationale Dreifachextraktion	Github
PRGC	PRGC: Potenzielle Beziehung und globaler Korrespondenzbasis gemeinsamer relationaler dreifache Extraktion	Github

Informationsextraktion

Modell	Referenzen	Papierquellcode
Promptuie	Universal Information Extraction UIE (Universal Information Extraction)	Github

Wenige Schüsse Lernen

Modell	Referenzen	Papierquellcode
Eingabeaufforderung	Pre-Train, Eingabeaufforderung und Vorhersage: Eine systematische Übersicht über die Aufforderung Methoden in der Verarbeitung natürlicher Sprache)

Praktische Anwendung

CHIP2021-TASK3-Klinical Terminology Standardization Task-Dritter-Platz
CHIP2021-TASK1-MEDICAL DIALOGE Klinische Entdeckung Task-First-Ort
Chinesische medizinische Informationsverarbeitung Challenge Liste CBLUE

Beispiel verwenden

Für den vollständigen Code finden Sie im test .

Textklassifizierung

 import torch
import pandas as pd

from ark_nlp . model . tc . bert import Bert
from ark_nlp . model . tc . bert import BertConfig
from ark_nlp . model . tc . bert import Dataset
from ark_nlp . model . tc . bert import Task
from ark_nlp . model . tc . bert import get_default_model_optimizer
from ark_nlp . model . tc . bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本，label列为分类标签
tc_train_dataset = Dataset ( train_data_df )
tc_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
tc_train_dataset . convert_to_ids ( tokenizer )
tc_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                   num_labels = len ( tc_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                 config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( tc_train_dataset , 
          tc_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . tc . bert import Predictor

tc_predictor_instance = Predictor ( model . module , tokenizer , tc_train_dataset . cat2id )

tc_predictor_instance . predict_one_sample (待预测文本)

Textübereinstimmung

 import torch
import pandas as pd

from ark_nlp . model . tm . bert import Bert
from ark_nlp . model . tm . bert import BertConfig
from ark_nlp . model . tm . bert import Dataset
from ark_nlp . model . tm . bert import Task
from ark_nlp . model . tm . bert import get_default_model_optimizer
from ark_nlp . model . tm . bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text_a"、"text_b"和"label"
# text_a和text_b列为文本，label列为匹配标签
tm_train_dataset = Dataset ( train_data_df )
tm_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
tm_train_dataset . convert_to_ids ( tokenizer )
tm_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                   num_labels = len ( tm_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                 config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( tm_train_dataset , 
          tm_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . tm . bert import Predictor

tm_predictor_instance = Predictor ( model . module , tokenizer , tm_train_dataset . cat2id )

tm_predictor_instance . predict_one_sample ([待预测文本A , 待预测文本B ])

Genannte Entität

 import torch
import pandas as pd

from ark_nlp . model . ner . crf_bert import CRFBert
from ark_nlp . model . ner . crf_bert import CRFBertConfig
from ark_nlp . model . ner . crf_bert import Dataset
from ark_nlp . model . ner . crf_bert import Task
from ark_nlp . model . ner . crf_bert import get_default_model_optimizer
from ark_nlp . model . ner . crf_bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# {'start_idx': 实体首字符在文本的位置, 'end_idx': 实体尾字符在文本的位置, 'type': 实体类型标签, 'entity': 实体}
ner_train_dataset = Dataset ( train_data_df )
ner_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
ner_train_dataset . convert_to_ids ( tokenizer )
ner_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = CRFBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                  num_labels = len ( ner_train_dataset . cat2id ))
dl_module = CRFBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                    config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( ner_train_dataset , 
          ner_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . ner . crf_bert import Predictor

ner_predictor_instance = Predictor ( model . module , tokenizer , ner_train_dataset . cat2id )

ner_predictor_instance . predict_one_sample (待抽取文本)

Casrel -Beziehungsextraktion

 import torch
import pandas as pd

from ark_nlp . model . re . casrel_bert import CasRelBert
from ark_nlp . model . re . casrel_bert import CasRelBertConfig
from ark_nlp . model . re . casrel_bert import Dataset
from ark_nlp . model . re . casrel_bert import Task
from ark_nlp . model . re . casrel_bert import get_default_model_optimizer
from ark_nlp . model . re . casrel_bert import Tokenizer
from ark_nlp . factory . loss_function import CasrelLoss

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_data_df )
re_dev_dataset = Dataset ( dev_data_df ,
                         categories = re_train_dataset . categories ,
                         is_train = False )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )

# 文本切分、ID化
# 注意：casrel的代码这部分其实并没有进行切分、ID化，仅是将分词器赋予dataset对象
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = CasRelBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                          num_labels = len ( re_train_dataset . cat2id ))
dl_module = CasRelBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                       config = config )

# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , CasrelLoss (), cuda_device = 0 )

# 训练
model . fit ( re_train_dataset , 
          re_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . re . casrel_bert import Predictor

casrel_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )

casrel_re_predictor_instance . predict_one_sample (待抽取文本)

PRGC -Beziehungsextraktion

 import torch
import pandas as pd

from ark_nlp . model . re . prgc_bert import PRGCBert
from ark_nlp . model . re . prgc_bert import PRGCBertConfig
from ark_nlp . model . re . prgc_bert import Dataset
from ark_nlp . model . re . prgc_bert import Task
from ark_nlp . model . re . prgc_bert import get_default_model_optimizer
from ark_nlp . model . re . prgc_bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_df , is_retain_dataset = True )
re_dev_dataset = Dataset ( dev_df ,
                         categories = re_train_dataset . categories ,
                         is_train = False )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )

# 文本切分、ID化
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = PRGCBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                          num_labels = len ( re_train_dataset . cat2id ))
dl_module = PRGCBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                       config = config )

# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , None , cuda_device = 0 )

# 训练
model . fit ( re_train_dataset , 
          re_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . re . prgc_bert import Predictor

prgc_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )

prgc_re_predictor_instance . predict_one_sample (待抽取文本)

Diskussionsgruppe

Offizielles Konto: Dataark

Wechat

Wechat ID: FK95624

Hauptversuche

_Xiangking

_Jimme

_Zrealthadow

Anerkennen

Dieses Projekt wird verwendet, um die häufig verwendeten NLP -Modelle in Akademikern und Arbeiten zu sammeln und zu reproduzieren und sie in eine bequeme Anrufform zu integrieren, sodass es durch viele Open -Source -Implementierungen im Internet verwiesen wird. Wenn es unangemessene Aspekte gibt, kontaktieren Sie uns bitte für Kritik und Rat. Hier, vielen Dank für Ihre Open Source -Implementierung.

Expandieren

Zusätzliche Informationen