Download ark nlp - Unduh Kode Sumber ark nlp

ark nlp

Kode sumber lainnya

V0.0.9

Unduh

Ark-nlp

Ark-NLP terutama mengumpulkan dan mereproduksi model NLP yang umum digunakan dalam akademik dan pekerjaan.

lingkungan

Python 3
obor> = 1.0.0, <1.10.0
TQDM> = 4.56.0
Jieba> = 0.42.1
Transformers> = 3.0.0
Zhon> = 1.1.5
SCIPY> = 1.2.0
scikit-learn> = 0.17.0

Instalasi PIP

 pip install --upgrade ark-nlp

Struktur proyek

ark_nlp	Perpustakaan Pemrosesan Bahasa Alami Sumber Terbuka
ark_nlp.dataset	Merangkum fungsi seperti pemuatan, pemrosesan dan konversi data
ark_nlp.nn	Merangkum beberapa model jaringan saraf lengkap
ark_nlp.processor	Segmentasi kata yang dienkapsulasi, kamus dan komposisi, dll.
ark_nlp.factory	Enkapsulasi fungsi kerugian, pengoptimal, pelatihan dan fungsi prediksi
ark_nlp.model	Merangkum model yang umum digunakan sesuai dengan tugas NLP yang sebenarnya, membuatnya mudah untuk menelepon

Model yang diimplementasikan

Model pra-terlatih

Model	Referensi
Bert	Bert: Pra-pelatihan transformator dua arah yang dalam untuk pemahaman bahasa
Ernie1.0	Ernie: Representasi yang Ditingkatkan Melalui Integrasi Pengetahuan
Nezha	Nezha: Representasi saraf kontekstual untuk pemahaman bahasa Cina
Roformer	Roformer: Transformator yang ditingkatkan dengan embedding posisi putar
Ernie-CTM	Ernie-CTM (Ernie untuk Penambangan Teks Cina)

Klasifikasi Teks

Model	Perkenalan
RNN/CNN/GRU/LSTM	Struktur klasifikasi teks klasik seperti RNN, CNN, Gru, LSTM, dll.
Bert/Ernie	Klasifikasi model pra-terlatih yang umum digunakan

Pencocokan teks

Model	Perkenalan
Bert/Ernie	Klasifikasi pencocokan model pretrained yang umum digunakan
Tanpa pengawasan	Algoritma pencocokan simcse tanpa pengawasan
Cosent	Cosent: Skema vektor kalimat yang lebih efisien daripada kalimat-KERT

Pengakuan entitas yang disebutkan

Model	Referensi	Kode Sumber Kertas
CRF Bert
Biaffine Bert
Span Bert
Global Pointer Bert	GlobalPointer: Tangani Ner bersarang dan tidak bertele-tele dengan cara yang disatukan
Bert Pointer Global yang Efisien	Efisien GlobalPointer: lebih sedikit parameter, lebih banyak efek
W2ner Bert	Pengakuan Entitas yang Diberitakan sebagai Klasifikasi Hubungan Kata-Kata	GitHub

Ekstraksi relasi

Model	Referensi	Kode Sumber Kertas
Casrel	Kerangka kerja penandaan biner cascade baru untuk ekstraksi triple relasional	GitHub
Prgc	PRGC: Potensi Hubungan dan Global Berbasis Ekstraksi Triple Relasional Bersama	GitHub

Ekstraksi informasi

Model	Referensi	Kode Sumber Kertas
PromptUie	Ekstraksi Informasi Universal UIE (Ekstraksi Informasi Universal)	GitHub

Pembelajaran beberapa shot

Model	Referensi	Kode Sumber Kertas
Promptebert	Pra-pelatihan, prompt, dan prediksi: Survei sistematis tentang metode yang diminta dalam pemrosesan bahasa alami)

Aplikasi praktis

CHIP2021-Task3-Klinis Terminologi Standardisasi Tugas-Ketiga Tempat
CHIP2021-Task1-Medis Dialog Penemuan Klinis Tugas-First Tempat
Daftar Tantangan Pemrosesan Informasi Medis Tiongkok

Gunakan contoh

Untuk kode lengkap, silakan merujuk ke folder test .

Klasifikasi Teks

 import torch
import pandas as pd

from ark_nlp . model . tc . bert import Bert
from ark_nlp . model . tc . bert import BertConfig
from ark_nlp . model . tc . bert import Dataset
from ark_nlp . model . tc . bert import Task
from ark_nlp . model . tc . bert import get_default_model_optimizer
from ark_nlp . model . tc . bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本，label列为分类标签
tc_train_dataset = Dataset ( train_data_df )
tc_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
tc_train_dataset . convert_to_ids ( tokenizer )
tc_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                   num_labels = len ( tc_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                 config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( tc_train_dataset , 
          tc_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . tc . bert import Predictor

tc_predictor_instance = Predictor ( model . module , tokenizer , tc_train_dataset . cat2id )

tc_predictor_instance . predict_one_sample (待预测文本)

Pencocokan teks

 import torch
import pandas as pd

from ark_nlp . model . tm . bert import Bert
from ark_nlp . model . tm . bert import BertConfig
from ark_nlp . model . tm . bert import Dataset
from ark_nlp . model . tm . bert import Task
from ark_nlp . model . tm . bert import get_default_model_optimizer
from ark_nlp . model . tm . bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text_a"、"text_b"和"label"
# text_a和text_b列为文本，label列为匹配标签
tm_train_dataset = Dataset ( train_data_df )
tm_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
tm_train_dataset . convert_to_ids ( tokenizer )
tm_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                   num_labels = len ( tm_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                 config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( tm_train_dataset , 
          tm_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . tm . bert import Predictor

tm_predictor_instance = Predictor ( model . module , tokenizer , tm_train_dataset . cat2id )

tm_predictor_instance . predict_one_sample ([待预测文本A , 待预测文本B ])

Entitas bernama

 import torch
import pandas as pd

from ark_nlp . model . ner . crf_bert import CRFBert
from ark_nlp . model . ner . crf_bert import CRFBertConfig
from ark_nlp . model . ner . crf_bert import Dataset
from ark_nlp . model . ner . crf_bert import Task
from ark_nlp . model . ner . crf_bert import get_default_model_optimizer
from ark_nlp . model . ner . crf_bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# {'start_idx': 实体首字符在文本的位置, 'end_idx': 实体尾字符在文本的位置, 'type': 实体类型标签, 'entity': 实体}
ner_train_dataset = Dataset ( train_data_df )
ner_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
ner_train_dataset . convert_to_ids ( tokenizer )
ner_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = CRFBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                  num_labels = len ( ner_train_dataset . cat2id ))
dl_module = CRFBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                    config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( ner_train_dataset , 
          ner_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . ner . crf_bert import Predictor

ner_predictor_instance = Predictor ( model . module , tokenizer , ner_train_dataset . cat2id )

ner_predictor_instance . predict_one_sample (待抽取文本)

Ekstraksi hubungan casrel

 import torch
import pandas as pd

from ark_nlp . model . re . casrel_bert import CasRelBert
from ark_nlp . model . re . casrel_bert import CasRelBertConfig
from ark_nlp . model . re . casrel_bert import Dataset
from ark_nlp . model . re . casrel_bert import Task
from ark_nlp . model . re . casrel_bert import get_default_model_optimizer
from ark_nlp . model . re . casrel_bert import Tokenizer
from ark_nlp . factory . loss_function import CasrelLoss

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_data_df )
re_dev_dataset = Dataset ( dev_data_df ,
                         categories = re_train_dataset . categories ,
                         is_train = False )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )

# 文本切分、ID化
# 注意：casrel的代码这部分其实并没有进行切分、ID化，仅是将分词器赋予dataset对象
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = CasRelBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                          num_labels = len ( re_train_dataset . cat2id ))
dl_module = CasRelBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                       config = config )

# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , CasrelLoss (), cuda_device = 0 )

# 训练
model . fit ( re_train_dataset , 
          re_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . re . casrel_bert import Predictor

casrel_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )

casrel_re_predictor_instance . predict_one_sample (待抽取文本)

Ekstraksi hubungan PRGC

 import torch
import pandas as pd

from ark_nlp . model . re . prgc_bert import PRGCBert
from ark_nlp . model . re . prgc_bert import PRGCBertConfig
from ark_nlp . model . re . prgc_bert import Dataset
from ark_nlp . model . re . prgc_bert import Task
from ark_nlp . model . re . prgc_bert import get_default_model_optimizer
from ark_nlp . model . re . prgc_bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_df , is_retain_dataset = True )
re_dev_dataset = Dataset ( dev_df ,
                         categories = re_train_dataset . categories ,
                         is_train = False )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )

# 文本切分、ID化
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = PRGCBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                          num_labels = len ( re_train_dataset . cat2id ))
dl_module = PRGCBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                       config = config )

# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , None , cuda_device = 0 )

# 训练
model . fit ( re_train_dataset , 
          re_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . re . prgc_bert import Predictor

prgc_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )

prgc_re_predictor_instance . predict_one_sample (待抽取文本)

Diskusigroup

Akun Resmi: Dataark

Wechat wechat

WeChat ID: FK95624

Kontributor utama

_xiangking

_Jimme

_Zrealshadow

Mengakui

Proyek ini digunakan untuk mengumpulkan dan mereproduksi model NLP yang umum digunakan dalam akademik dan pekerjaan, dan mengintegrasikannya ke dalam bentuk panggilan yang nyaman, sehingga dirujuk oleh banyak implementasi sumber terbuka di Internet. Jika ada aspek yang tidak pantas, silakan hubungi kami untuk kritik dan nasihat. Di sini, terima kasih teman -teman atas implementasi open source Anda.

Memperluas

Informasi Tambahan

Versi V0.0.9
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-17
ukuran 298.72KB
Berasal dari Github

Aplikasi Terkait

ARK 4

2024-11-02
game seluler gadis pertempuran bahtera asli

2024-02-16
Permainan Bahtera Terakhir

2023-09-05
Bentrokan Bahtera

2023-03-15
BAHTERA: Aktif

2022-08-30
Xenias Ark

2022-07-30

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua