ark nlpダウンロードark nlpソースコードのダウンロード

ark nlp

その他のソースコード

V0.0.9

ダウンロード

ARK-NLP

ARK-NLPは、主に学術および仕事で一般的に使用されるNLPモデルを収集および再現します。

環境

Python 3
トーチ> = 1.0.0、<1.10.0
TQDM> = 4.56.0
Jieba> = 0.42.1
トランス> = 3.0.0
Zhon> = 1.1.5
scipy> = 1.2.0
Scikit-Learn> = 0.17.0

ピップのインストール

 pip install --upgrade ark-nlp

プロジェクト構造

ark_nlp	オープンソースの自然言語加工ライブラリ
ark_nlp.dataset	データの読み込み、処理、変換などの関数をカプセル化する
ark_nlp.nn	いくつかの完全なニューラルネットワークモデルをカプセル化します
ark_nlp.processor	カプセル化された単語セグメンテーション、辞書、構成など。
ark_nlp.factory	損失関数、オプティマイザー、トレーニングおよび予測関数のカプセル化
ark_nlp.model	実際のNLPタスクに応じて一般的に使用されるモデルをカプセル化し、簡単に呼び出すことができます

実装されたモデル

事前に訓練されたモデル

モデル	参照
バート	BERT：言語理解のための深い双方向変圧器の事前訓練
ernie1.0	アーニー：知識統合による表現の強化
ネザ	Nezha：中国語の理解のための神経文脈化された表現
roforder	Roformer：回転位置の埋め込みを備えた強化されたトランス
ernie-ctm	ernie-ctm（中国のテキスト採掘のためのアーニー）

テキスト分類

モデル	導入
RNN/CNN/GRU/LSTM	RNN、CNN、GRU、LSTMなどの古典的なテキスト分類構造。
バート/アーニー	一般的に使用される事前に訓練されたモデル分類

テキストマッチング

モデル	導入
バート/アーニー	一般的に使用されていた事前に使用されたモデルマッチング分類
監視されていないシム	監視されていないSIMCSEマッチングアルゴリズム
コセント	Cosent：文章よりも効率的な文ベクトルスキーム

名前付きエンティティ認識

モデル	参照	ペーパーソースコード
CRFバート
Biaffine Bert
スパンバート
グローバルポインターバート	GlobalPointer：ネストされたネットと非ネックのNERを統一された方法でハンドルする
効率的なグローバルポインターバート	効率的なGlobalPointer：パラメーターが少なく、効果が増えます
W2ner Bert	ワードワード関係の分類として統一された名前付きエンティティ認識	github

関係抽出

モデル	参照	ペーパーソースコード
カスレル	リレーショナルトリプル抽出のための新しいカスケードバイナリタグフレームワーク	github
PRGC	PRGC：潜在的な関係とグローバル対応ベースのジョイントリレーショナルトリプル抽出	github

情報抽出

モデル	参照	ペーパーソースコード
PROMPTUIE	ユニバーサル情報抽出uie（ユニバーサル情報抽出）	github

少数のショット学習

モデル	参照	ペーパーソースコード
Promptbert	トレイン前、プロンプト、および予測：自然言語処理におけるプロンプトの方法に関する体系的な調査）

実用的なアプリケーション

CHIP2021-TASK3-Clinical Terminology Standardization Task-3ird Place
chip2021-task1-medical Dialogue Clinical Discoveryタスクファーストプレイス
中国の医療情報処理チャレンジリストcblue

例を使用してください

完全なコードについては、 testフォルダーを参照してください。

テキスト分類

 import torch
import pandas as pd

from ark_nlp . model . tc . bert import Bert
from ark_nlp . model . tc . bert import BertConfig
from ark_nlp . model . tc . bert import Dataset
from ark_nlp . model . tc . bert import Task
from ark_nlp . model . tc . bert import get_default_model_optimizer
from ark_nlp . model . tc . bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本，label列为分类标签
tc_train_dataset = Dataset ( train_data_df )
tc_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
tc_train_dataset . convert_to_ids ( tokenizer )
tc_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                   num_labels = len ( tc_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                 config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( tc_train_dataset , 
          tc_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . tc . bert import Predictor

tc_predictor_instance = Predictor ( model . module , tokenizer , tc_train_dataset . cat2id )

tc_predictor_instance . predict_one_sample (待预测文本)

テキストマッチング

 import torch
import pandas as pd

from ark_nlp . model . tm . bert import Bert
from ark_nlp . model . tm . bert import BertConfig
from ark_nlp . model . tm . bert import Dataset
from ark_nlp . model . tm . bert import Task
from ark_nlp . model . tm . bert import get_default_model_optimizer
from ark_nlp . model . tm . bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text_a"、"text_b"和"label"
# text_a和text_b列为文本，label列为匹配标签
tm_train_dataset = Dataset ( train_data_df )
tm_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
tm_train_dataset . convert_to_ids ( tokenizer )
tm_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = BertConfig . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                   num_labels = len ( tm_train_dataset . cat2id ))
dl_module = Bert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                 config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( tm_train_dataset , 
          tm_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . tm . bert import Predictor

tm_predictor_instance = Predictor ( model . module , tokenizer , tm_train_dataset . cat2id )

tm_predictor_instance . predict_one_sample ([待预测文本A , 待预测文本B ])

名前付きエンティティ

 import torch
import pandas as pd

from ark_nlp . model . ner . crf_bert import CRFBert
from ark_nlp . model . ner . crf_bert import CRFBertConfig
from ark_nlp . model . ner . crf_bert import Dataset
from ark_nlp . model . ner . crf_bert import Task
from ark_nlp . model . ner . crf_bert import get_default_model_optimizer
from ark_nlp . model . ner . crf_bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# {'start_idx': 实体首字符在文本的位置, 'end_idx': 实体尾字符在文本的位置, 'type': 实体类型标签, 'entity': 实体}
ner_train_dataset = Dataset ( train_data_df )
ner_dev_dataset = Dataset ( dev_data_df )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 30 )

# 文本切分、ID化
ner_train_dataset . convert_to_ids ( tokenizer )
ner_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = CRFBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                  num_labels = len ( ner_train_dataset . cat2id ))
dl_module = CRFBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                    config = config )

# 任务构建
num_epoches = 10
batch_size = 32
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , 'ce' , cuda_device = 0 )

# 训练
model . fit ( ner_train_dataset , 
          ner_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . ner . crf_bert import Predictor

ner_predictor_instance = Predictor ( model . module , tokenizer , ner_train_dataset . cat2id )

ner_predictor_instance . predict_one_sample (待抽取文本)

カスレル関係の抽出

 import torch
import pandas as pd

from ark_nlp . model . re . casrel_bert import CasRelBert
from ark_nlp . model . re . casrel_bert import CasRelBertConfig
from ark_nlp . model . re . casrel_bert import Dataset
from ark_nlp . model . re . casrel_bert import Task
from ark_nlp . model . re . casrel_bert import get_default_model_optimizer
from ark_nlp . model . re . casrel_bert import Tokenizer
from ark_nlp . factory . loss_function import CasrelLoss

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_data_df )
re_dev_dataset = Dataset ( dev_data_df ,
                         categories = re_train_dataset . categories ,
                         is_train = False )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )

# 文本切分、ID化
# 注意：casrel的代码这部分其实并没有进行切分、ID化，仅是将分词器赋予dataset对象
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = CasRelBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                          num_labels = len ( re_train_dataset . cat2id ))
dl_module = CasRelBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                       config = config )

# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , CasrelLoss (), cuda_device = 0 )

# 训练
model . fit ( re_train_dataset , 
          re_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . re . casrel_bert import Predictor

casrel_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )

casrel_re_predictor_instance . predict_one_sample (待抽取文本)

PRGC関係抽出

 import torch
import pandas as pd

from ark_nlp . model . re . prgc_bert import PRGCBert
from ark_nlp . model . re . prgc_bert import PRGCBertConfig
from ark_nlp . model . re . prgc_bert import Dataset
from ark_nlp . model . re . prgc_bert import Task
from ark_nlp . model . re . prgc_bert import get_default_model_optimizer
from ark_nlp . model . re . prgc_bert import Tokenizer

# 加载数据集
# train_data_df的columns必选包含"text"和"label"
# text列为文本
# label列为列表形式，列表中每个元素是如下组织的字典
# [头实体, 头实体首字符在文本的位置, 头实体尾字符在文本的位置, 关系类型, 尾实体, 尾实体首字符在文本的位置, 尾实体尾字符在文本的位置]
re_train_dataset = Dataset ( train_df , is_retain_dataset = True )
re_dev_dataset = Dataset ( dev_df ,
                         categories = re_train_dataset . categories ,
                         is_train = False )

# 加载分词器
tokenizer = Tokenizer ( vocab = 'nghuyong/ernie-1.0' , max_seq_len = 100 )

# 文本切分、ID化
re_train_dataset . convert_to_ids ( tokenizer )
re_dev_dataset . convert_to_ids ( tokenizer )

# 加载预训练模型
config = PRGCBertConfig . from_pretrained ( 'nghuyong/ernie-1.0' ,
                                          num_labels = len ( re_train_dataset . cat2id ))
dl_module = PRGCBert . from_pretrained ( 'nghuyong/ernie-1.0' , 
                                       config = config )

# 任务构建
num_epoches = 40
batch_size = 16
optimizer = get_default_model_optimizer ( dl_module )
model = Task ( dl_module , optimizer , None , cuda_device = 0 )

# 训练
model . fit ( re_train_dataset , 
          re_dev_dataset ,
          lr = 2e-5 ,
          epochs = 5 , 
          batch_size = batch_size
         )

# 推断
from ark_nlp . model . re . prgc_bert import Predictor

prgc_re_predictor_instance = Predictor ( model . module , tokenizer , re_train_dataset . cat2id )

prgc_re_predictor_instance . predict_one_sample (待抽取文本)

ディスカッショングループ

公式アカウント： dataark

wechat

WeChat ID： FK95624

主な貢献者

_xiankking

_ジム

_ZREALSHADOW

認める

このプロジェクトは、学術と作業で一般的に使用されるNLPモデルを収集および再現し、それらを便利な形式の呼び出しに統合するために使用されるため、インターネット上の多くのオープンソースの実装によって参照されます。不適切な側面がある場合は、批判とアドバイスについてはお問い合わせください。ここで、オープンソースの実装をありがとうございました。

拡大する

追加情報

バージョン V0.0.9
タイプその他のソースコード
更新時間 2025-04-17
サイズ 298.72KB
から Github

ark nlp

ARK-NLP

環境

ピップのインストール

プロジェクト構造

実装されたモデル

事前に訓練されたモデル

テキスト分類

テキストマッチング

名前付きエンティティ認識

関係抽出

情報抽出

少数のショット学習

実用的なアプリケーション

例を使用してください

ディスカッショングループ

主な貢献者

認める

ARK 4

アークバトルガールズモバイルゲーム正規品

最後の箱舟ゲーム

クラッシュ・オブ・アーク

アーク：オン

クセニアス・アーク

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express