KoBERT下载KoBERT源代码下载

KoBERT

其他源码

1.0.0

下载

科伯特

科伯特
- 韩国伯特预培训的壳牌（Kobert）
  - 为什么 '？'
  - 培训环境
  - 要求
  - 如何安装
- 如何使用
  - 与Pytorch一起使用
  - 与Onnx一起使用
  - 与mxnet-gluon一起使用
  - 令牌
- 子任务
  - NAVER情绪分析
  - 由Kobert和CRF制造的韩国对象名称识别机
  - 韩国句子伯特
- 发布
- 联系人
- 执照

韩国伯特预培训的壳牌（Kobert）

为什么 '？'

Google Bert Base多语言案例

培训环境

建筑学

 predefined_args = {
        'attention_cell' : 'multi_head' ,
        'num_layers' : 12 ,
        'units' : 768 ,
        'hidden_size' : 3072 ,
        'max_length' : 512 ,
        'num_heads' : 12 ,
        'scaled' : True ,
        'dropout' : 0.1 ,
        'use_residual' : True ,
        'embed_size' : 768 ,
        'embed_dropout' : 0.1 ,
        'token_type_vocab_size' : 2 ,
        'word_embed' : None ,
    }

学习集

数据	句子	单词
韩国维基	5m	54m

学习环境
- V100 GPU X 32，Horovod（带有Infiniband）

2019-04-29张板日志

词汇
- 尺寸：8,002
- 基于Hangul Wiki学习的Nizor学习
- 较少的参数（92m <110m）

要求

请参阅要求

如何安装

将Kobert作为Python包装

pip install git+https://[email protected]/SKTBrain/KoBERT.git@master

如果要修改源代码，请克隆此存储库

git clone https://github.com/SKTBrain/KoBERT.git
cd KoBERT
pip install -r requirements.txt

如何使用

Pytorch

如果您对HuggingFace Transformers API感到满意，请参见此处。

 > >> import torch
> >> from kobert import get_pytorch_kobert_model
> >> input_ids = torch . LongTensor ([[ 31 , 51 , 99 ], [ 15 , 5 , 0 ]])
> >> input_mask = torch . LongTensor ([[ 1 , 1 , 1 ], [ 1 , 1 , 0 ]])
> >> token_type_ids = torch . LongTensor ([[ 0 , 0 , 1 ], [ 0 , 1 , 0 ]])
> >> model , vocab  = get_pytorch_kobert_model ()
> >> sequence_output , pooled_output = model ( input_ids , input_mask , token_type_ids )
> >> pooled_output . shape
torch . Size ([ 2 , 768 ])
> >> vocab
Vocab ( size = 8002 , unk = "[UNK]" , reserved = "['[MASK]', '[SEP]', '[CLS]']" )
> >> # Last Encoding Layer
>> > sequence_output [ 0 ]
tensor ([[ - 0.2461 ,  0.2428 ,  0.2590 ,  ..., - 0.4861 , - 0.0731 ,  0.0756 ],
        [ - 0.2478 ,  0.2420 ,  0.2552 ,  ..., - 0.4877 , - 0.0727 ,  0.0754 ],
        [ - 0.2472 ,  0.2420 ,  0.2561 ,  ..., - 0.4874 , - 0.0733 ,  0.0765 ]],
       grad_fn = < SelectBackward > )

model返回到默认情况下的eval()模式，因此在用于学习时必须通过model.train()命令更改为学习模式。

用pytorch进行调味
- COLAB建议使用[Runtime] - [更改运行时类型] -Hardware Accelerator（GPU）。

onnx

 > >> import onnxruntime
> >> import numpy as np
> >> from kobert import get_onnx_kobert_model
> >> onnx_path = get_onnx_kobert_model ()
> >> sess = onnxruntime . InferenceSession ( onnx_path )
> >> input_ids = [[ 31 , 51 , 99 ], [ 15 , 5 , 0 ]]
> >> input_mask = [[ 1 , 1 , 1 ], [ 1 , 1 , 0 ]]
> >> token_type_ids = [[ 0 , 0 , 1 ], [ 0 , 1 , 0 ]]
> >> len_seq = len ( input_ids [ 0 ])
> >> pred_onnx = sess . run ( None , { 'input_ids' : np . array ( input_ids ),
>> >                             'token_type_ids' : np . array ( token_type_ids ),
>> >                             'input_mask' : np . array ( input_mask ),
>> >                             'position_ids' : np . array ( range ( len_seq ))})
> >> # Last Encoding Layer
>> > pred_onnx [ - 2 ][ 0 ]
array ([[ - 0.24610452 ,  0.24282141 ,  0.25895312 , ..., - 0.48613444 ,
        - 0.07305173 ,  0.07560554 ],
       [ - 0.24783179 ,  0.24200465 ,  0.25520486 , ..., - 0.4877185 ,
        - 0.0727044 ,  0.07536091 ],
       [ - 0.24721591 ,  0.24196623 ,  0.2560626 , ..., - 0.48743123 ,
        - 0.07326943 ,  0.07650235 ]], dtype = float32 )

ONNX转换有助于Soeque1。

mxnet-gluon

 > >> import mxnet as mx
> >> from kobert import get_mxnet_kobert_model
> >> input_id = mx . nd . array ([[ 31 , 51 , 99 ], [ 15 , 5 , 0 ]])
> >> input_mask = mx . nd . array ([[ 1 , 1 , 1 ], [ 1 , 1 , 0 ]])
> >> token_type_ids = mx . nd . array ([[ 0 , 0 , 1 ], [ 0 , 1 , 0 ]])
> >> model , vocab = get_mxnet_kobert_model ( use_decoder = False , use_classifier = False )
> >> encoder_layer , pooled_output = model ( input_id , token_type_ids )
> >> pooled_output . shape
( 2 , 768 )
> >> vocab
Vocab ( size = 8002 , unk = "[UNK]" , reserved = "['[MASK]', '[SEP]', '[CLS]']" )
> >> # Last Encoding Layer
>> > encoder_layer [ 0 ]
[[ - 0.24610372  0.24282135  0.2589539  ... - 0.48613444 - 0.07305248
   0.07560539 ]
 [ - 0.24783105  0.242005    0.25520545 ... - 0.48771808 - 0.07270523
   0.07536077 ]
 [ - 0.24721491  0.241966    0.25606337 ... - 0.48743105 - 0.07327032
   0.07650219 ]]
< NDArray 3 x768 @ cpu ( 0 ) >

用mxnet进行naver termentimentineitine tuning

令牌

备用令牌的式令牌

 > >> from gluonnlp . data import SentencepieceTokenizer
> >> from kobert import get_tokenizer
> >> tok_path = get_tokenizer ()
> >> sp  = SentencepieceTokenizer ( tok_path )
> >> sp ( '한국어 모델을 공유합니다.' )
[ '▁한국' , '어' , '▁모델' , '을' , '▁공유' , '합니다' , '.' ]

任务微调

NAVER情绪分析

数据集：https：//github.com/e9t/nsmc

模型	准确性
Bert Base多语言案例	0.875
科伯特	0.901
科格普22	0.899

由Kobert和CRF制造的韩国对象名称识别机

https://github.com/eagle705/pytorch-bert-crf-ner

 문장을 입력하세요:  SKTBrain에서 KoBERT 모델을 공개해준 덕분에 BERT-CRF 기반 객체명인식기를 쉽게 개발할 수 있었다.
len: 40, input_token:['[CLS]', '▁SK', 'T', 'B', 'ra', 'in', '에서', '▁K', 'o', 'B', 'ER', 'T', '▁모델', '을', '▁공개', '해', '준', '▁덕분에', '▁B', 'ER', 'T', '-', 'C', 'R', 'F', '▁기반', '▁', '객', '체', '명', '인', '식', '기를', '▁쉽게', '▁개발', '할', '▁수', '▁있었다', '.', '[SEP]']
len: 40, pred_ner_tag:['[CLS]', 'B-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'O', 'B-POH', 'I-POH', 'I-POH', 'I-POH', 'I-POH', 'O', 'O', 'O', 'O', 'O', 'O', 'B-POH', 'I-POH', 'I-POH', 'I-POH', 'I-POH', 'I-POH', 'I-POH', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', '[SEP]']
decoding_ner_sentence: [CLS] <SKTBrain:ORG>에서 <KoBERT:POH> 모델을 공개해준 덕분에 <BERT-CRF:POH> 기반 객체명인식기를 쉽게 개발할 수 있었다.[SEP]

韩国句子伯特

https://github.com/bm-k/kosentencebert-skt

模型	余弦皮尔逊	余弦斯皮尔曼	欧两者的皮尔森	Eucliding Spearman	曼哈顿皮尔逊	曼哈顿斯皮尔曼	Dot Pearson	Dot Spearman
nll	65.05	68.48	68.81	68.18	68.90	68.20	65.22	66.81
sts	80.42	79.64	77.93	77.43	77.92	77.44	76.56	75.83
STS + NLI	78.81	78.47	77.68	77.78	77.71	77.83	75.75	75.22

发布

v0.2.3
- 支持onnx 1.8.0
v0.2.2
- 修复No module named 'kobert.utils'
v0.2.1
- 指南默认语句'
v0.2
- 从aws s3下载大文件
- 重命名功能
v0.1.2
- 保证与更高版本的变压器兼容
- 修复垫令牌索引ID
v0.1.1
- 词汇和谈话nizor整合
v0.1
- 初始型号发布

联系人

请在此处注册与KoBERT相关的问题。

执照

KoBERT以Apache-2.0许可发布。如果您使用的是模型和代码，请遵循许可内容。许可专家可以在LICENSE文件中找到。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-18
大小 103.23KB
来自于 Github

KoBERT

科伯特

韩国伯特预培训的壳牌（Kobert）

为什么 '？'

培训环境

要求

如何安装

如何使用

Pytorch

onnx

mxnet-gluon

令牌

任务微调

NAVER情绪分析

由Kobert和CRF制造的韩国对象名称识别机

韩国句子伯特

发布

联系人

执照

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express