
생산 환경을위한 다국어 자연어 처리 툴킷은 Pytorch 및 Tensorflow 2.X 듀얼 엔진을 기반으로하며 가장 최첨단 NLP 기술을 대중화하는 목표를 달성합니다. HANLP는 완전한 기능, 정확한 정확도, 효율적인 성능, 새로운 코퍼스, 명확한 아키텍처 및 사용자 정의 가능한 특성을 가지고 있습니다.
HANLP2.1은 세계 최대의 다국어 코퍼스를 통해 전통적인 중국어, 중국어, 영어, 일본어, 일본어, 러시아어, 프랑스어 및 독일어를 포함한 130 개 언어로 10 개의 공동 작업과 여러 단일 작업을 지원합니다. HANLP는 12 개 이상의 작업에서 수십 개의 모델을 사전 훈련시키고 코퍼스와 모델을 지속적으로 반복하고 있습니다.
| 기능 | 평안한 | 멀티 태스킹 | 단일 작업 | 모델 | 라벨링 표준 |
|---|---|---|---|---|---|
| 분사 | 지도 시간 | 지도 시간 | 지도 시간 | 토크 | 거친, 세분 |
| 언어 주석의 일부 | 지도 시간 | 지도 시간 | 지도 시간 | POS | CTB, PKU, 863 |
| 지명 된 엔티티 인식 | 지도 시간 | 지도 시간 | 지도 시간 | 네르 | PKU, MSRA, Ontonotes |
| 의존성 구문 분석 | 지도 시간 | 지도 시간 | 지도 시간 | DEP | SD, UD, PMT |
| 구성 요소 구문 분석 | 지도 시간 | 지도 시간 | 지도 시간 | 범죄자 | 중국 나무 은행 |
| 시맨틱 의존성 분석 | 지도 시간 | 지도 시간 | 지도 시간 | SDP | CSDP |
| 시맨틱 역할 주석 | 지도 시간 | 지도 시간 | 지도 시간 | SRL | 중국 제안 은행 |
| 추상 의미 표현 | 지도 시간 | 아직 없음 | 지도 시간 | AMR | 캠 |
| 용해를 나타냅니다 | 지도 시간 | 아직 없음 | 아직 없음 | 아직 없음 | Ontonotes |
| 시맨틱 텍스트 유사성 | 지도 시간 | 아직 없음 | 지도 시간 | STS | 아직 없음 |
| 텍스트 스타일 변환 | 지도 시간 | 아직 없음 | 아직 없음 | 아직 없음 | 아직 없음 |
| 키워드 문구 추출 | 지도 시간 | 아직 없음 | 아직 없음 | 아직 없음 | 아직 없음 |
| 추출 된 자동 요약 | 지도 시간 | 아직 없음 | 아직 없음 | 아직 없음 | 아직 없음 |
| 생성 자동 요약 | 지도 시간 | 아직 없음 | 아직 없음 | 아직 없음 | 아직 없음 |
| 텍스트 구문 수정 | 지도 시간 | 아직 없음 | 아직 없음 | 아직 없음 | 아직 없음 |
| 텍스트 분류 | 지도 시간 | 아직 없음 | 아직 없음 | 아직 없음 | 아직 없음 |
| 감정 분석 | 지도 시간 | 아직 없음 | 아직 없음 | 아직 없음 | [-1,+1] |
| 언어 탐지 | 지도 시간 | 아직 없음 | 지도 시간 | 아직 없음 | ISO 639-1 인코딩 |
맞춤형 HANLP는 두 가지 API를 제공합니다. RESTFUL 및 NATIVE 는 가벼운 두 가지 시나리오의 시나리오를 목표로합니다. API와 언어에 관계없이 HANLP 인터페이스는 의미 적으로 일관성을 유지하며 코드의 오픈 소스를 주장합니다. 연구에 HANLP를 사용한 경우 EMNLP 용지를 인용하십시오.
민첩한 개발, 모바일 앱 및 기타 시나리오에 적합한 KB 만. 간단하고 사용하기 쉬우 며 GPU가 설치할 필요가 없으며 몇 초 만에 설치됩니다. 더 많은 코퍼스, 더 큰 모델, 더 높은 정확도, 적극 권장됩니다 . 서버 GPU 컴퓨팅 전력은 제한되어 있으며 익명 사용자 할당량은 작습니다. 무료 공공 복지 API 키 auth 신청하는 것이 좋습니다.
pip install hanlp_restful클라이언트를 생성하고 서버 주소 및 비밀 키를 작성하십시오.
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种 go get -u github.com/hankcs/gohanlp@main 설치하고 클라이언트를 만들고 서버 주소를 작성하고 비밀 키를 작성하십시오.
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 pom.xml 에 종속성 추가 :
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >클라이언트를 생성하고 서버 주소 및 비밀 키를 작성하십시오.
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种 어떤 개발 언어에 관계없이, parse 인터페이스에 전화하여 기사를 통과하여 HANLP의 정확한 분석 결과를 얻으십시오.
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )더 많은 기능은 문서 및 테스트 사례를 참조하십시오.
Pytorch 및 Tensorflow와 같은 딥 러닝 기술에 의존하여 전문 NLP 엔지니어, 연구원 및 지역 대규모 데이터 시나리오에 적합합니다. Python 3.6 ~ 3.10이 필요하고 Windows를 지원하며 *Nix가 권장됩니다. CPU에서 실행할 수 있으며 GPU/TPU가 권장됩니다. Pytorch 버전 설치 :
pip install hanlpHANLP가 발표 한 모델은 멀티 태스킹과 단일 작업의 두 가지 유형으로 나뉩니다. 멀티 태스킹 속도는 빠르며 비디오 메모리를 저장하며 단일 작업 정확도는 높고 유연합니다.
HANLP의 워크 플로우는 모델을로드 한 다음 다음 공동 멀티 태스킹 모델과 같은 함수라고하는 것입니다.
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])기본 API의 입력 단위는 문장이며, 다국어 조항 모델 또는 규칙 기반 조항 함수를 사전 섹션에 사용해야합니다. 두 개의 API RESTFUL 및 NATIVE의 시맨틱 설계는 완전히 일관성이 있으며 사용자는 원활하게 교환 할 수 있습니다. 간단한 인터페이스는 유연한 매개 변수도 지원합니다. 일반적인 기술에는 다음이 포함됩니다.
tasks 스케줄링, 작업이 적을수록 속도가 빨라집니다. 자세한 내용은 자습서를 참조하십시오. 메모리가 제한된 시나리오에서 사용자는 불필요한 작업을 삭제하여 모델 슬림의 효과를 달성 할 수 있습니다.최신 연구에 따르면 멀티 태스킹 학습의 장점은 속도와 비디오 메모리에있어 있지만 정확도는 종종 단일 작업 모델만큼 좋지 않습니다. 따라서 HANLP는 많은 단일 작업 모델을 사전에 사전하고 우아한 파이프 라인 모드를 설계하여이를 조립했습니다.
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )더 많은 기능은 더 많은 모델과 사용에 대해서는 데모 및 문서를 참조하십시오.
API, 개발 언어 및 자연 언어에 관계없이 HANLP의 출력은 dict 의 json 형식 호환 Document 로 통합됩니다.
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}특히, Python Restful 및 Native API는 콘솔에서 언어 구조를 직접 시각화 할 수있는 Monospace 글꼴을 기반으로 시각화를 지원합니다.
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ 레이블 세트의 의미에 대해서는 "언어 레이블 사양"및 "형식 사양"을 참조하십시오. 우리는 공동 다중 언어 다중 태스크 학습을 위해 세계 최대의 가장 크고 다양한 코퍼스를 구매, 표시 또는 사용 했으므로 HANLP의 주석 세트도 가장 광범위합니다.
딥 러닝 모델을 작성하는 것은 전혀 어렵지 않지만 어려움은 더 높은 정확도를 재현하는 것입니다. 다음 코드는 Sighan2005 PKU 코퍼스에서 6 분을 지출하여 학문 세계를 넘어서는 중국어 단어 세분화 모델을 훈련시키는 방법을 보여줍니다.
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir ) 그중에서도 무작위 숫자 종자가 지정되므로 결과는 96.73 이어야합니다. 허위 광고 된 학술 논문이나 상업 프로젝트와 달리 HANLP는 모든 결과를 재현 할 수 있다고 보장합니다. 궁금한 점이 있으면 문제를 가장 우선 순위 치명적인 버그로 문제 해결합니다.
더 많은 교육 스크립트는 데모를 참조하십시오.
| 랭 | Corpora | 모델 | 토크 | POS | 네르 | DEP | 범죄자 | SRL | SDP | 렘 | fea | AMR | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 괜찮은 | 조잡한 | CTB | PKU | 863 | UD | PKU | MSRA | Ontonotes | Semeval16 | DM | 우선권 | PSD | |||||||||
| 뮬 | UD2.7 Ontonotes5 | 작은 | 98.62 | - | - | - | - | 93.23 | - | - | 74.42 | 79.10 | 76.85 | 70.63 | - | 91.19 | 93.67 | 85.34 | 87.71 | 84.51 | - |
| 베이스 | 98.97 | - | - | - | - | 90.32 | - | - | 80.32 | 78.74 | 71.23 | 73.63 | - | 92.60 | 96.04 | 81.19 | 85.08 | 82.13 | - | ||
| ZH | 열려 있는 | 작은 | 97.25 | - | 96.66 | - | - | - | - | - | 95.00 | 84.57 | 87.62 | 73.40 | 84.57 | - | - | - | - | - | - |
| 베이스 | 97.50 | - | 97.07 | - | - | - | - | - | 96.04 | 87.11 | 89.84 | 77.78 | 87.11 | - | - | - | - | - | - | ||
| 닫다 | 작은 | 96.70 | 95.93 | 96.87 | 97.56 | 95.05 | - | 96.22 | 95.74 | 76.79 | 84.44 | 88.13 | 75.81 | 74.28 | - | - | - | - | - | - | |
| 베이스 | 97.52 | 96.44 | 96.99 | 97.59 | 95.29 | - | 96.48 | 95.72 | 77.77 | 85.29 | 88.57 | 76.52 | 73.76 | - | - | - | - | - | - | ||
| 어니 | 96.95 | 97.29 | 96.76 | 97.64 | 95.22 | - | 97.31 | 96.47 | 77.95 | 85.67 | 89.17 | 78.51 | 74.10 | - | - | - | - | - | - | ||
HANLP에 의해 채택 된 데이터 전처리 및 분할 비율은 반드시 인기있는 방법과 동일하지는 않습니다. 예를 들어, HANLP는 대중이 사용하는 거세 버전 대신 MSRA라는 MSRA라는 엔티티 인식 코퍼스의 정식 버전을 채택합니다. HANLP는 학술 공동체가 채택한 Zhang and Clark (2008) 표준이 아닌 더 넓은 구문 범위와 함께 Stanford 의존성 표준을 사용합니다. HANLP는 고르지 않은 학술 커뮤니티 대신 CTB의 균일 한 세분화 방법을 제안하고 51 개의 금 문서가 누락되었습니다. HANLP는 중국 NLP의 투명성을 촉진하기 위해 노력하는 전체 코퍼스 사전 처리 스크립트와 해당 코퍼스의 소스를 엽니 다.
요컨대, HANLP는 우리가 옳고 발전한다고 생각하는 것만으로, 반드시 대중적이고 권위있는 것은 아닙니다.
연구에서 HANLP를 사용하는 경우 다음 형식으로 인용하십시오.
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}HANLP 소스 코드에 대한 승인 계약은 Apache License 2.0 이며, 상업적 목적으로 무료로 사용할 수 있습니다. HANLP의 링크 및 승인 계약을 제품 설명에 첨부하십시오. HANLP는 저작권법에 의해 보호되며 침해는 추구됩니다.
HANLP는 자연 시맨틱 (Qingdao) Technology Co., Ltd.와 함께 V1.7과 독립적으로 작동하여 프로젝트의 본문으로서 후속 버전의 개발을 이끌고 후속 버전의 저작권을 갖습니다.
HANLP v1.3 ~ V1.65 버전은 Dakuai Search에서 개발되며 계속 오픈 소스입니다. Dakuai Search에는 관련 저작권이 있습니다.
HANLP는 초기에 Shanghai Linyuan Company의 지원을 받았으며 1.28 및 이전 버전의 저작권을 보유하고 있습니다. 관련 버전은 상하이 Linyuan Company 웹 사이트에서도 출시되었습니다.
기계 학습 모델의 승인은 법적으로 결정되지 않았지만 오픈 소스 코퍼스의 원래 승인을 존중하는 정신으로, 구체적으로 언급되지는 않았지만 HANLP의 다국어 모델 승인은 CC By-NC-SA 4.0을 계속 사용하고 있으며 중국 모델 승인은 연구 및 교육 목적에만 해당됩니다.
https://hanlp.hankcs.com/docs/references.html