HanLP 다운로드 HanLP 소스 코드 다운로드

HANLP : 한 언어 처리

영어 | 일본어 | 문서 | 논문 | 포럼 | 도커 | ▶ ️ 온라인으로 실행하십시오

생산 환경을위한 다국어 자연어 처리 툴킷은 Pytorch 및 Tensorflow 2.X 듀얼 엔진을 기반으로하며 가장 최첨단 NLP 기술을 대중화하는 목표를 달성합니다. HANLP는 완전한 기능, 정확한 정확도, 효율적인 성능, 새로운 코퍼스, 명확한 아키텍처 및 사용자 정의 가능한 특성을 가지고 있습니다.

HANLP2.1은 세계 최대의 다국어 코퍼스를 통해 전통적인 중국어, 중국어, 영어, 일본어, 일본어, 러시아어, 프랑스어 및 독일어를 포함한 130 개 언어로 10 개의 공동 작업과 여러 단일 작업을 지원합니다. HANLP는 12 개 이상의 작업에서 수십 개의 모델을 사전 훈련시키고 코퍼스와 모델을 지속적으로 반복하고 있습니다.

기능	평안한	멀티 태스킹	단일 작업	모델	라벨링 표준
분사	지도 시간	지도 시간	지도 시간	토크	거친, 세분
언어 주석의 일부	지도 시간	지도 시간	지도 시간	POS	CTB, PKU, 863
지명 된 엔티티 인식	지도 시간	지도 시간	지도 시간	네르	PKU, MSRA, Ontonotes
의존성 구문 분석	지도 시간	지도 시간	지도 시간	DEP	SD, UD, PMT
구성 요소 구문 분석	지도 시간	지도 시간	지도 시간	범죄자	중국 나무 은행
시맨틱 의존성 분석	지도 시간	지도 시간	지도 시간	SDP	CSDP
시맨틱 역할 주석	지도 시간	지도 시간	지도 시간	SRL	중국 제안 은행
추상 의미 표현	지도 시간	아직 없음	지도 시간	AMR	캠
용해를 나타냅니다	지도 시간	아직 없음	아직 없음	아직 없음	Ontonotes
시맨틱 텍스트 유사성	지도 시간	아직 없음	지도 시간	STS	아직 없음
텍스트 스타일 변환	지도 시간	아직 없음	아직 없음	아직 없음	아직 없음
키워드 문구 추출	지도 시간	아직 없음	아직 없음	아직 없음	아직 없음
추출 된 자동 요약	지도 시간	아직 없음	아직 없음	아직 없음	아직 없음
생성 자동 요약	지도 시간	아직 없음	아직 없음	아직 없음	아직 없음
텍스트 구문 수정	지도 시간	아직 없음	아직 없음	아직 없음	아직 없음
텍스트 분류	지도 시간	아직 없음	아직 없음	아직 없음	아직 없음
감정 분석	지도 시간	아직 없음	아직 없음	아직 없음	`[-1,+1]`
언어 탐지	지도 시간	아직 없음	지도 시간	아직 없음	ISO 639-1 인코딩

STEM 추출 및 문법 문법 특징 추출은 영어 자습서를 참조하십시오. 단어 벡터 및 클로즈 필링의 경우 해당 문서를 참조하십시오.
단순하고 전통적인 중국 전환, Pinyin, New Word Discovery 및 텍스트 클러스터링은 1.x 튜토리얼을 참조하십시오.

맞춤형 HANLP는 두 가지 API를 제공합니다. RESTFUL 및 NATIVE 는 가벼운 두 가지 시나리오의 시나리오를 목표로합니다. API와 언어에 관계없이 HANLP 인터페이스는 의미 적으로 일관성을 유지하며 코드의 오픈 소스를 주장합니다. 연구에 HANLP를 사용한 경우 EMNLP 용지를 인용하십시오.

가벼운 편안한 API

민첩한 개발, 모바일 앱 및 기타 시나리오에 적합한 KB 만. 간단하고 사용하기 쉬우 며 GPU가 설치할 필요가 없으며 몇 초 만에 설치됩니다. 더 많은 코퍼스, 더 큰 모델, 더 높은 정확도, 적극 권장됩니다 . 서버 GPU 컴퓨팅 전력은 제한되어 있으며 익명 사용자 할당량은 작습니다. 무료 공공 복지 API 키 auth 신청하는 것이 좋습니다.

파이썬

pip install hanlp_restful

클라이언트를 생성하고 서버 주소 및 비밀 키를 작성하십시오.

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

골랑

go get -u github.com/hankcs/gohanlp@main 설치하고 클라이언트를 만들고 서버 주소를 작성하고 비밀 키를 작성하십시오.

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

자바

pom.xml 에 종속성 추가 :

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

클라이언트를 생성하고 서버 주소 및 비밀 키를 작성하십시오.

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

빨리 시작하십시오

어떤 개발 언어에 관계없이, parse 인터페이스에 전화하여 기사를 통과하여 HANLP의 정확한 분석 결과를 얻으십시오.

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

더 많은 기능은 문서 및 테스트 사례를 참조하십시오.

대규모 원시 API

Pytorch 및 Tensorflow와 같은 딥 러닝 기술에 의존하여 전문 NLP 엔지니어, 연구원 및 지역 대규모 데이터 시나리오에 적합합니다. Python 3.6 ~ 3.10이 필요하고 Windows를 지원하며 *Nix가 권장됩니다. CPU에서 실행할 수 있으며 GPU/TPU가 권장됩니다. Pytorch 버전 설치 :

pip install hanlp

HANLP는 릴리스 될 때마다 Linux, MacOS 및 Windows에서 Python 3.6 ~ 3.10의 장치 테스트를 통과했으며 설치 문제가 없습니다.

HANLP가 발표 한 모델은 멀티 태스킹과 단일 작업의 두 가지 유형으로 나뉩니다. 멀티 태스킹 속도는 빠르며 비디오 메모리를 저장하며 단일 작업 정확도는 높고 유연합니다.

멀티 태스킹 모델

HANLP의 워크 플로우는 모델을로드 한 다음 다음 공동 멀티 태스킹 모델과 같은 함수라고하는 것입니다.

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

기본 API의 입력 단위는 문장이며, 다국어 조항 모델 또는 규칙 기반 조항 함수를 사전 섹션에 사용해야합니다. 두 개의 API RESTFUL 및 NATIVE의 시맨틱 설계는 완전히 일관성이 있으며 사용자는 원활하게 교환 할 수 있습니다. 간단한 인터페이스는 유연한 매개 변수도 지원합니다. 일반적인 기술에는 다음이 포함됩니다.

유연한 tasks 스케줄링, 작업이 적을수록 속도가 빨라집니다. 자세한 내용은 자습서를 참조하십시오. 메모리가 제한된 시나리오에서 사용자는 불필요한 작업을 삭제하여 모델 슬림의 효과를 달성 할 수 있습니다.
효율적인 트리 트리 사용자 정의 사전과 필수, 병합 및 수정의 세 가지 규칙에 대해서는 데모 및 문서를 참조하십시오. 규칙 시스템의 효과는 후속 통계 모델에 원활하게 적용되어 새로운 영역에 빠르게 적응할 수 있습니다.

단일 작업 모델

최신 연구에 따르면 멀티 태스킹 학습의 장점은 속도와 비디오 메모리에있어 있지만 정확도는 종종 단일 작업 모델만큼 좋지 않습니다. 따라서 HANLP는 많은 단일 작업 모델을 사전에 사전하고 우아한 파이프 라인 모드를 설계하여이를 조립했습니다.

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

더 많은 기능은 더 많은 모델과 사용에 대해서는 데모 및 문서를 참조하십시오.

출력 형식

API, 개발 언어 및 자연 언어에 관계없이 HANLP의 출력은 dict 의 json 형식 호환 Document 로 통합됩니다.

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

특히, Python Restful 및 Native API는 콘솔에서 언어 구조를 직접 시각화 할 수있는 Monospace 글꼴을 기반으로 시각화를 지원합니다.

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

레이블 세트의 의미에 대해서는 "언어 레이블 사양"및 "형식 사양"을 참조하십시오. 우리는 공동 다중 언어 다중 태스크 학습을 위해 세계 최대의 가장 크고 다양한 코퍼스를 구매, 표시 또는 사용 했으므로 HANLP의 주석 세트도 가장 광범위합니다.

자신의 도메인 모델을 훈련하십시오

딥 러닝 모델을 작성하는 것은 전혀 어렵지 않지만 어려움은 더 높은 정확도를 재현하는 것입니다. 다음 코드는 Sighan2005 PKU 코퍼스에서 6 분을 지출하여 학문 세계를 넘어서는 중국어 단어 세분화 모델을 훈련시키는 방법을 보여줍니다.

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

그중에서도 무작위 숫자 종자가 지정되므로 결과는 96.73 이어야합니다. 허위 광고 된 학술 논문이나 상업 프로젝트와 달리 HANLP는 모든 결과를 재현 할 수 있다고 보장합니다. 궁금한 점이 있으면 문제를 가장 우선 순위 치명적인 버그로 문제 해결합니다.

더 많은 교육 스크립트는 데모를 참조하십시오.

성능

랭	Corpora	모델	토크		POS				네르			DEP	범죄자	SRL	SDP				렘	fea	AMR
랭	Corpora	모델	괜찮은	조잡한	CTB	PKU	863	UD	PKU	MSRA	Ontonotes	DEP	범죄자	SRL	Semeval16	DM	우선권	PSD	렘	fea	AMR
뮬	UD2.7 Ontonotes5	작은	98.62	-	-	-	-	93.23	-	-	74.42	79.10	76.85	70.63	-	91.19	93.67	85.34	87.71	84.51	-
뮬	UD2.7 Ontonotes5	베이스	98.97	-	-	-	-	90.32	-	-	80.32	78.74	71.23	73.63	-	92.60	96.04	81.19	85.08	82.13	-
ZH	열려 있는	작은	97.25	-	96.66	-	-	-	-	-	95.00	84.57	87.62	73.40	84.57	-	-	-	-	-	-
	열려 있는	베이스	97.50	-	97.07	-	-	-	-	-	96.04	87.11	89.84	77.78	87.11	-	-	-	-	-	-
	닫다	작은	96.70	95.93	96.87	97.56	95.05	-	96.22	95.74	76.79	84.44	88.13	75.81	74.28	-	-	-	-	-	-
		베이스	97.52	96.44	96.99	97.59	95.29	-	96.48	95.72	77.77	85.29	88.57	76.52	73.76	-	-	-	-	-	-
		어니	96.95	97.29	96.76	97.64	95.22	-	97.31	96.47	77.95	85.67	89.17	78.51	74.10	-	-	-	-	-	-

최신 연구에 따르면 단일 작업 학습은 멀티 태스킹 학습을 능가하는 경향이 있습니다. 속도에 대한 정확도에 관심이있는 경우 단일 작업 모델을 사용하는 것이 좋습니다.

HANLP에 의해 채택 된 데이터 전처리 및 분할 비율은 반드시 인기있는 방법과 동일하지는 않습니다. 예를 들어, HANLP는 대중이 사용하는 거세 버전 대신 MSRA라는 MSRA라는 엔티티 인식 코퍼스의 정식 버전을 채택합니다. HANLP는 학술 공동체가 채택한 Zhang and Clark (2008) 표준이 아닌 더 넓은 구문 범위와 함께 Stanford 의존성 표준을 사용합니다. HANLP는 고르지 않은 학술 커뮤니티 대신 CTB의 균일 한 세분화 방법을 제안하고 51 개의 금 문서가 누락되었습니다. HANLP는 중국 NLP의 투명성을 촉진하기 위해 노력하는 전체 코퍼스 사전 처리 스크립트와 해당 코퍼스의 소스를 엽니 다.

요컨대, HANLP는 우리가 옳고 발전한다고 생각하는 것만으로, 반드시 대중적이고 권위있는 것은 아닙니다.

인용하다

연구에서 HANLP를 사용하는 경우 다음 형식으로 인용하십시오.

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

특허

소스 코드

자연 의미론 (Qingdao) Technology Co., Ltd.

빠르게 검색하십시오

상하이 Linyuan Company

미리 훈련 된 모델

기계 학습 모델의 승인은 법적으로 결정되지 않았지만 오픈 소스 코퍼스의 원래 승인을 존중하는 정신으로, 구체적으로 언급되지는 않았지만 HANLP의 다국어 모델 승인은 CC By-NC-SA 4.0을 계속 사용하고 있으며 중국 모델 승인은 연구 및 교육 목적에만 해당됩니다.

참조

https://hanlp.hankcs.com/docs/references.html

확장하다

HanLP

HANLP : 한 언어 처리

영어 | 일본어 | 문서 | 논문 | 포럼 | 도커 | ▶ ️ 온라인으로 실행하십시오

가벼운 편안한 API

파이썬

골랑

자바

빨리 시작하십시오

대규모 원시 API

멀티 태스킹 모델

단일 작업 모델

출력 형식

자신의 도메인 모델을 훈련하십시오

성능

인용하다

특허

소스 코드

자연 의미론 (Qingdao) Technology Co., Ltd.

빠르게 검색하십시오

상하이 Linyuan Company

미리 훈련 된 모델

참조

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express