HanLP скачать - HanLP исходный код скачать

HANLP: обработка языка HAN

Английский | Японский | Документы | Документы | Форумы | Docker | ▶ ️ Запустить онлайн

Многоязычный инструментарий для обработки естественного языка для производственных среда основан на двойных двигателях Pytorch и Tensorflow 2.x, с целью популяризации самой передовой технологии NLP. HANLP обладает характеристиками полных функций, точной точности, эффективной производительности, нового корпуса, четкой архитектуры и настраиваемой.

С крупнейшим в мире многоязычным корпусом HANLP2.1 поддерживает 10 совместных задач и множественные одиночные задачи на 130 языках, включая традиционные китайские, китайские, английские, японские, японские, русские, французские и немецкие. HANLP предварительно обучает десятки моделей по более чем дюжине задач и непрерывно итерации корпуса и моделей:

Функция	Спокойный	Многозадачность	Единственная задача	Модель	Стандарты маркировки
Причастие	Учебник	Учебник	Учебник	ток	Грубое, подразделение
Часть речевой аннотации	Учебник	Учебник	Учебник	поступок	CTB, PKU, 863
Названное признание сущности	Учебник	Учебник	Учебник	нор	PKU, MSRA, Ontonotes
Анализ синтаксиса зависимости	Учебник	Учебник	Учебник	деп	SD, UD, PMT
Анализ синтаксиса компонентов	Учебник	Учебник	Учебник	кондиционер	Китайский банк деревьев
Семантический анализ зависимостей	Учебник	Учебник	Учебник	SDP	CSDP
Семантическая роль аннотация	Учебник	Учебник	Учебник	Срл	Китайский банк предложений
Абстрактное значение выражения	Учебник	Пока нет	Учебник	Амр	Камр
Относится к роспуску	Учебник	Пока нет	Пока нет	Пока нет	Онтонот
Семантическое сходство текста	Учебник	Пока нет	Учебник	стр	Пока нет
Преобразование в стиле текста	Учебник	Пока нет	Пока нет	Пока нет	Пока нет
Ключевое слово извлечение	Учебник	Пока нет	Пока нет	Пока нет	Пока нет
Извлеченное автоматическое резюме	Учебник	Пока нет	Пока нет	Пока нет	Пока нет
Генеративное автоматическое резюме	Учебник	Пока нет	Пока нет	Пока нет	Пока нет
Коррекция текстового синтаксиса	Учебник	Пока нет	Пока нет	Пока нет	Пока нет
Текстовая классификация	Учебник	Пока нет	Пока нет	Пока нет	Пока нет
Анализ настроений	Учебник	Пока нет	Пока нет	Пока нет	`[-1,+1]`
Обнаружение языка	Учебник	Пока нет	Учебник	Пока нет	ISO 639-1 Кодирование

Для извлечения стебля и извлечения грамматической грамматической особенности, пожалуйста, обратитесь к английскому учебному пособию; Для векторов и заполнения слов, пожалуйста, обратитесь к соответствующим документам.
Для простого и традиционного китайского преобразования, пиньина, новое открытие слов и кластеризацию текста, пожалуйста, обратитесь к учебному пособию 1.x.

Приспособленная, Hanlp предоставляет два API: RESTful и Native , которые предназначены для двух сценариев: легкий и массивный. Независимо от API и языка, интерфейс HANLP остается семантически последовательным и настаивает на открытом исходном коде. Если вы использовали HANLP в своем исследовании, пожалуйста, укажите нашу статью EMNLP.

Легкий RESTFUL API

Только несколько KB, подходящие для Agile Development, Mobile App и других сценариев. Простые и простые в использовании, нет необходимости установить графический процессор, и он установлен в секунды. Больше корпуса, более крупные модели, более высокая точность, настоятельно рекомендуется . Вычислительная мощность GPU сервера ограничена, а анонимная квота пользователя невелика. Рекомендуется подать заявку на бесплатную auth API API общественного благосостояния.

Питон

pip install hanlp_restful

Создайте клиент и заполните адрес сервера и секретный ключ:

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

Голанг

Установить go get -u github.com/hankcs/gohanlp@main , создайте клиент, заполните адрес сервера и секретный ключ:

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

Ява

Добавьте зависимости в pom.xml :

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

Создайте клиент и заполните адрес сервера и секретный ключ:

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

Начните быстро

Независимо от того, какой язык разработки, вызовите интерфейс parse и передайте статью, чтобы получить точные результаты анализа HANLP.

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

Для получения дополнительных функций, пожалуйста, обратитесь к документации и тестовым случаям.

Массивный родной API

Опираясь на такие технологии глубокого обучения, как Pytorch и Tensorflow, он подходит для профессиональных инженеров NLP, исследователей и местных массовых сценариев данных. Требуется Python от 3.6 до 3.10, поддерживает Windows, и *NIX рекомендуется. Может работать на процессоре, рекомендуется GPU/TPU. Установите версию Pytorch:

pip install hanlp

HANLP прошел модульные тесты для Python 3.6 до 3.10 на Linux, MacOS и Windows каждый раз, когда он выпускается, и нет проблем с установкой.

Модели, выпущенные HANLP, делятся на два типа: многозадачные и однозазадача. Скорость с несколькими задачами быстро и сохраняет видео память, а точность однократных задач высокая и гибкая.

Многозадачная модель

Рабочий процесс HANLP состоит в том, чтобы загрузить модель, а затем назвать ее функцией, такой как следующая модель многозадачности соединения:

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

Входной единицу нативного API является предложением, и необходимо использовать многоязычную модель или функцию предложения на основе правил для предварительного раздела. Семантические дизайны двух API RESTful и Native являются совершенно согласованными, и пользователи могут беспрепятственно обмениваться. Простой интерфейс также поддерживает гибкие параметры. Общие методы включают:

Гибкое планирование tasks , меньше задач, тем быстрее скорость. Смотрите учебник для деталей. В сценариях с ограниченной памятью пользователи также могут удалять ненужные задачи для достижения эффекта похудения модели.
Для эффективного словарю Trie Tree Custom, а также три правила: обязательное, слияние и исправление, пожалуйста, обратитесь к демонстрации и документации. Эффекты системы правил будут легко применяться к последующим статистическим моделям, тем самым быстро адаптируясь к новым областям.

Модель единой задачи

Согласно нашему последнему исследованию, преимущества многозадачного обучения лежат в скорости и видео памяти, но точность часто не так хороша, как модель с одной задачей. Таким образом, HANLP предварительно предварительно провели много моделей с одной задачей и разработал элегантные режимы трубопровода для их сборки.

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

Для получения дополнительных функций, пожалуйста, обратитесь к демонстрации и документации для получения дополнительной информации и использования.

Выходной формат

Независимо от того, какой API, язык развития и естественный язык, результаты HANLP объединяются в документ, совместимый с форматом json Document является dict :

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

В частности, Python Restful и Native API поддерживают визуализацию на основе моноспективных шрифтов, которые могут непосредственно визуализировать лингвистические структуры в консоли:

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

Для значения набора метки, пожалуйста, обратитесь к «спецификациям лингвистической маркировки» и «Спецификации формата». Мы приобрели, отметили или использовали крупнейший и самый разнообразный в мире корпус для совместного многоязычного многозадачного обучения, поэтому набор аннотаций HANLP также является наиболее обширным.

Тренируйте свою собственную доменную модель

Написание модели глубокого обучения совсем не сложно, но сложность воспроизводит более высокую точность. Следующий код показывает, как провести 6 минут на корпус PKU Sighan2005, чтобы обучить китайскую модель сегментации слов, которая выходит за рамки академического мира.

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

Среди них, поскольку определено случайное число семян, результат должен составлять 96.73 . В отличие от этих ложно рекламируемых академических документов или коммерческих проектов, HANLP гарантирует, что все результаты могут быть воспроизведены. Если у вас есть какие -либо вопросы, мы рассмотрим проблему в качестве самого приоритета.

Пожалуйста, обратитесь к демонстрации для получения дополнительных тренировочных сценариев.

производительность

ланг	Корпус	модель	ток		поступок				нор			деп	кондиционер	Срл	SDP				лем	FEA	Амр
ланг	Корпус	модель	отлично	Грубый	CTB	пку	863	уд	пку	MSRA	Онтонот	деп	кондиционер	Срл	Semeval16	Дм	ПАС	PSD	лем	FEA	Амр
мульт	UD2,7 Ontonotes5	Маленький	98.62	-	-	-	-	93.23	-	-	74,42	79.10	76.85	70.63	-	91.19	93,67	85,34	87.71	84,51	-
мульт	UD2,7 Ontonotes5	база	98.97	-	-	-	-	90.32	-	-	80.32	78.74	71.23	73,63	-	92,60	96.04	81.19	85,08	82.13	-
ZH	открыть	Маленький	97.25	-	96.66	-	-	-	-	-	95.00	84,57	87.62	73,40	84,57	-	-	-	-	-	-
	открыть	база	97.50	-	97.07	-	-	-	-	-	96.04	87.11	89,84	77.78	87.11	-	-	-	-	-	-
	Закрывать	Маленький	96.70	95,93	96.87	97.56	95,05	-	96.22	95,74	76.79	84,44	88.13	75,81	74,28	-	-	-	-	-	-
		база	97.52	96.44	96.99	97.59	95,29	-	96.48	95,72	77.77	85,29	88.57	76.52	73,76	-	-	-	-	-	-
		Эрни	96.95	97.29	96.76	97.64	95,22	-	97.31	96.47	77,95	85,67	89.17	78.51	74.10	-	-	-	-	-	-

Согласно нашему последнему исследованию, одно задача обучение имеет тенденцию превосходить многозадачное обучение. Если вы заботитесь о точности по сравнению с скоростью, рекомендуется использовать модель с одной задачей.

Коэффициенты предварительной обработки и разделения данных, принятые HANLP, не обязательно такие же, как популярные методы. Например, HANLP принимает полную версию MSRA, названного COMPUS, вместо кастрированной версии, используемой общественностью; HANLP использует стандарт Стэнфордских зависимостей с более широким охватом синтаксиса, а не стандартом Zhang и Clark (2008), принятым академическим сообществом; HANLP предлагает метод единой сегментации CTBS вместо неровного академического сообщества и пропускает 51 золото. HANLP открывает источник полного набора сценариев предварительной обработки корпуса и соответствующего корпуса, стремясь способствовать прозрачности китайского НЛП.

Короче говоря, HANLP делает только то, что, по нашему мнению, является правильным и продвинутым, не обязательно то, что является популярным и авторитетным.

Цитировать

Если вы используете HANLP в своем исследовании, укажите его в следующем формате:

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

Лицензия

исходный код

Соглашение о авторизации для исходного кода HANLP - Apache License 2.0 , которое может использоваться в коммерческих целях бесплатно. Пожалуйста, прикрепите ссылку и соглашение о разрешении HANLP к описанию продукта. HANLP защищен законодательством об авторском праве, и будут осуществлены нарушения.

Natural Semantics (Qingdao) Technology Co., Ltd.

HANLP работает независимо от V1.7, с Technology Co. Natural Semantics (Qingdao), Ltd. в качестве основного органа проекта, возглавляя разработку последующих версий и имея авторские права последующих версий.

Поиск быстро

Версии HANLP v1.3 ~ v1.65 разрабатываются в поиске Dakuai и продолжают быть полностью открытым исходным кодом. Поиск Dakuai имеет соответствующее авторское право.

Шанхайская компания Linyuan Company

HANLP была поддержана Shanghai Linyuan Company в первые дни и имеет авторские права на 1,28 и предыдущие версии. Соответствующие версии также были выпущены на веб -сайте компании Shanghai Linyuan.

Предварительно обученная модель

Авторизация моделей машинного обучения не определено не определено, но в духе уважения первоначального разрешения корпуса с открытым исходным кодом, если не указано конкретно, многоязычное разрешение модели HANLP продолжает использовать CC-NC-SA 4.0, а разрешение китайской модели предназначено только для целей исследований и преподавания.

Ссылки

https://hanlp.hankcs.com/docs/references.html

Расширять

HanLP

HANLP: обработка языка HAN

Английский | Японский | Документы | Документы | Форумы | Docker | ▶ ️ Запустить онлайн

Легкий RESTFUL API

Питон

Голанг

Ява

Начните быстро

Массивный родной API

Многозадачная модель

Модель единой задачи

Выходной формат

Тренируйте свою собственную доменную модель

производительность

Цитировать

Лицензия

исходный код

Natural Semantics (Qingdao) Technology Co., Ltd.

Поиск быстро

Шанхайская компания Linyuan Company

Предварительно обученная модель

Ссылки

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express