
Многоязычный инструментарий для обработки естественного языка для производственных среда основан на двойных двигателях Pytorch и Tensorflow 2.x, с целью популяризации самой передовой технологии NLP. HANLP обладает характеристиками полных функций, точной точности, эффективной производительности, нового корпуса, четкой архитектуры и настраиваемой.
С крупнейшим в мире многоязычным корпусом HANLP2.1 поддерживает 10 совместных задач и множественные одиночные задачи на 130 языках, включая традиционные китайские, китайские, английские, японские, японские, русские, французские и немецкие. HANLP предварительно обучает десятки моделей по более чем дюжине задач и непрерывно итерации корпуса и моделей:
| Функция | Спокойный | Многозадачность | Единственная задача | Модель | Стандарты маркировки |
|---|---|---|---|---|---|
| Причастие | Учебник | Учебник | Учебник | ток | Грубое, подразделение |
| Часть речевой аннотации | Учебник | Учебник | Учебник | поступок | CTB, PKU, 863 |
| Названное признание сущности | Учебник | Учебник | Учебник | нор | PKU, MSRA, Ontonotes |
| Анализ синтаксиса зависимости | Учебник | Учебник | Учебник | деп | SD, UD, PMT |
| Анализ синтаксиса компонентов | Учебник | Учебник | Учебник | кондиционер | Китайский банк деревьев |
| Семантический анализ зависимостей | Учебник | Учебник | Учебник | SDP | CSDP |
| Семантическая роль аннотация | Учебник | Учебник | Учебник | Срл | Китайский банк предложений |
| Абстрактное значение выражения | Учебник | Пока нет | Учебник | Амр | Камр |
| Относится к роспуску | Учебник | Пока нет | Пока нет | Пока нет | Онтонот |
| Семантическое сходство текста | Учебник | Пока нет | Учебник | стр | Пока нет |
| Преобразование в стиле текста | Учебник | Пока нет | Пока нет | Пока нет | Пока нет |
| Ключевое слово извлечение | Учебник | Пока нет | Пока нет | Пока нет | Пока нет |
| Извлеченное автоматическое резюме | Учебник | Пока нет | Пока нет | Пока нет | Пока нет |
| Генеративное автоматическое резюме | Учебник | Пока нет | Пока нет | Пока нет | Пока нет |
| Коррекция текстового синтаксиса | Учебник | Пока нет | Пока нет | Пока нет | Пока нет |
| Текстовая классификация | Учебник | Пока нет | Пока нет | Пока нет | Пока нет |
| Анализ настроений | Учебник | Пока нет | Пока нет | Пока нет | [-1,+1] |
| Обнаружение языка | Учебник | Пока нет | Учебник | Пока нет | ISO 639-1 Кодирование |
Приспособленная, Hanlp предоставляет два API: RESTful и Native , которые предназначены для двух сценариев: легкий и массивный. Независимо от API и языка, интерфейс HANLP остается семантически последовательным и настаивает на открытом исходном коде. Если вы использовали HANLP в своем исследовании, пожалуйста, укажите нашу статью EMNLP.
Только несколько KB, подходящие для Agile Development, Mobile App и других сценариев. Простые и простые в использовании, нет необходимости установить графический процессор, и он установлен в секунды. Больше корпуса, более крупные модели, более высокая точность, настоятельно рекомендуется . Вычислительная мощность GPU сервера ограничена, а анонимная квота пользователя невелика. Рекомендуется подать заявку на бесплатную auth API API общественного благосостояния.
pip install hanlp_restfulСоздайте клиент и заполните адрес сервера и секретный ключ:
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种 Установить go get -u github.com/hankcs/gohanlp@main , создайте клиент, заполните адрес сервера и секретный ключ:
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 Добавьте зависимости в pom.xml :
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >Создайте клиент и заполните адрес сервера и секретный ключ:
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种 Независимо от того, какой язык разработки, вызовите интерфейс parse и передайте статью, чтобы получить точные результаты анализа HANLP.
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )Для получения дополнительных функций, пожалуйста, обратитесь к документации и тестовым случаям.
Опираясь на такие технологии глубокого обучения, как Pytorch и Tensorflow, он подходит для профессиональных инженеров NLP, исследователей и местных массовых сценариев данных. Требуется Python от 3.6 до 3.10, поддерживает Windows, и *NIX рекомендуется. Может работать на процессоре, рекомендуется GPU/TPU. Установите версию Pytorch:
pip install hanlpМодели, выпущенные HANLP, делятся на два типа: многозадачные и однозазадача. Скорость с несколькими задачами быстро и сохраняет видео память, а точность однократных задач высокая и гибкая.
Рабочий процесс HANLP состоит в том, чтобы загрузить модель, а затем назвать ее функцией, такой как следующая модель многозадачности соединения:
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])Входной единицу нативного API является предложением, и необходимо использовать многоязычную модель или функцию предложения на основе правил для предварительного раздела. Семантические дизайны двух API RESTful и Native являются совершенно согласованными, и пользователи могут беспрепятственно обмениваться. Простой интерфейс также поддерживает гибкие параметры. Общие методы включают:
tasks , меньше задач, тем быстрее скорость. Смотрите учебник для деталей. В сценариях с ограниченной памятью пользователи также могут удалять ненужные задачи для достижения эффекта похудения модели.Согласно нашему последнему исследованию, преимущества многозадачного обучения лежат в скорости и видео памяти, но точность часто не так хороша, как модель с одной задачей. Таким образом, HANLP предварительно предварительно провели много моделей с одной задачей и разработал элегантные режимы трубопровода для их сборки.
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )Для получения дополнительных функций, пожалуйста, обратитесь к демонстрации и документации для получения дополнительной информации и использования.
Независимо от того, какой API, язык развития и естественный язык, результаты HANLP объединяются в документ, совместимый с форматом json Document является dict :
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}В частности, Python Restful и Native API поддерживают визуализацию на основе моноспективных шрифтов, которые могут непосредственно визуализировать лингвистические структуры в консоли:
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ Для значения набора метки, пожалуйста, обратитесь к «спецификациям лингвистической маркировки» и «Спецификации формата». Мы приобрели, отметили или использовали крупнейший и самый разнообразный в мире корпус для совместного многоязычного многозадачного обучения, поэтому набор аннотаций HANLP также является наиболее обширным.
Написание модели глубокого обучения совсем не сложно, но сложность воспроизводит более высокую точность. Следующий код показывает, как провести 6 минут на корпус PKU Sighan2005, чтобы обучить китайскую модель сегментации слов, которая выходит за рамки академического мира.
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir ) Среди них, поскольку определено случайное число семян, результат должен составлять 96.73 . В отличие от этих ложно рекламируемых академических документов или коммерческих проектов, HANLP гарантирует, что все результаты могут быть воспроизведены. Если у вас есть какие -либо вопросы, мы рассмотрим проблему в качестве самого приоритета.
Пожалуйста, обратитесь к демонстрации для получения дополнительных тренировочных сценариев.
| ланг | Корпус | модель | ток | поступок | нор | деп | кондиционер | Срл | SDP | лем | FEA | Амр | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| отлично | Грубый | CTB | пку | 863 | уд | пку | MSRA | Онтонот | Semeval16 | Дм | ПАС | PSD | |||||||||
| мульт | UD2,7 Ontonotes5 | Маленький | 98.62 | - | - | - | - | 93.23 | - | - | 74,42 | 79.10 | 76.85 | 70.63 | - | 91.19 | 93,67 | 85,34 | 87.71 | 84,51 | - |
| база | 98.97 | - | - | - | - | 90.32 | - | - | 80.32 | 78.74 | 71.23 | 73,63 | - | 92,60 | 96.04 | 81.19 | 85,08 | 82.13 | - | ||
| ZH | открыть | Маленький | 97.25 | - | 96.66 | - | - | - | - | - | 95.00 | 84,57 | 87.62 | 73,40 | 84,57 | - | - | - | - | - | - |
| база | 97.50 | - | 97.07 | - | - | - | - | - | 96.04 | 87.11 | 89,84 | 77.78 | 87.11 | - | - | - | - | - | - | ||
| Закрывать | Маленький | 96.70 | 95,93 | 96.87 | 97.56 | 95,05 | - | 96.22 | 95,74 | 76.79 | 84,44 | 88.13 | 75,81 | 74,28 | - | - | - | - | - | - | |
| база | 97.52 | 96.44 | 96.99 | 97.59 | 95,29 | - | 96.48 | 95,72 | 77.77 | 85,29 | 88.57 | 76.52 | 73,76 | - | - | - | - | - | - | ||
| Эрни | 96.95 | 97.29 | 96.76 | 97.64 | 95,22 | - | 97.31 | 96.47 | 77,95 | 85,67 | 89.17 | 78.51 | 74.10 | - | - | - | - | - | - | ||
Коэффициенты предварительной обработки и разделения данных, принятые HANLP, не обязательно такие же, как популярные методы. Например, HANLP принимает полную версию MSRA, названного COMPUS, вместо кастрированной версии, используемой общественностью; HANLP использует стандарт Стэнфордских зависимостей с более широким охватом синтаксиса, а не стандартом Zhang и Clark (2008), принятым академическим сообществом; HANLP предлагает метод единой сегментации CTBS вместо неровного академического сообщества и пропускает 51 золото. HANLP открывает источник полного набора сценариев предварительной обработки корпуса и соответствующего корпуса, стремясь способствовать прозрачности китайского НЛП.
Короче говоря, HANLP делает только то, что, по нашему мнению, является правильным и продвинутым, не обязательно то, что является популярным и авторитетным.
Если вы используете HANLP в своем исследовании, укажите его в следующем формате:
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}Соглашение о авторизации для исходного кода HANLP - Apache License 2.0 , которое может использоваться в коммерческих целях бесплатно. Пожалуйста, прикрепите ссылку и соглашение о разрешении HANLP к описанию продукта. HANLP защищен законодательством об авторском праве, и будут осуществлены нарушения.
HANLP работает независимо от V1.7, с Technology Co. Natural Semantics (Qingdao), Ltd. в качестве основного органа проекта, возглавляя разработку последующих версий и имея авторские права последующих версий.
Версии HANLP v1.3 ~ v1.65 разрабатываются в поиске Dakuai и продолжают быть полностью открытым исходным кодом. Поиск Dakuai имеет соответствующее авторское право.
HANLP была поддержана Shanghai Linyuan Company в первые дни и имеет авторские права на 1,28 и предыдущие версии. Соответствующие версии также были выпущены на веб -сайте компании Shanghai Linyuan.
Авторизация моделей машинного обучения не определено не определено, но в духе уважения первоначального разрешения корпуса с открытым исходным кодом, если не указано конкретно, многоязычное разрешение модели HANLP продолжает использовать CC-NC-SA 4.0, а разрешение китайской модели предназначено только для целей исследований и преподавания.
https://hanlp.hankcs.com/docs/references.html