Скачать tner - Скачать исходный код tner

T-Sner: Всеобожающая библиотека Python для распознавания под названием Entity на основе трансформаторов

T-Sner -это инструмент Python для языковой модели, созданного по именуемом признании (NER), реализованного в Pytorch, доступном через PIP. Он имеет легкий интерфейс для моделей Finetune и тестирование на междоменных и многоязычных наборах данных. В настоящее время T-Sner интегрирует высокий охват общедоступных наборов данных NER и обеспечивает легкую интеграцию пользовательских наборов данных. Все модели, разработанные с помощью T-Tne, могут быть развернуты в нашем веб-приложении для визуализации. Наша статья, демонстрирующая T-ner, была принята в EACL 2021. Все модели и наборы данных передаются через группу T-Renge Huggingface.

Новый (сентябрь 2022 г.): мы выпустили новый набор данных NER, основанный на Twitter tweetner7 , и статья была принята на главную конференцию AACL 2022! Мы выпускаем набор данных вместе с тонкими настроенными моделями, и можно найти больше деталей на странице бумаги, репозитория и набора данных. Модель Twitter NER также была интегрирована в TweetNLP, и здесь доступно демонстрация.

Ресурсы: model_card , dateSet_card , gradio online demo
Huggingface: https://huggingface.co/tner
GitHub: https://github.com/asahi417/tner
Документы
- T-Sner (EAL2021): Антология ACL , arxiv
- Tweetner7 (AACL 2022): arxiv

Установите tner через PIP, чтобы начать!

pip install tner

Набор данных
1.1 Предварительный набор данных
1.2 Пользовательский набор данных
Модель
Лучшая языковая модель на NER
Оценка модели NER
Веб -API
Колаб примеры
Ссылка

Примеры Google Colab

Описание	Связь
Модель создания и оценки
Прогноз модели
Многоязычный рабочий процесс NER

Набор данных

Набор данных NER содержит последовательность токенов и тегов для каждого разделения (обычно train / validation / test ),

{
    'train' : {
        'tokens' : [
            [ '@paulwalk' , 'It' , "'s" , 'the' , 'view' , 'from' , 'where' , 'I' , "'m" , 'living' , 'for' , 'two' , 'weeks' , '.' , 'Empire' , 'State' , 'Building' , '=' , 'ESB' , '.' , 'Pretty' , 'bad' , 'storm' , 'here' , 'last' , 'evening' , '.' ],
            [ 'From' , 'Green' , 'Newsfeed' , ':' , 'AHFA' , 'extends' , 'deadline' , 'for' , 'Sage' , 'Award' , 'to' , 'Nov' , '.' , '5' , 'http://tinyurl.com/24agj38' ], ...
        ],
        'tags' : [
            [ 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 2 , 2 , 0 , 1 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ],
            [ 0 , 0 , 0 , 0 , 3 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ], ...
        ]
    },
    'validation' : ...,
    'test' : ...,
}

с словарем для картирования метки по его индексу ( label2id ), как показано ниже.

{ "O" : 0 , "B-ORG" : 1 , "B-MISC" : 2 , "B-PER" : 3 , "I-PER" : 4 , "B-LOC" : 5 , "I-ORG" : 6 , "I-MISC" : 7 , "I-LOC" : 8 }

Заданный набор данных

В нашей группе HuggingFace есть различные наборы данных NER, которые можно использовать, как показано ниже (см. Карту набора данных для полных списков наборов данных).

 from tner import get_dataset
data , label2id = get_dataset ( dataset = "tner/wnut2017" )

Пользователь может указать несколько наборов данных, чтобы получить конкатенированный набор данных.

 data , label2id = get_dataset ( dataset = [ "tner/conll2003" , "tner/ontonotes5" ])

В составных наборах данных мы используем набор Unified Label для объединения метки объекта. Идея состоит в том, чтобы поделиться всеми доступными наборами данных NER на HuggingFace в унифицированном формате, поэтому сообщите нам, если вы хотите добавить какие -либо наборы данных NER!

Пользовательский набор данных

Чтобы выйти за рамки публичных наборов данных, пользователи могут использовать свои собственные наборы данных, форматируя их в формате IOB, описанный в Conll 2003 NER Shared Waper, где все файлы данных содержат одно слово на строку с пустыми строками, представляющими границы предложения. В конце каждой строки есть тег, который указывает, находится ли текущее слово внутри именованной сущности или нет. Тег также кодирует тип именованной сущности. Вот пример предложения:

 EU B-ORG
rejects O
German B-MISC
call O
to O
boycott O
British B-MISC
lamb O
. O

Слова, помеченные O, находятся за пределами названных сущностей, а тег I-XXX используется для слов внутри именованной сущности типа XXX. Всякий раз, когда две сущности типа XXX непосредственно рядом друг с другом, первое слово второго объекта будет помечено B-XXX, чтобы показать, что он начинает другое сущность. Пожалуйста, посмотрите пример пользовательских данных. Эти пользовательские файлы могут быть загружены так же, как и набор данных HuggingFace, как и ниже.

 from tner import get_dataset
data , label2id = get_dataset ( local_dataset = {
    "train" : "examples/local_dataset_sample/train.txt" ,
    "valid" : "examples/local_dataset_sample/train.txt" ,
    "test" : "examples/local_dataset_sample/test.txt"
})

То же, что и набор данных HuggingFace, можно объединить набор данных.

 data , label2id = get_dataset ( local_dataset = [
   { "train" : "..." , "valid" : "..." , "test" : "..." },
   { "train" : "..." , "valid" : "..." , "test" : "..." }
   ]
)

Модель

В настоящее время T-Sner имеет более 100 моделей NER в группе Huggingface, как показано в приведенной выше таблице, в которой сообщается только основные модели, и см. Model_card для полных списков моделей. Все модели могут использоваться с tner , как показано ниже.

 from tner import TransformersNER
model = TransformersNER ( "tner/roberta-large-wnut2017" )  # provide model alias on huggingface
output = model . predict ([ "Jacob Collier is a Grammy awarded English artist from London" ])  # give a list of sentences (or tokenized sentence) 
print ( output )
{
   'prediction' : [[ 'B-person' , 'I-person' , 'O' , 'O' , 'O' , 'O' , 'O' , 'O' , 'O' , 'B-location' ]],
   'probability' : [[ 0.9967652559280396 , 0.9994561076164246 , 0.9986955523490906 , 0.9947081804275513 , 0.6129112243652344 , 0.9984312653541565 , 0.9868122935295105 , 0.9983410835266113 , 0.9995284080505371 , 0.9838910698890686 ]],
   'input' : [[ 'Jacob' , 'Collier' , 'is' , 'a' , 'Grammy' , 'awarded' , 'English' , 'artist' , 'from' , 'London' ]],
   'entity_prediction' : [[
       { 'type' : 'person' , 'entity' : [ 'Jacob' , 'Collier' ], 'position' : [ 0 , 1 ], 'probability' : [ 0.9967652559280396 , 0.9994561076164246 ]},
       { 'type' : 'location' , 'entity' : [ 'London' ], 'position' : [ 9 ], 'probability' : [ 0.9838910698890686 ]}
    ]]
}

model.predict принимает список input separator размера пакетного batch_size . При желании пользователь может предварительно токенизировать входы с любым токенизатором (Spacy, NLTK и т. Д.), И прогноз будет следовать токенизации.

 output = model . predict ([[ "Jacob Collier" , "is" , "a" , "Grammy awarded" , "English artist" , "from" , "London" ]])
print ( output )
{
    'prediction' : [[ 'B-person' , 'O' , 'O' , 'O' , 'O' , 'O' , 'B-location' ]],
    'probability' : [[ 0.9967652559280396 , 0.9986955523490906 , 0.9947081804275513 , 0.6129112243652344 , 0.9868122935295105 , 0.9995284080505371 , 0.9838910698890686 ]],
    'input' : [[ 'Jacob Collier' , 'is' , 'a' , 'Grammy awarded' , 'English artist' , 'from' , 'London' ]],
    'entity_prediction' : [[
        { 'type' : 'person' , 'entity' : [ 'Jacob Collier' ], 'position' : [ 0 ], 'probability' : [ 0.9967652559280396 ]},
        { 'type' : 'location' , 'entity' : [ 'London' ], 'position' : [ 6 ], 'probability' : [ 0.9838910698890686 ]}
    ]]
}

Контрольная точка локальной модели может быть указана вместо модели псевдоним TransformersNER("path-to-checkpoint") . Сценарий для повторного производства этих выпущенных моделей здесь.

инструмент командной строки

Следующий инструмент командной строки доступен для прогнозирования модели.

tner-predict [-h] -m MODEL

command line tool to test finetuned NER model

optional arguments:
  -h, --help            show this help message and exit
  -m MODEL, --model MODEL
                        model alias of huggingface or local checkpoint

Пример

tner-predict -m " tner/roberta-large-wnut2017 "

Веб -приложение

Чтобы установить зависимости для запуска веб -приложения, добавьте опцию при установке.

pip install tner[app]

Затем клонировать репозиторий

git clone https://github.com/asahi417/tner
cd tner

и запустить сервер.

uvicorn app:app --reload --log-level debug --host 0.0.0.0 --port 8000

Откройте свой браузер http://0.0.0.0:8000. Вы можете указать модель для развертывания с помощью переменной среды NER_MODEL , которая установлена как tner/roberta-large-wnut2017 в качестве по умолчанию. NER_MODEL может быть либо путем к вашему каталогу контрольно -пропускной точки локальной модели, либо именем модели в концентраторе Transformers Model.

Подтверждение интерфейс приложения сильно вдохновлен этим хранилищем.

Лучшая языковая модель на NER

T-ner обеспечивает простой API для запуска языковой модели с точной настройкой на NER с эффективным поиском параметров, как описано выше. Он состоит из 2 этапов: (i) тонкая настройка со всеми возможными конфигурациями для небольшой эпохи и вычислить метрику оценки (Micro F1 по умолчанию) в наборе валидации для всех моделей и (ii) поднимайте модели Top K , чтобы продолжить точную настройку до L Epoch. Лучшая модель на втором этапе будет продолжаться тонкая настройка до тех пор, пока показатель проверки не станет уменьшенной.

Эта точная настройка с двумя параметрами может быть достигнута в нескольких строках с tner .

 from tner import GridSearcher
searcher = GridSearcher (
   checkpoint_dir = './ckpt_tner' ,
   dataset = "tner/wnut2017" ,  # either of `dataset` (huggingface dataset) or `local_dataset` (custom dataset) should be given
   model = "roberta-large" ,  # language model to fine-tune
   epoch = 10 ,  # the total epoch (`L` in the figure)
   epoch_partial = 5 ,  # the number of epoch at 1st stage (`M` in the figure)
   n_max_config = 3 ,  # the number of models to pass to 2nd stage (`K` in the figure)
   batch_size = 16 ,
   gradient_accumulation_steps = [ 4 , 8 ],
   crf = [ True , False ],
   lr = [ 1e-4 , 1e-5 ],
   weight_decay = [ 1e-7 ],
   random_seed = [ 42 ],
   lr_warmup_step_ratio = [ 0.1 ],
   max_grad_norm = [ 10 ]  
)
searcher . train ()

Следующие параметры настраиваемы на данный момент.

gradient_accumulation_steps : количество накопления градиента
crf : Используйте CRF сверху выходного встраивания
lr : скорость обучения
weight_decay : коэффициент для распада веса
random_seed : случайное семя
lr_warmup_step_ratio : Линейное соотношение скорости обучения, например,) Если это 0,3, скорость обучения будет прогреваться линейно до 30% от общего шага (в конце концов, без затухания)
max_grad_norm : НОРМА ДЛЯ ГРАДИЕНТА

См. Источник для получения дополнительной информации о каждом аргументе.

инструмент командной строки

Следующий инструмент командной строки доступен для точной настройки.

tner-train-search [-h] -c CHECKPOINT_DIR [-d DATASET [DATASET ...]] [-l LOCAL_DATASET [LOCAL_DATASET ...]]
                         [--dataset-name DATASET_NAME [DATASET_NAME ...]] [-m MODEL] [-b BATCH_SIZE] [-e EPOCH] [--max-length MAX_LENGTH] [--use-auth-token]
                         [--dataset-split-train DATASET_SPLIT_TRAIN] [--dataset-split-valid DATASET_SPLIT_VALID] [--lr LR [LR ...]]
                         [--random-seed RANDOM_SEED [RANDOM_SEED ...]] [-g GRADIENT_ACCUMULATION_STEPS [GRADIENT_ACCUMULATION_STEPS ...]]
                         [--weight-decay WEIGHT_DECAY [WEIGHT_DECAY ...]] [--lr-warmup-step-ratio LR_WARMUP_STEP_RATIO [LR_WARMUP_STEP_RATIO ...]]
                         [--max-grad-norm MAX_GRAD_NORM [MAX_GRAD_NORM ...]] [--crf CRF [CRF ...]] [--optimizer-on-cpu] [--n-max-config N_MAX_CONFIG]
                         [--epoch-partial EPOCH_PARTIAL] [--max-length-eval MAX_LENGTH_EVAL]

Fine-tune transformers on NER dataset with Robust Parameter Search

optional arguments:
  -h , --help            show this help message and exit
  -c CHECKPOINT_DIR, --checkpoint-dir CHECKPOINT_DIR
                        checkpoint directory
  -d DATASET [DATASET ...], --dataset DATASET [DATASET ...]
                        dataset name (or a list of it) on huggingface tner organization eg. ' tner/conll2003 ' [ ' tner/conll2003 ' , ' tner/ontonotes5 ' ]] see
                        https://huggingface.co/datasets ? search = tner for full dataset list
  -l LOCAL_DATASET [LOCAL_DATASET ...], --local-dataset LOCAL_DATASET [LOCAL_DATASET ...]
                        a dictionary (or a list) of paths to local BIO files eg.{ " train " : " examples/local_dataset_sample/train.txt " , " test " :
                        " examples/local_dataset_sample/test.txt " }
  --dataset-name DATASET_NAME [DATASET_NAME ...]
                        [optional] data name of huggingface dataset (should be same length as the ` dataset ` )
  -m MODEL, --model MODEL
                        model name of underlying language model (huggingface model)
  -b BATCH_SIZE, --batch-size BATCH_SIZE
                        batch size
  -e EPOCH, --epoch EPOCH
                        the number of epoch
  --max-length MAX_LENGTH
                        max length of language model
  --use-auth-token      Huggingface transformers argument of ` use_auth_token `
  --dataset-split-train DATASET_SPLIT_TRAIN
                        dataset split to be used for training ( ' train ' as default)
  --dataset-split-valid DATASET_SPLIT_VALID
                        dataset split to be used for validation ( ' validation ' as default)
  --lr LR [LR ...]      learning rate
  --random-seed RANDOM_SEED [RANDOM_SEED ...]
                        random seed
  -g GRADIENT_ACCUMULATION_STEPS [GRADIENT_ACCUMULATION_STEPS ...], --gradient-accumulation-steps GRADIENT_ACCUMULATION_STEPS [GRADIENT_ACCUMULATION_STEPS ...]
                        the number of gradient accumulation
  --weight-decay WEIGHT_DECAY [WEIGHT_DECAY ...]
                        coefficient of weight decay (set 0 for None)
  --lr-warmup-step-ratio LR_WARMUP_STEP_RATIO [LR_WARMUP_STEP_RATIO ...]
                        linear warmup ratio of learning rate (no decay).eg) if it ' s 0.3, the learning rate will warmup linearly till 30% of the total step
                        (set 0 for None)
  --max-grad-norm MAX_GRAD_NORM [MAX_GRAD_NORM ...]
                        norm for gradient clipping (set 0 for None)
  --crf CRF [CRF ...]   use CRF on top of output embedding (0 or 1)
  --optimizer-on-cpu    put optimizer on CPU to save memory of GPU
  --n-max-config N_MAX_CONFIG
                        the number of configs to run 2nd phase search
  --epoch-partial EPOCH_PARTIAL
                        the number of epoch for 1st phase search
  --max-length-eval MAX_LENGTH_EVAL
                        max length of language model at evaluation

Пример

tner-train-search -m " roberta-large " -c " ckpt " -d " tner/wnut2017 " -e 15 --epoch-partial 5 --n-max-config 3 -b 64 -g 1 2 --lr 1e-6 1e-5 --crf 0 1 --max-grad-norm 0 10 --weight-decay 0 1e-7

Оценка модели NER

Оценка моделей NER проводится с помощью функции model.evaluate , которая принимает dataset или local_dataset в качестве набора данных для оценки.

 from tner import TransformersNER
model = TransformersNER ( "tner/roberta-large-wnut2017" )  # provide model alias on huggingface
# huggingface dataset
metric = model . evaluate ( 'tner/wnut2017' , dataset_split = 'test' )
# local dataset
metric = model . evaluate ( local_dataset = { "test" : "examples/local_dataset_sample/test.txt" }, dataset_split = 'test' )

Пример metric выходного объекта можно найти здесь.

предсказание предсказания сущности

Для лучшего понимания точности точности мы предоставляем конвейер прогнозирования сущностей, который игнорирует тип объекта и вычислил метрики только в позиции объекта IOB (маркировка бинарной последовательности).

 metric = model . evaluate ( datasets = 'tner/wnut2017' , dataset_split = 'test' , span_detection_mode = True )

Инструмент командной строки

Следующий инструмент командной строки доступен для прогнозирования модели.

tner-evaluate [-h] -m MODEL -e EXPORT [-d DATASET [DATASET ...]] [-l LOCAL_DATASET [LOCAL_DATASET ...]]
                     [--dataset-name DATASET_NAME [DATASET_NAME ...]] [--dataset-split DATASET_SPLIT] [--span-detection-mode] [--return-ci] [-b BATCH_SIZE]

Evaluate NER model

optional arguments:
  -h , --help            show this help message and exit
  -m MODEL, --model MODEL
                        model alias of huggingface or local checkpoint
  -e EXPORT, --export EXPORT
                        file to export the result
  -d DATASET [DATASET ...], --dataset DATASET [DATASET ...]
                        dataset name (or a list of it) on huggingface tner organization eg. ' tner/conll2003 ' [ ' tner/conll2003 ' , ' tner/ontonotes5 ' ]] see
                        https://huggingface.co/datasets ? search = tner for full dataset list
  -l LOCAL_DATASET [LOCAL_DATASET ...], --local-dataset LOCAL_DATASET [LOCAL_DATASET ...]
                        a dictionary (or a list) of paths to local BIO files eg.{ " train " : " examples/local_dataset_sample/train.txt " , " test " :
                        " examples/local_dataset_sample/test.txt " }
  --dataset-name DATASET_NAME [DATASET_NAME ...]
                        [optional] data name of huggingface dataset (should be same length as the ` dataset ` )
  --dataset-split DATASET_SPLIT
                        dataset split to be used for test ( ' test ' as default)
  --span-detection-mode
                        return F1 of entity span detection (ignoring entity type error and cast as binary sequence classification as below)- NER : [ " O " ,
                        " B-PER " , " I-PER " , " O " , " B-LOC " , " O " , " B-ORG " ]- Entity-span detection: [ " O " , " B-ENT " , " I-ENT " , " O " , " B-ENT " , " O " , " B-ENT " ]
  --return-ci           return confidence interval by bootstrap
  -b BATCH_SIZE, --batch-size BATCH_SIZE
                        batch size

Пример

tner-evaluate -m " tner/roberta-large-wnut2017 " -e " metric.json " -d " tner/conll2003 " -b " 32 "

Ссылка

Если вы используете какой -либо из этих ресурсов, пожалуйста, укажите следующую статью:

 @inproceedings{ushio-camacho-collados-2021-ner,
    title = "{T}-{NER}: An All-Round Python Library for Transformer-based Named Entity Recognition",
    author = "Ushio, Asahi  and
      Camacho-Collados, Jose",
    booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.eacl-demos.7",
    pages = "53--62",
    abstract = "Language model (LM) pretraining has led to consistent improvements in many NLP downstream tasks, including named entity recognition (NER). In this paper, we present T-NER (Transformer-based Named Entity Recognition), a Python library for NER LM finetuning. In addition to its practical utility, T-NER facilitates the study and investigation of the cross-domain and cross-lingual generalization ability of LMs finetuned on NER. Our library also provides a web app where users can get model predictions interactively for arbitrary text, which facilitates qualitative model evaluation for non-expert programmers. We show the potential of the library by compiling nine public NER datasets into a unified format and evaluating the cross-domain and cross- lingual performance across the datasets. The results from our initial experiments show that in-domain performance is generally competitive across datasets. However, cross-domain generalization is challenging even with a large pretrained LM, which has nevertheless capacity to learn domain-specific features if fine- tuned on a combined dataset. To facilitate future research, we also release all our LM checkpoints via the Hugging Face model hub.",
}

Расширять