natasha скачать - загрузка исходного кода natasha

Наташа решает основные задачи NLP для российского языка: токенизация, сегментация предложений, встраивание слов, тегингинг морфологии, лемматизация, нормализация фразы, синтаксис -анализ, метки NER, извлечение фактов. Качество для каждой задачи одинаково или лучше, чем текущие SOTA для российского языка на новостных статьях, см. Раздел оценки. Наташа не является исследовательским проектом, базовые технологии создаются для производства. Мы обращаем внимание на размер модели, использование RAM и производительность. Модели работают на процессоре, используйте Numpy для вывода.

Наташа интегрирует библиотеки из проекта Natasha под одним удобным API:

Razdel - токен, сегментация предложения для русского
Navec - компактные русские встраивания
SLOVNET-Современные методы глубокого обучения для российского НЛП, компактные модели для российской морфологии, синтаксис, NER.
Ярги-извлечение фактов, основанное на правилах, похожее на Tomita Parser.
IpyMarkup - Визуализация NLP для NER и синтаксических разметков.

API может измениться, для задач реального мира рассмотрим использование библиотек низкого уровня из проекта Natasha. Модели, оптимизированные для новостных статей, качество в другом домене может быть ниже. Для использования старого NamesExtractor , AddressExtactor понижать pip install natasha<1 yargy<0.13

Установить

Наташа поддерживает Python 3.7+ и PYPY3:

$ pip install natasha

Использование

Импорт, инициализировать модули, создать объект Doc .

 > >> from natasha import (
    Segmenter ,
    MorphVocab ,
    
    NewsEmbedding ,
    NewsMorphTagger ,
    NewsSyntaxParser ,
    NewsNERTagger ,
    
    PER ,
    NamesExtractor ,

    Doc
)


> >> segmenter = Segmenter ()
> >> morph_vocab = MorphVocab ()

> >> emb = NewsEmbedding ()
> >> morph_tagger = NewsMorphTagger ( emb )
> >> syntax_parser = NewsSyntaxParser ( emb )
> >> ner_tagger = NewsNERTagger ( emb )

> >> names_extractor = NamesExtractor ( morph_vocab )

> >> text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу понять, как прославление тех, кто непосредственно принимал участие в ужасных антисемитских преступлениях, помогает бороться с антисемитизмом и ксенофобией. Украина не должна забывать о преступлениях, совершенных против украинских евреев, и никоим образом не отмечать их через почитание их исполнителей», — написал дипломат. 11 декабря Львовский областной совет принял решение провозгласить 2019 год в регионе годом Степана Бандеры в связи с празднованием 110-летия со дня рождения лидера ОУН (Бандера родился 1 января 1909 года). В июле аналогичное решение принял Житомирский областной совет. В начале месяца с предложением к президенту страны Петру Порошенко вернуть Бандере звание Героя Украины обратились депутаты Верховной Рады. Парламентарии уверены, что признание Бандеры национальным героем поможет в борьбе с подрывной деятельностью против Украины в информационном поле, а также остановит «распространение мифов, созданных российской пропагандой». Степан Бандера (1909-1959) был одним из лидеров Организации украинских националистов, выступающей за создание независимого государства на территориях с украиноязычным населением. В 2010 году в период президентства Виктора Ющенко Бандера был посмертно признан Героем Украины, однако впоследствии это решение было отменено судом. '
> >> doc = Doc ( text )

Сегментация

Разделите текст на токены и послания. Определяет tokens и свойства sents doc . Использует Razdel внутренне.

 > >> doc . segment ( segmenter )
> >> print ( doc . tokens [: 5 ])
> >> print ( doc . sents [: 5 ])
[ DocToken ( stop = 5 , text = 'Посол' ),
 DocToken ( start = 6 , stop = 13 , text = 'Израиля' ),
 DocToken ( start = 14 , stop = 16 , text = 'на' ),
 DocToken ( start = 17 , stop = 24 , text = 'Украине' ),
 DocToken ( start = 25 , stop = 30 , text = 'Йоэль' )]
[ DocSent ( stop = 218 , text = ' Посол Израиля на Украине Йоэль Лион признался , чт ..., tokens = [...]),
 DocSent ( start = 219 , stop = 257 , text = 'Свое заявление он разместил в Twitter.' , tokens = [...]),
 DocSent ( start = 258 , stop = 424 , text = '« Я не могу понять , как прославление тех , кто непо ..., tokens = [...]),
 DocSent ( start = 425 , stop = 592 , text = ' Украина не должна забывать о преступлениях , совер ..., tokens = [...]),
 DocSent ( start = 593 , stop = 798 , text = ' 11 декабря Львовский областной совет принял решен ..., tokens = [...])]

Морфология

Для каждого токенового экстракта насыщенных морфологических тегов. Зависит от этапа сегментации. Определяет pos и feats свойства doc.tokens . Использует модель морфологии Slovnet внутри.

Позвоните morph.print() , чтобы визуализировать наценку морфологии.

 > >> doc . tag_morph ( morph_tagger )
> >> print ( doc . tokens [: 5 ])
> >> doc . sents [ 0 ]. morph . print ()
[ DocToken ( stop = 5 , text = 'Посол' , pos = 'NOUN' , feats = < Anim , Nom , Masc , Sing > ),
 DocToken ( start = 6 , stop = 13 , text = 'Израиля' , pos = 'PROPN' , feats = < Inan , Gen , Masc , Sing > ),
 DocToken ( start = 14 , stop = 16 , text = 'на' , pos = 'ADP' ),
 DocToken ( start = 17 , stop = 24 , text = 'Украине' , pos = 'PROPN' , feats = < Inan , Loc , Fem , Sing > ),
 DocToken ( start = 25 , stop = 30 , text = 'Йоэль' , pos = 'PROPN' , feats = < Anim , Nom , Masc , Sing > )]
               Посол NOUN | Animacy = Anim | Case = Nom | Gender = Masc | Number = Sing
             Израиля PROPN | Animacy = Inan | Case = Gen | Gender = Masc | Number = Sing
                  на ADP
             Украине PROPN | Animacy = Inan | Case = Loc | Gender = Fem | Number = Sing
               Йоэль PROPN | Animacy = Anim | Case = Nom | Gender = Masc | Number = Sing
                Лион PROPN | Animacy = Anim | Case = Nom | Gender = Masc | Number = Sing
           признался VERB | Aspect = Perf | Gender = Masc | Mood = Ind | Number = Sing | Tense = Past | VerbForm = Fin | Voice = Mid
                   , PUNCT
                 что SCONJ
...

Лемматизация

Легматизировать каждый токен. Зависит от шага морфологии. Определяет свойство lemma doc.tokens . Использует Pymorphy внутри.

 > >> for token in doc . tokens :
> >>     token . lemmatize ( morph_vocab )
    
> >> print ( doc . tokens [: 5 ])
> >> { _ . text : _ . lemma for _ in doc . tokens }
[ DocToken ( stop = 5 , text = 'Посол' , pos = 'NOUN' , feats = < Anim , Nom , Masc , Sing > , lemma = 'посол' ),
 DocToken ( start = 6 , stop = 13 , text = 'Израиля' , pos = 'PROPN' , feats = < Inan , Gen , Masc , Sing > , lemma = 'израиль' ),
 DocToken ( start = 14 , stop = 16 , text = 'на' , pos = 'ADP' , lemma = 'на' ),
 DocToken ( start = 17 , stop = 24 , text = 'Украине' , pos = 'PROPN' , feats = < Inan , Loc , Fem , Sing > , lemma = 'украина' ),
 DocToken ( start = 25 , stop = 30 , text = 'Йоэль' , pos = 'PROPN' , feats = < Anim , Nom , Masc , Sing > , lemma = 'йоэль' )]
{ 'Посол' : 'посол' ,
 'Израиля' : 'израиль' ,
 'на' : 'на' ,
 'Украине' : 'украина' ,
 'Йоэль' : 'йоэль' ,
 'Лион' : 'лион' ,
 'признался' : 'признаться' ,
 ',' : ',' ,
 'что' : 'что' ,
 'пришел' : 'прийти' ,
 'в' : 'в' ,
 'шок' : 'шок' ,
 'узнав' : 'узнать' ,
 'о' : 'о' ,
...

Синтаксис

Для каждого предложения прогона анализатора синтаксиса. Зависит от этапа сегментации. Определяет id , head_id , rel Properties of doc.tokens . Использует модель синтаксиса Slovnet внутри.

Используйте syntax.print() для визуализации разметки синтаксиса. Использует Ipymarkup внутри.

 > >> doc . parse_syntax ( syntax_parser )
> >> print ( doc . tokens [: 5 ])
> >> doc . sents [ 0 ]. syntax . print ()
[ DocToken ( stop = 5 , text = 'Посол' , id = '1_1' , head_id = '1_7' , rel = 'nsubj' , pos = 'NOUN' , feats = < Anim , Nom , Masc , Sing > ),
 DocToken ( start = 6 , stop = 13 , text = 'Израиля' , id = '1_2' , head_id = '1_1' , rel = 'nmod' , pos = 'PROPN' , feats = < Inan , Gen , Masc , Sing > ),
 DocToken ( start = 14 , stop = 16 , text = 'на' , id = '1_3' , head_id = '1_4' , rel = 'case' , pos = 'ADP' ),
 DocToken ( start = 17 , stop = 24 , text = 'Украине' , id = '1_4' , head_id = '1_1' , rel = 'nmod' , pos = 'PROPN' , feats = < Inan , Loc , Fem , Sing > ),
 DocToken ( start = 25 , stop = 30 , text = 'Йоэль' , id = '1_5' , head_id = '1_1' , rel = 'appos' , pos = 'PROPN' , feats = < Anim , Nom , Masc , Sing > )]
        ┌──► Посол         nsubj
        │    Израиля       
        │ ┌► на            case
        │ └─ Украине       
        │ ┌─ Йоэль         
        │ └► Лион          flat : name
┌─────┌─└─── признался     
│     │ ┌──► ,             punct
│     │ │ ┌► что           mark
│     └►└─└─ пришел        ccomp
│     │   ┌► в             case
│     └──►└─ шок           obl
│         ┌► ,             punct
│ ┌────►┌─└─ узнав         advcl
│ │     │ ┌► о             case
│ │ ┌───└►└─ решении       obl
│ │ │ ┌─└──► властей       nmod
│ │ │ │   ┌► Львовской     amod
│ │ │ └──►└─ области       nmod
│ └─└►┌─┌─── объявить      nmod
│     │ │ ┌► 2019          amod
│     │ └►└─ год           obj
│     └──►┌─ годом         obl
│   ┌─────└► лидера        nmod
│   │ ┌►┌─── запрещенной   acl
│   │ │ │ ┌► в             case
│   │ │ └►└─ России        obl
│ ┌─└►└─┌─── Организации   nmod
│ │     │ ┌► украинских    amod
│ │   ┌─└►└─ националистов nmod
│ │   │   ┌► (             punct
│ │   └►┌─└─ ОУН           parataxis
│ │     └──► )             punct
│ └──────►┌─ Степана       appos
│         └► Бандеры       flat : name
└──────────► .             punct
...

Нор

Извлечение Standart названные объекты: имена, местоположения, организации. Зависит от этапа сегментации. spans собственность doc . Использует Slovnet NER модель внутри.

Вызовите ner.print() , чтобы визуализировать NER Markup. Использует Ipymarkup внутри.

 > >> doc . tag_ner ( ner_tagger )
> >> print ( doc . spans [: 5 ])
> >> doc . ner . print ()
[ DocSpan ( start = 6 , stop = 13 , type = 'LOC' , text = 'Израиля' , tokens = [...]),
 DocSpan ( start = 17 , stop = 24 , type = 'LOC' , text = 'Украине' , tokens = [...]),
 DocSpan ( start = 25 , stop = 35 , type = 'PER' , text = 'Йоэль Лион' , tokens = [...]),
 DocSpan ( start = 89 , stop = 106 , type = 'LOC' , text = 'Львовской области' , tokens = [...]),
 DocSpan ( start = 152 , stop = 158 , type = 'LOC' , text = 'России' , tokens = [...])]
Посол Израиля на Украине Йоэль Лион признался , что пришел в шок , узнав
      LOC ────    LOC ──── PER ───────                                   
 о решении властей Львовской области объявить 2019 год годом лидера 
                   LOC ──────────────                                
запрещенной в России Организации украинских националистов ( ОУН ) 
              LOC ─── ORG ─────────────────────────────────────── 
Степана Бандеры . Свое заявление он разместил в Twitter . « Я не могу 
PER ────────────                                ORG ────             
понять , как прославление тех , кто непосредственно принимал участие в 
ужасных антисемитских преступлениях , помогает бороться с 
антисемитизмом и ксенофобией . Украина не должна забывать о 
                              LOC ────                      
преступлениях , совершенных против украинских евреев , и никоим образом 
не отмечать их через почитание их исполнителей », — написал дипломат . 
11 декабря Львовский областной совет принял решение провозгласить 2019
           ORG ──────────────────────                                  
 год в регионе годом Степана Бандеры в связи с празднованием 110 - летия
                     PER ────────────                                  
 со дня рождения лидера ОУН ( Бандера родился 1 января 1909 года ). В 
                        ORG                                         
июле аналогичное решение принял Житомирский областной совет . В начале 
                                ORG ────────────────────────           
месяца с предложением к президенту страны Петру Порошенко вернуть 
                                          PER ────────────         
Бандере звание Героя Украины обратились депутаты Верховной Рады . 
PER ────              LOC ────                     ORG ───────────  
Парламентарии уверены , что признание Бандеры национальным героем 
                                     PER ────                     
поможет в борьбе с подрывной деятельностью против Украины в 
                                                  LOC ────   
информационном поле , а также остановит « распространение мифов , 
созданных российской пропагандой ». Степан Бандера ( 1909 - 1959 ) был 
                                   PER ───────────                 
одним из лидеров Организации украинских националистов , выступающей за 
                 ORG ─────────────────────────────────                 
создание независимого государства на территориях с украиноязычным 
населением . В 2010 году в период президентства Виктора Ющенко Бандера 
                                               PER ─────────── PER ──── 
был посмертно признан Героем Украины , однако впоследствии это решение 
                             LOC ────                                  
было отменено судом .

Нормализация сущности

Для каждого нерелевого расхода применяйте процедуру нормализации. Зависит от NER, морфологии и синтаксических шагов. Определяет normal свойство doc.spans .

Нельзя просто лемматизировать каждый токен внутри сущностей, в противном случае «Органихииии икинский». Наташа использует синтаксисные зависимости, чтобы создать правильные «Органихизя» в Айкрайинском

 > >> for span in doc . spans :
> >>    span . normalize ( morph_vocab )
> >> print ( doc . spans [: 5 ])
> >> { _ . text : _ . normal for _ in doc . spans if _ . text != _ . normal }
[ DocSpan ( start = 6 , stop = 13 , type = 'LOC' , text = 'Израиля' , tokens = [...], normal = 'Израиль' ),
 DocSpan ( start = 17 , stop = 24 , type = 'LOC' , text = 'Украине' , tokens = [...], normal = 'Украина' ),
 DocSpan ( start = 25 , stop = 35 , type = 'PER' , text = 'Йоэль Лион' , tokens = [...], normal = 'Йоэль Лион' ),
 DocSpan ( start = 89 , stop = 106 , type = 'LOC' , text = 'Львовской области' , tokens = [...], normal = 'Львовская область' ),
 DocSpan ( start = 152 , stop = 158 , type = 'LOC' , text = 'России' , tokens = [...], normal = 'Россия' )]
{ 'Израиля' : 'Израиль' ,
 'Украине' : 'Украина' ,
 'Львовской области' : 'Львовская область' ,
 'России' : 'Россия' ,
 'Организации украинских националистов (ОУН)' : 'Организация украинских националистов (ОУН)' ,
 'Степана Бандеры' : 'Степан Бандера' ,
 'Петру Порошенко' : 'Петр Порошенко' ,
 'Бандере' : 'Бандера' ,
 'Украины' : 'Украина' ,
 'Верховной Рады' : 'Верховная Рада' ,
 'Бандеры' : 'Бандера' ,
 'Организации украинских националистов' : 'Организация украинских националистов' ,
 'Виктора Ющенко' : 'Виктор Ющенко' }

Названный субъект диаграммы

PARSE PER названные сущности в первое имя, фамилия и патронима. Зависит от шага. Определяет собственность fact doc.spans . Использует Yargy-Parser внутренне.

Наташа также встроила экстракторы для дат, денег, адреса.

 > >> for span in doc . spans :
> >>    if span . type == PER :
> >>        span . extract_fact ( names_extractor )

> >> print ( doc . spans [: 5 ])
> >> { _ . normal : _ . fact . as_dict for _ in doc . spans if _ . type == PER }
[ DocSpan ( start = 6 , stop = 13 , type = 'LOC' , text = 'Израиля' , tokens = [...], normal = 'Израиль' ),
 DocSpan ( start = 17 , stop = 24 , type = 'LOC' , text = 'Украине' , tokens = [...], normal = 'Украина' ),
 DocSpan ( start = 25 , stop = 35 , type = 'PER' , text = 'Йоэль Лион' , tokens = [...], normal = 'Йоэль Лион' , fact = DocFact ( slots = [...])),
 DocSpan ( start = 89 , stop = 106 , type = 'LOC' , text = 'Львовской области' , tokens = [...], normal = 'Львовская область' ),
 DocSpan ( start = 152 , stop = 158 , type = 'LOC' , text = 'России' , tokens = [...], normal = 'Россия' )]
{ 'Йоэль Лион' : { 'first' : 'Йоэль' , 'last' : 'Лион' },
 'Степан Бандера' : { 'first' : 'Степан' , 'last' : 'Бандера' },
 'Петр Порошенко' : { 'first' : 'Петр' , 'last' : 'Порошенко' },
 'Бандера' : { 'last' : 'Бандера' },
 'Виктор Ющенко' : { 'first' : 'Виктор' , 'last' : 'Ющенко' }}

Документация

Примеры с описанием + ссылка
Наташа раздел в Longread on Natasha Project (на русском языке)
Наташа раздел DataFest 2020 Talk (по -русски)

Оценка

Сегментация - раздел оценки Razdel
Встроение - раздел оценки NAVEC
Морфология - раздел оценки морфа Slovnet
Синтаксис - раздел оценки синтаксиса SlovNet
NER - Slovnet NER SECTION

Поддерживать

Чат - https://t.me/natural_language_processing
Проблемы - https://github.com/natasha/natasha/issues
Коммерческая поддержка - https://lab.alexkuk.ru

Разработка

Дев Энг

python -m venv ~ /.venvs/natasha-natasha
source ~ /.venvs/natasha-natasha/bin/activate

pip install -r requirements/dev.txt
pip install -e .

python -m ipykernel install --user --name natasha-natasha

Тест

make test

Док

make exec-docs

Выпускать

 # Update setup.py version

git commit -am ' Up version '
git tag v1.6.0

git push
git push --tags

# Github Action builds dist and publishes to PyPi

Расширять

natasha

Установить

Использование

Сегментация

Морфология

Лемматизация

Синтаксис

Нор

Нормализация сущности

Названный субъект диаграммы

Документация

Оценка

Поддерживать

Разработка

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express