natasha Download - natasha Source Code Download

Natasha löst grundlegende NLP -Aufgaben für die russische Sprache: Tokenisierung, Satzsegmentierung, Worteinbettung, Morphologie -Tagging, Lemmatisierung, Phrase -Normalisierung, Syntax -Analyse, NER -Tagging, Faktenextraktion. Die Qualität bei jeder Aufgabe ist ähnlich oder besser als aktuelle SOTAS für die russische Sprache in Nachrichtenartikeln siehe Abschnitt Evaluation. Natasha ist kein Forschungsprojekt, zugrunde liegende Technologien für die Produktion. Wir achten auf die Modellgröße, die Verwendung von RAM und die Leistung. Modelle, die auf CPU ausgeführt werden, verwenden Sie Numpy für Inferenz.

Natasha integriert Bibliotheken vom Natasha -Projekt unter einer bequemen API:

Razdel - Token, Satzsegmentierung für Russisch
NAVEC - Kompakt russische Einbettungen
Slovnet-Moderne, tiefgreifende Techniken für russische NLP, Kompaktmodelle für die russische Morphologie, Syntax, Ner.
Yargie-Regelbasierte Faktenextraktion ähnlich wie Tomita Parser.
IPYMARKUP - NLP -Visualisierungen für NER- und Syntax -Markups.

Die API kann sich ändern, da Realworld -Aufgaben in Betracht ziehen, Bibliotheken auf niedrigem Niveau aus dem Natasha -Projekt zu verwenden. Modelle, die für Nachrichtenartikel optimiert sind, kann Qualität auf anderen Domäne geringer sein. Um den alten NamesExtractor zu verwenden, AddressExtactor downgrade pip install natasha<1 yargy<0.13

Installieren

Natasha unterstützt Python 3.7+ und Pypy3:

$ pip install natasha

Verwendung

Importieren, Module initialisieren, Doc -Objekt erstellen.

 > >> from natasha import (
    Segmenter ,
    MorphVocab ,
    
    NewsEmbedding ,
    NewsMorphTagger ,
    NewsSyntaxParser ,
    NewsNERTagger ,
    
    PER ,
    NamesExtractor ,

    Doc
)


> >> segmenter = Segmenter ()
> >> morph_vocab = MorphVocab ()

> >> emb = NewsEmbedding ()
> >> morph_tagger = NewsMorphTagger ( emb )
> >> syntax_parser = NewsSyntaxParser ( emb )
> >> ner_tagger = NewsNERTagger ( emb )

> >> names_extractor = NamesExtractor ( morph_vocab )

> >> text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу понять, как прославление тех, кто непосредственно принимал участие в ужасных антисемитских преступлениях, помогает бороться с антисемитизмом и ксенофобией. Украина не должна забывать о преступлениях, совершенных против украинских евреев, и никоим образом не отмечать их через почитание их исполнителей», — написал дипломат. 11 декабря Львовский областной совет принял решение провозгласить 2019 год в регионе годом Степана Бандеры в связи с празднованием 110-летия со дня рождения лидера ОУН (Бандера родился 1 января 1909 года). В июле аналогичное решение принял Житомирский областной совет. В начале месяца с предложением к президенту страны Петру Порошенко вернуть Бандере звание Героя Украины обратились депутаты Верховной Рады. Парламентарии уверены, что признание Бандеры национальным героем поможет в борьбе с подрывной деятельностью против Украины в информационном поле, а также остановит «распространение мифов, созданных российской пропагандой». Степан Бандера (1909-1959) был одним из лидеров Организации украинских националистов, выступающей за создание независимого государства на территориях с украиноязычным населением. В 2010 году в период президентства Виктора Ющенко Бандера был посмертно признан Героем Украины, однако впоследствии это решение было отменено судом. '
> >> doc = Doc ( text )

Segmentierung

Teilen Sie den Text in Token und Sätze auf. Definiert tokens und sents Eigenschaften von doc . Verwendet Razdel intern.

 > >> doc . segment ( segmenter )
> >> print ( doc . tokens [: 5 ])
> >> print ( doc . sents [: 5 ])
[ DocToken ( stop = 5 , text = 'Посол' ),
 DocToken ( start = 6 , stop = 13 , text = 'Израиля' ),
 DocToken ( start = 14 , stop = 16 , text = 'на' ),
 DocToken ( start = 17 , stop = 24 , text = 'Украине' ),
 DocToken ( start = 25 , stop = 30 , text = 'Йоэль' )]
[ DocSent ( stop = 218 , text = ' Посол Израиля на Украине Йоэль Лион признался , чт ..., tokens = [...]),
 DocSent ( start = 219 , stop = 257 , text = 'Свое заявление он разместил в Twitter.' , tokens = [...]),
 DocSent ( start = 258 , stop = 424 , text = '« Я не могу понять , как прославление тех , кто непо ..., tokens = [...]),
 DocSent ( start = 425 , stop = 592 , text = ' Украина не должна забывать о преступлениях , совер ..., tokens = [...]),
 DocSent ( start = 593 , stop = 798 , text = ' 11 декабря Львовский областной совет принял решен ..., tokens = [...])]

Morphologie

Für jeden Token extrahieren Sie reichhaltige Morphologie -Tags. Hängt vom Segmentierungsschritt ab. Definiert pos und feats -Eigenschaften von doc.tokens . Verwendet das Slovnet -Morphologie -Modell intern.

Rufen Sie morph.print() an, um das Morphologie -Markup zu visualisieren.

 > >> doc . tag_morph ( morph_tagger )
> >> print ( doc . tokens [: 5 ])
> >> doc . sents [ 0 ]. morph . print ()
[ DocToken ( stop = 5 , text = 'Посол' , pos = 'NOUN' , feats = < Anim , Nom , Masc , Sing > ),
 DocToken ( start = 6 , stop = 13 , text = 'Израиля' , pos = 'PROPN' , feats = < Inan , Gen , Masc , Sing > ),
 DocToken ( start = 14 , stop = 16 , text = 'на' , pos = 'ADP' ),
 DocToken ( start = 17 , stop = 24 , text = 'Украине' , pos = 'PROPN' , feats = < Inan , Loc , Fem , Sing > ),
 DocToken ( start = 25 , stop = 30 , text = 'Йоэль' , pos = 'PROPN' , feats = < Anim , Nom , Masc , Sing > )]
               Посол NOUN | Animacy = Anim | Case = Nom | Gender = Masc | Number = Sing
             Израиля PROPN | Animacy = Inan | Case = Gen | Gender = Masc | Number = Sing
                  на ADP
             Украине PROPN | Animacy = Inan | Case = Loc | Gender = Fem | Number = Sing
               Йоэль PROPN | Animacy = Anim | Case = Nom | Gender = Masc | Number = Sing
                Лион PROPN | Animacy = Anim | Case = Nom | Gender = Masc | Number = Sing
           признался VERB | Aspect = Perf | Gender = Masc | Mood = Ind | Number = Sing | Tense = Past | VerbForm = Fin | Voice = Mid
                   , PUNCT
                 что SCONJ
...

Lemmatisierung

Lemmatisieren Sie jedes Token. Hängt vom Morphologieschritt ab. Definiert lemma Eigentum von doc.tokens . Verwendet Pymorphy intern.

 > >> for token in doc . tokens :
> >>     token . lemmatize ( morph_vocab )
    
> >> print ( doc . tokens [: 5 ])
> >> { _ . text : _ . lemma for _ in doc . tokens }
[ DocToken ( stop = 5 , text = 'Посол' , pos = 'NOUN' , feats = < Anim , Nom , Masc , Sing > , lemma = 'посол' ),
 DocToken ( start = 6 , stop = 13 , text = 'Израиля' , pos = 'PROPN' , feats = < Inan , Gen , Masc , Sing > , lemma = 'израиль' ),
 DocToken ( start = 14 , stop = 16 , text = 'на' , pos = 'ADP' , lemma = 'на' ),
 DocToken ( start = 17 , stop = 24 , text = 'Украине' , pos = 'PROPN' , feats = < Inan , Loc , Fem , Sing > , lemma = 'украина' ),
 DocToken ( start = 25 , stop = 30 , text = 'Йоэль' , pos = 'PROPN' , feats = < Anim , Nom , Masc , Sing > , lemma = 'йоэль' )]
{ 'Посол' : 'посол' ,
 'Израиля' : 'израиль' ,
 'на' : 'на' ,
 'Украине' : 'украина' ,
 'Йоэль' : 'йоэль' ,
 'Лион' : 'лион' ,
 'признался' : 'признаться' ,
 ',' : ',' ,
 'что' : 'что' ,
 'пришел' : 'прийти' ,
 'в' : 'в' ,
 'шок' : 'шок' ,
 'узнав' : 'узнать' ,
 'о' : 'о' ,
...

Syntax

Für jeden Satz Run Syntax Analyzer. Hängt vom Segmentierungsschritt ab. Definiert id , head_id , rel von doc.tokens . Verwendet das Slovnet -Syntaxmodell intern.

Verwenden Sie syntax.print() , um das Syntax -Markup zu visualisieren. Verwendet Ipymarkup intern.

 > >> doc . parse_syntax ( syntax_parser )
> >> print ( doc . tokens [: 5 ])
> >> doc . sents [ 0 ]. syntax . print ()
[ DocToken ( stop = 5 , text = 'Посол' , id = '1_1' , head_id = '1_7' , rel = 'nsubj' , pos = 'NOUN' , feats = < Anim , Nom , Masc , Sing > ),
 DocToken ( start = 6 , stop = 13 , text = 'Израиля' , id = '1_2' , head_id = '1_1' , rel = 'nmod' , pos = 'PROPN' , feats = < Inan , Gen , Masc , Sing > ),
 DocToken ( start = 14 , stop = 16 , text = 'на' , id = '1_3' , head_id = '1_4' , rel = 'case' , pos = 'ADP' ),
 DocToken ( start = 17 , stop = 24 , text = 'Украине' , id = '1_4' , head_id = '1_1' , rel = 'nmod' , pos = 'PROPN' , feats = < Inan , Loc , Fem , Sing > ),
 DocToken ( start = 25 , stop = 30 , text = 'Йоэль' , id = '1_5' , head_id = '1_1' , rel = 'appos' , pos = 'PROPN' , feats = < Anim , Nom , Masc , Sing > )]
        ┌──► Посол         nsubj
        │    Израиля       
        │ ┌► на            case
        │ └─ Украине       
        │ ┌─ Йоэль         
        │ └► Лион          flat : name
┌─────┌─└─── признался     
│     │ ┌──► ,             punct
│     │ │ ┌► что           mark
│     └►└─└─ пришел        ccomp
│     │   ┌► в             case
│     └──►└─ шок           obl
│         ┌► ,             punct
│ ┌────►┌─└─ узнав         advcl
│ │     │ ┌► о             case
│ │ ┌───└►└─ решении       obl
│ │ │ ┌─└──► властей       nmod
│ │ │ │   ┌► Львовской     amod
│ │ │ └──►└─ области       nmod
│ └─└►┌─┌─── объявить      nmod
│     │ │ ┌► 2019          amod
│     │ └►└─ год           obj
│     └──►┌─ годом         obl
│   ┌─────└► лидера        nmod
│   │ ┌►┌─── запрещенной   acl
│   │ │ │ ┌► в             case
│   │ │ └►└─ России        obl
│ ┌─└►└─┌─── Организации   nmod
│ │     │ ┌► украинских    amod
│ │   ┌─└►└─ националистов nmod
│ │   │   ┌► (             punct
│ │   └►┌─└─ ОУН           parataxis
│ │     └──► )             punct
│ └──────►┌─ Степана       appos
│         └► Бандеры       flat : name
└──────────► .             punct
...

Ner

Extrahieren Sie Standart genannte Entitäten: Namen, Standorte, Organisationen. Hängt vom Segmentierungsschritt ab. Definiert spans Eigentum von doc . Verwendet das Slovnet -NER -Modell intern.

Rufen Sie ner.print() an, um Ner Markup zu visualisieren. Verwendet Ipymarkup intern.

 > >> doc . tag_ner ( ner_tagger )
> >> print ( doc . spans [: 5 ])
> >> doc . ner . print ()
[ DocSpan ( start = 6 , stop = 13 , type = 'LOC' , text = 'Израиля' , tokens = [...]),
 DocSpan ( start = 17 , stop = 24 , type = 'LOC' , text = 'Украине' , tokens = [...]),
 DocSpan ( start = 25 , stop = 35 , type = 'PER' , text = 'Йоэль Лион' , tokens = [...]),
 DocSpan ( start = 89 , stop = 106 , type = 'LOC' , text = 'Львовской области' , tokens = [...]),
 DocSpan ( start = 152 , stop = 158 , type = 'LOC' , text = 'России' , tokens = [...])]
Посол Израиля на Украине Йоэль Лион признался , что пришел в шок , узнав
      LOC ────    LOC ──── PER ───────                                   
 о решении властей Львовской области объявить 2019 год годом лидера 
                   LOC ──────────────                                
запрещенной в России Организации украинских националистов ( ОУН ) 
              LOC ─── ORG ─────────────────────────────────────── 
Степана Бандеры . Свое заявление он разместил в Twitter . « Я не могу 
PER ────────────                                ORG ────             
понять , как прославление тех , кто непосредственно принимал участие в 
ужасных антисемитских преступлениях , помогает бороться с 
антисемитизмом и ксенофобией . Украина не должна забывать о 
                              LOC ────                      
преступлениях , совершенных против украинских евреев , и никоим образом 
не отмечать их через почитание их исполнителей », — написал дипломат . 
11 декабря Львовский областной совет принял решение провозгласить 2019
           ORG ──────────────────────                                  
 год в регионе годом Степана Бандеры в связи с празднованием 110 - летия
                     PER ────────────                                  
 со дня рождения лидера ОУН ( Бандера родился 1 января 1909 года ). В 
                        ORG                                         
июле аналогичное решение принял Житомирский областной совет . В начале 
                                ORG ────────────────────────           
месяца с предложением к президенту страны Петру Порошенко вернуть 
                                          PER ────────────         
Бандере звание Героя Украины обратились депутаты Верховной Рады . 
PER ────              LOC ────                     ORG ───────────  
Парламентарии уверены , что признание Бандеры национальным героем 
                                     PER ────                     
поможет в борьбе с подрывной деятельностью против Украины в 
                                                  LOC ────   
информационном поле , а также остановит « распространение мифов , 
созданных российской пропагандой ». Степан Бандера ( 1909 - 1959 ) был 
                                   PER ───────────                 
одним из лидеров Организации украинских националистов , выступающей за 
                 ORG ─────────────────────────────────                 
создание независимого государства на территориях с украиноязычным 
населением . В 2010 году в период президентства Виктора Ющенко Бандера 
                                               PER ─────────── PER ──── 
был посмертно признан Героем Украины , однако впоследствии это решение 
                             LOC ────                                  
было отменено судом .

Genannte Entitätsnormalisierung

Für jede NER -Spanne Normalisierungsverfahren anwenden. Hängt von NER-, Morphologie- und Syntaxschritten ab. Definiert normal Eigenschaft von doc.spans .

Man kann nicht nur jeden Token in der Entitätsspanne lemmatisieren, ansonsten "организаци ураинских националистов" организация ккракие нациоисches лилwirkungen ". Natasha verwendet Syntaxabhängigkeiten, um korrekt zu produzieren.

 > >> for span in doc . spans :
> >>    span . normalize ( morph_vocab )
> >> print ( doc . spans [: 5 ])
> >> { _ . text : _ . normal for _ in doc . spans if _ . text != _ . normal }
[ DocSpan ( start = 6 , stop = 13 , type = 'LOC' , text = 'Израиля' , tokens = [...], normal = 'Израиль' ),
 DocSpan ( start = 17 , stop = 24 , type = 'LOC' , text = 'Украине' , tokens = [...], normal = 'Украина' ),
 DocSpan ( start = 25 , stop = 35 , type = 'PER' , text = 'Йоэль Лион' , tokens = [...], normal = 'Йоэль Лион' ),
 DocSpan ( start = 89 , stop = 106 , type = 'LOC' , text = 'Львовской области' , tokens = [...], normal = 'Львовская область' ),
 DocSpan ( start = 152 , stop = 158 , type = 'LOC' , text = 'России' , tokens = [...], normal = 'Россия' )]
{ 'Израиля' : 'Израиль' ,
 'Украине' : 'Украина' ,
 'Львовской области' : 'Львовская область' ,
 'России' : 'Россия' ,
 'Организации украинских националистов (ОУН)' : 'Организация украинских националистов (ОУН)' ,
 'Степана Бандеры' : 'Степан Бандера' ,
 'Петру Порошенко' : 'Петр Порошенко' ,
 'Бандере' : 'Бандера' ,
 'Украины' : 'Украина' ,
 'Верховной Рады' : 'Верховная Рада' ,
 'Бандеры' : 'Бандера' ,
 'Организации украинских националистов' : 'Организация украинских националистов' ,
 'Виктора Ющенко' : 'Виктор Ющенко' }

Genannt Entity Parsing

Analysieren Sie PER genannten Entitäten in FirstName, Nachname und Patronymic. Hängt vom Ner -Schritt ab. Definiert fact Eigentum von doc.spans . Verwendet Yargy-Parser intern.

Natasha hat auch Extraktoren für Daten, Geld, Adresse eingebaut.

 > >> for span in doc . spans :
> >>    if span . type == PER :
> >>        span . extract_fact ( names_extractor )

> >> print ( doc . spans [: 5 ])
> >> { _ . normal : _ . fact . as_dict for _ in doc . spans if _ . type == PER }
[ DocSpan ( start = 6 , stop = 13 , type = 'LOC' , text = 'Израиля' , tokens = [...], normal = 'Израиль' ),
 DocSpan ( start = 17 , stop = 24 , type = 'LOC' , text = 'Украине' , tokens = [...], normal = 'Украина' ),
 DocSpan ( start = 25 , stop = 35 , type = 'PER' , text = 'Йоэль Лион' , tokens = [...], normal = 'Йоэль Лион' , fact = DocFact ( slots = [...])),
 DocSpan ( start = 89 , stop = 106 , type = 'LOC' , text = 'Львовской области' , tokens = [...], normal = 'Львовская область' ),
 DocSpan ( start = 152 , stop = 158 , type = 'LOC' , text = 'России' , tokens = [...], normal = 'Россия' )]
{ 'Йоэль Лион' : { 'first' : 'Йоэль' , 'last' : 'Лион' },
 'Степан Бандера' : { 'first' : 'Степан' , 'last' : 'Бандера' },
 'Петр Порошенко' : { 'first' : 'Петр' , 'last' : 'Порошенко' },
 'Бандера' : { 'last' : 'Бандера' },
 'Виктор Ющенко' : { 'first' : 'Виктор' , 'last' : 'Ющенко' }}

Dokumentation

Beispiele mit Beschreibung + Referenz
Natasha -Abteilung in Longread über das Natasha -Projekt (in Russisch)
Natasha -Abschnitt des DataFest 2020 Talk (auf Russisch)

Auswertung

Segmentierung - Abschnitt Razdel -Bewertung
Einbettung - Navec -Bewertung Abschnitt
Morphologie - Abschnitt Slovnet Morph Evaluation
Syntax - Abschnitt Slovnet -Syntaxbewertung
NER - Slovnet Ner Evaluation -Abschnitt

Unterstützung

CHAT - https://t.me/natural_language_processing
Probleme - https://github.com/natasha/natasha/issues
Kommerzielle Unterstützung - https://lab.alexkuk.ru

Entwicklung

Dev Env

python -m venv ~ /.venvs/natasha-natasha
source ~ /.venvs/natasha-natasha/bin/activate

pip install -r requirements/dev.txt
pip install -e .

python -m ipykernel install --user --name natasha-natasha

Prüfen

make test

Dokumente

make exec-docs

Freigeben

 # Update setup.py version

git commit -am ' Up version '
git tag v1.6.0

git push
git push --tags

# Github Action builds dist and publishes to PyPi

Expandieren

natasha

Installieren

Verwendung

Segmentierung

Morphologie

Lemmatisierung

Syntax

Ner

Genannte Entitätsnormalisierung

Genannt Entity Parsing

Dokumentation

Auswertung

Unterstützung

Entwicklung

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express