Скачать spikex - spikex исходный код скачать

Spikex - Spacy Pipes для извлечения знаний

Spikex - это коллекция труб, готовых к подключению в трубопровод Spacy. Он направлен на то, чтобы помочь в создании инструментов извлечения знаний с почти нулевыми усилиями.

Что нового в Spikex 0.5.0

Викиграф никогда не был такой молнией:

? Производительность Луна , благодаря принятию редкой матрицы смежности для обработки графика страниц, вместо использования IGRAPH
Оптимизация памяти с сокращением потребления на ~ 40% и сжатым размером, сокращенным на ~ 20%, внедряя новые двунаправленные словари для управления данными
Новые API для более быстрого и более легкого использования и взаимодействия
? Общие исправления , для лучшего графика и лучших страниц, соответствующих сопоставлению

Трубы

Wikipagex связывает страницы Википедии с кусочками в тексте
Clusterx выбирает существительные кусочки в тексте и кластеры их на основе пересмотра алгоритма Mapper Ball, Madial Ball Mapper
ABBRX обнаруживает сокращения и аббревиатуры, связывая их с их длинной формой. Он основан на Scispacy, с улучшениями
Labelx принимает этикетки выражений, соответствующих рисункам, и ловит их в тексте, решая перекрытия, сокращения и аббревиатуры
Phrasex создает подчеркивающее расширение Doc на основе пользовательского имени атрибута и шаблонов фразы. Примерами являются Nounphrasex и Verbphrasex , которые извлекают существительные фразы и глагольные фразы соответственно
Sentx обнаруживает предложения в тексте, основанном на Splitta с уточнениями

Инструменты

Викиграф со страницами в виде листьев, связанных с категориями как узлы
Маттер , который наследует свой интерфейс от Spacy's One, но построен с использованием двигателя из корпуса, которая повышает его производительность

Установите Spikex

Некоторые требования унаследованы от Spacy:

Spacy Версия : 2.3+
Операционная система : macOS / OS X · Linux · Windows (Cygwin, Mingw, Visual Studio)
Версия Python : Python 3.6+ (только 64 бит)
Менеджеры пакетов : PIP

Некоторые зависимости используют цинтон , и его необходимо установить перед Spikex:

pip install cython

Помните, что всегда рекомендуется виртуальная среда, чтобы избежать изменения состояния системы.

пип

На этом этапе установка Spikex через PIP - это команда One Line:

pip install spikex

Использование

Предпосылки

Spikex Tipes работают со Spacy, отсюда и модель, которую необходимо установить. Следуйте официальным инструкциям здесь. Совершенно новый Spacy 3.0 поддерживается!

Викиграф

WikiGraph построен, начиная с некоторых ключевых компонентов Википедии: страницы , категории и отношения между ними.

Авто

Создание WikiGraph может занять время, в зависимости от того, насколько велик его свалка в Википедии. По этой причине мы предоставляем викиграфы, готовые к использованию:

Дата	Викиграф	Ланг	Размер (сжатый)	Размер (память)
2021-05-20	enwiki_core	Поступка	1,3 ГБ	8 ГБ
2021-05-20	simplewiki_core	Поступка	20 МБ	130 МБ
2021-05-20	itwiki_core	ЭТО	208 МБ	1,2 ГБ
Больше грядущего ...

Spikex предоставляет команду для загрузки и установки WikiGraph (Linux или MacOS, Windows еще не поддерживается):

spikex download-wikigraph simplewiki_core

Руководство

WikiGraph может быть создан из командной строки, указывающий, какая выпуск Википедии нужно взять и где его сохранить:

spikex create-wikigraph 
  < YOUR-OUTPUT-PATH > 
  --wiki < WIKI-NAME, default: en > 
  --version < DUMP-VERSION, default: latest > 
  --dumps-path < DUMPS-BACKUP-PATH >

Тогда его нужно упаковать и установить:

spikex package-wikigraph 
  < WIKIGRAPH-RAW-PATH > 
  < YOUR-OUTPUT-PATH >

Следуйте инструкциям в конце процесса упаковки и установите распределительный пакет в вашей виртуальной среде. Теперь вы готовы использовать свой викиграф по своему усмотрению:

 from spikex . wikigraph import load as wg_load

wg = wg_load ( "enwiki_core" )
page = "Natural_language_processing"
categories = wg . get_categories ( page , distance = 1 )
for category in categories :
    print ( category )

> >> Category : Speech_recognition
> >> Category : Artificial_intelligence
> >> Category : Natural_language_processing
> >> Category : Computational_linguistics

Маттер

Матлер идентичен одному, но быстрее, когда дело доходит до обработки многих моделей одновременно (порядок тысяч), поэтому следуйте официальным инструкциям по использованию здесь.

Тривиальный пример:

 from spikex . matcher import Matcher
from spacy import load as spacy_load

nlp = spacy_load ( "en_core_web_sm" )
matcher = Matcher ( nlp . vocab )
matcher . add ( "TEST" , [[{ "LOWER" : "nlp" }]])
doc = nlp ( "I love NLP" )
for _ , s , e in matcher ( doc ):
  print ( doc [ s : e ])

> >> NLP

Wikipagex

В трубе WikiPageX используется WikiGraph , чтобы найти куски в тексте, который соответствует титулам страниц Википедии.

 from spacy import load as spacy_load
from spikex . wikigraph import load as wg_load
from spikex . pipes import WikiPageX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "An apple a day keeps the doctor away" )
wg = wg_load ( "simplewiki_core" )
wpx = WikiPageX ( wg )
doc = wpx ( doc )
for span in doc . _ . wiki_spans :
  print ( span . _ . wiki_pages )

> >> [ 'An' ]
> >> [ 'Apple' , 'Apple_(disambiguation)' , 'Apple_(company)' , 'Apple_(tree)' ]
> >> [ 'A' , 'A_(musical_note)' , 'A_(New_York_City_Subway_service)' , 'A_(disambiguation)' , 'A_(Cyrillic)' )]
> >> [ 'Day' ]
> >> [ 'The_Doctor' , 'The_Doctor_(Doctor_Who)' , 'The_Doctor_(Star_Trek)' , 'The_Doctor_(disambiguation)' ]
> >> [ 'The' ]
> >> [ 'Doctor_(Doctor_Who)' , 'Doctor_(Star_Trek)' , 'Doctor' , 'Doctor_(title)' , 'Doctor_(disambiguation)' ]

Clusterx

Труба ClusterX берет существительные кусочки в тексту и кластера их с помощью алгоритма Mapper радиального шарика.

 from spacy import load as spacy_load
from spikex . pipes import ClusterX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "Grab this juicy orange and watch a dog chasing a cat." )
clusterx = ClusterX ( min_score = 0.65 )
doc = clusterx ( doc )
for cluster in doc . _ . cluster_chunks :
  print ( cluster )

> >> [ this juicy orange ]
> >> [ a cat , a dog ]

ABBRX

Труба ABBRX находит сокращения и аббревиатуры в тексте, связывая короткие и длинные формы вместе:

 from spacy import load as spacy_load
from spikex . pipes import AbbrX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "a little snippet with an abbreviation (abbr)" )
abbrx = AbbrX ( nlp . vocab )
doc = abbrx ( doc )
for abbr in doc . _ . abbrs :
  print ( abbr , "->" , abbr . _ . long_form )

> >> abbr - > abbreviation

Labelx

Труба LabelX совпадает с шаблонами маркировки в тексте, решении перекрытий, сокращений и сокращений.

 from spacy import load as spacy_load
from spikex . pipes import LabelX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "looking for a computer system engineer" )
patterns = [
  [{ "LOWER" : "computer" }, { "LOWER" : "system" }],
  [{ "LOWER" : "system" }, { "LOWER" : "engineer" }],
]
labelx = LabelX ( nlp . vocab , [( "TEST" , patterns )], validate = True , only_longest = True )
doc = labelx ( doc )
for labeling in doc . _ . labelings :
  print ( labeling , f"[ { labeling . label_ } ]" )

> >> computer system engineer [ TEST ]

Фразекс

PhraseX Pipe создает индивидуальное расширение Doc , которое соответствует сочетаниям из фразовых шаблонов.

 from spacy import load as spacy_load
from spikex . pipes import PhraseX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "I have Melrose and McIntosh apples, or Williams pears" )
patterns = [
  [{ "LOWER" : "mcintosh" }],
  [{ "LOWER" : "melrose" }],
]
phrasex = PhraseX ( nlp . vocab , "apples" , patterns )
doc = phrasex ( doc )
for apple in doc . _ . apples :
  print ( apple )

> >> Melrose
> >> McIntosh

Sentx

Sentx Tipe разбивает предложения в тексте. Он изменяет атрибут Tokens ' is_sent_start , поэтому обязательно добавить его перед париторией в трубопроводе Spacy:

 from spacy import load as spacy_load
from spikex . pipes import SentX
from spikex . defaults import spacy_version

if spacy_version >= 3 :
  from spacy . language import Language

  @ Language . factory ( "sentx" )
  def create_sentx ( nlp , name ):
      return SentX ()

nlp = spacy_load ( "en_core_web_sm" )
sentx_pipe = SentX () if spacy_version < 3 else "sentx"
nlp . add_pipe ( sentx_pipe , before = "parser" )
doc = nlp ( "A little sentence. Followed by another one." )
for sent in doc . sents :
  print ( sent )

> >> A little sentence .
> >> Followed by another one .

Это все люди

Не стесняйтесь вносить свой вклад и веселиться!

Расширять

spikex

Spikex - Spacy Pipes для извлечения знаний

Что нового в Spikex 0.5.0

Трубы

Инструменты

Установите Spikex

пип

Использование

Предпосылки

Викиграф

Авто

Руководство

Маттер

Wikipagex

Clusterx

ABBRX

Labelx

Фразекс

Sentx

Это все люди

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express