تنزيل spikex - تنزيل رمز مصدر spikex

Spikex - أنابيب Spacy لاستخراج المعرفة

Spikex عبارة عن مجموعة من الأنابيب الجاهزة للتوصيل في خط أنابيب Spacy. ويهدف إلى المساعدة في بناء أدوات استخراج المعرفة بجهد تقريبًا الصفر.

ما الجديد في Spikex 0.5.0

لم يكن Wikigraph سريعًا جدًا:

؟ الأداء القمر ، بفضل اعتماد مصفوفة متاخمة متناثرة للتعامل مع الرسم البياني للصفحات ، بدلاً من استخدام iGraph
تحسين الذاكرة ، مع خفض الاستهلاك بنسبة 40 ٪ تقريبًا وخفض حجم مضغوط بنسبة 20 ٪ تقريبًا ، مما يؤدي إلى تقديم قواميس ثنائية الاتجاه جديدة لإدارة البيانات
واجهات برمجة التطبيقات الجديدة لاستخدام وتفاعل أسرع وأسهل
؟ الإصلاحات الإجمالية ، للحصول على رسم بياني أفضل وصفحات أفضل مطابقة

الأنابيب

يربط Wikipagex صفحات Wikipedia للقطع في النص
Clusterx تختار قطع الأسماء في نص وتتجمعها بناءً على إعادة النظر
يكتشف ABBRX اختصارات ومختصرات ، وربطها بشكلها الطويل. يعتمد على واحد من Scispacy مع تحسينات
يأخذ Labelx ملصقات من تعبيرات مطابقة الأنماط ويلتقطها في نص ، وحل التراكبات والاختصارات والمختصرة
تقوم Phrasex بإنشاء امتداد ترفيدي لـ Doc استنادًا إلى اسم سمة مخصصة وأنماط عبارة. ومن الأمثلة على ذلك nounphrasex و ferbphrasex ، والتي تستخرج عبارات الاسم وعبارات الأفعال ، على التوالي
يكتشف Sentx جمل في نص ، استنادًا إلى Splitta مع تحسينات

أدوات

wikigraph مع صفحات كما أوراق مرتبطة بالفئات كعقد العقد
المطابق الذي يرث واجهته من الواجهة ، ولكن تم تصميمه باستخدام محرك مصنوع من regex مما يعزز أدائها

تثبيت Spikex

بعض المتطلبات موروثة من Spacy:

نسخة سبيس : 2.3+
نظام التشغيل : MacOS / OS X · Linux · Windows (Cygwin ، Mingw ، Visual Studio)
إصدار Python : Python 3.6+ (64 بت فقط)
مديرو الحزم : PIP

تستخدم بعض التبعيات Cython ويجب تثبيتها قبل Spikex:

pip install cython

تذكر أن البيئة الافتراضية يوصى دائمًا ، من أجل تجنب تعديل حالة النظام.

pip

في هذه المرحلة ، يعد تثبيت Spikex عبر PIP أمرًا واحدًا:

pip install spikex

الاستخدام

المسبق

تعمل أنابيب Spikex مع Spacy ، وبالتالي هناك حاجة لتثبيت نموذج. اتبع التعليمات الرسمية هنا. تم دعم Spacy 3.0 العلامة التجارية الجديدة!

wikigraph

تم تصميم WikiGraph بدءًا من بعض المكونات الرئيسية لـ Wikipedia: الصفحات والفئات والعلاقات بينها.

آلي

يمكن أن يستغرق إنشاء WikiGraph بعض الوقت ، اعتمادًا على حجم تفريغ ويكيبيديا. لهذا السبب ، نقدم wikigraphs جاهزة لاستخدامها:

تاريخ	wikigraph	لانغ	الحجم (مضغوط)	الحجم (الذاكرة)
2021-05-20	enwiki_core	en	1.3 جيجابايت	8 جيجا بايت
2021-05-20	simplewiki_core	en	20 ميجابايت	130 ميجابايت
2021-05-20	itwiki_core	هو - هي	208 ميجابايت	1.2 جيجابايت
المزيد قادم ...

يوفر Spikex أمرًا لاختصار تنزيل وتثبيت WikiGraph (Linux أو MacOS ، ويندوز غير مدعوم بعد):

spikex download-wikigraph simplewiki_core

يدوي

يمكن إنشاء WikiGraph من سطر الأوامر ، وتحديد مكب Wikipedia الذي يجب اتخاذه وأين يتم حفظه:

spikex create-wikigraph 
  < YOUR-OUTPUT-PATH > 
  --wiki < WIKI-NAME, default: en > 
  --version < DUMP-VERSION, default: latest > 
  --dumps-path < DUMPS-BACKUP-PATH >

ثم يجب تعبئتها وتثبيتها:

spikex package-wikigraph 
  < WIKIGRAPH-RAW-PATH > 
  < YOUR-OUTPUT-PATH >

اتبع الإرشادات الموجودة في نهاية عملية التعبئة وقم بتثبيت حزمة التوزيع في بيئتك الافتراضية. أنت الآن مستعد لاستخدام wikigraph الخاص بك كما يحلو لك:

 from spikex . wikigraph import load as wg_load

wg = wg_load ( "enwiki_core" )
page = "Natural_language_processing"
categories = wg . get_categories ( page , distance = 1 )
for category in categories :
    print ( category )

> >> Category : Speech_recognition
> >> Category : Artificial_intelligence
> >> Category : Natural_language_processing
> >> Category : Computational_linguistics

مطابقة

يتطابق المطابقة مع SPACY ، ولكنه أسرع عندما يتعلق الأمر بالتعامل مع العديد من الأنماط في وقت واحد (ترتيب الآلاف) ، لذلك اتبع تعليمات الاستخدام الرسمية هنا.

مثال تافهة:

 from spikex . matcher import Matcher
from spacy import load as spacy_load

nlp = spacy_load ( "en_core_web_sm" )
matcher = Matcher ( nlp . vocab )
matcher . add ( "TEST" , [[{ "LOWER" : "nlp" }]])
doc = nlp ( "I love NLP" )
for _ , s , e in matcher ( doc ):
  print ( doc [ s : e ])

> >> NLP

wikipagex

يستخدم WikiPageX Pipe WikiGraph من أجل العثور على قطع في نص يتطابق مع عناوين صفحة ويكيبيديا.

 from spacy import load as spacy_load
from spikex . wikigraph import load as wg_load
from spikex . pipes import WikiPageX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "An apple a day keeps the doctor away" )
wg = wg_load ( "simplewiki_core" )
wpx = WikiPageX ( wg )
doc = wpx ( doc )
for span in doc . _ . wiki_spans :
  print ( span . _ . wiki_pages )

> >> [ 'An' ]
> >> [ 'Apple' , 'Apple_(disambiguation)' , 'Apple_(company)' , 'Apple_(tree)' ]
> >> [ 'A' , 'A_(musical_note)' , 'A_(New_York_City_Subway_service)' , 'A_(disambiguation)' , 'A_(Cyrillic)' )]
> >> [ 'Day' ]
> >> [ 'The_Doctor' , 'The_Doctor_(Doctor_Who)' , 'The_Doctor_(Star_Trek)' , 'The_Doctor_(disambiguation)' ]
> >> [ 'The' ]
> >> [ 'Doctor_(Doctor_Who)' , 'Doctor_(Star_Trek)' , 'Doctor' , 'Doctor_(title)' , 'Doctor_(disambiguation)' ]

clusterx

يأخذ أنبوب ClusterX قطعًا اسمًا في نص وتجمعها باستخدام خوارزمية خريطة الكرة الشعاعية.

 from spacy import load as spacy_load
from spikex . pipes import ClusterX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "Grab this juicy orange and watch a dog chasing a cat." )
clusterx = ClusterX ( min_score = 0.65 )
doc = clusterx ( doc )
for cluster in doc . _ . cluster_chunks :
  print ( cluster )

> >> [ this juicy orange ]
> >> [ a cat , a dog ]

ABBRX

يجد أنبوب ABBRX اختصارات واختصارات في النص ، وربط أشكال قصيرة وطويلة معًا:

 from spacy import load as spacy_load
from spikex . pipes import AbbrX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "a little snippet with an abbreviation (abbr)" )
abbrx = AbbrX ( nlp . vocab )
doc = abbrx ( doc )
for abbr in doc . _ . abbrs :
  print ( abbr , "->" , abbr . _ . long_form )

> >> abbr - > abbreviation

Labelx

يطابق أنبوب LabelX والملصقات في النص ، وحل التراكبات ، والاختصارات والمختصرات.

 from spacy import load as spacy_load
from spikex . pipes import LabelX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "looking for a computer system engineer" )
patterns = [
  [{ "LOWER" : "computer" }, { "LOWER" : "system" }],
  [{ "LOWER" : "system" }, { "LOWER" : "engineer" }],
]
labelx = LabelX ( nlp . vocab , [( "TEST" , patterns )], validate = True , only_longest = True )
doc = labelx ( doc )
for labeling in doc . _ . labelings :
  print ( labeling , f"[ { labeling . label_ } ]" )

> >> computer system engineer [ TEST ]

phrasex

ينشئ PhraseX Pipe امتدادًا ترفيديًا لـ Doc مخصص يفي بمباريات من أنماط العبارات.

 from spacy import load as spacy_load
from spikex . pipes import PhraseX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "I have Melrose and McIntosh apples, or Williams pears" )
patterns = [
  [{ "LOWER" : "mcintosh" }],
  [{ "LOWER" : "melrose" }],
]
phrasex = PhraseX ( nlp . vocab , "apples" , patterns )
doc = phrasex ( doc )
for apple in doc . _ . apples :
  print ( apple )

> >> Melrose
> >> McIntosh

Sentx

تقسيم أنبوب Sentx جمل في نص. يقوم بتعديل سمة الرموز ' IS_SENT_START ، لذلك من الضروري إضافتها قبل أنبوب المحلل في خط أنابيب Spacy:

 from spacy import load as spacy_load
from spikex . pipes import SentX
from spikex . defaults import spacy_version

if spacy_version >= 3 :
  from spacy . language import Language

  @ Language . factory ( "sentx" )
  def create_sentx ( nlp , name ):
      return SentX ()

nlp = spacy_load ( "en_core_web_sm" )
sentx_pipe = SentX () if spacy_version < 3 else "sentx"
nlp . add_pipe ( sentx_pipe , before = "parser" )
doc = nlp ( "A little sentence. Followed by another one." )
for sent in doc . sents :
  print ( sent )

> >> A little sentence .
> >> Followed by another one .

هذا كل الناس

لا تتردد في المساهمة والمتعة!

يوسع

spikex

Spikex - أنابيب Spacy لاستخراج المعرفة

ما الجديد في Spikex 0.5.0

الأنابيب

أدوات

تثبيت Spikex

pip

الاستخدام

المسبق

wikigraph

آلي

يدوي

مطابقة

wikipagex

clusterx

ABBRX

Labelx

phrasex

Sentx

هذا كل الناس

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express