يعد تصفية كلمة التوقف خطوة شائعة في نص المعالجة المسبقة لأغراض مختلفة. هذه قائمة بالعديد من قوائم Stopword المختلفة المستخرجة من مختلف محركات البحث والمكتبات والمقالات. هناك عدد مفاجئ من القوائم المختلفة.
في الوقت الحالي ، مجرد كلمات توقف باللغة الإنجليزية.
| ملف | مقاس | مصدر | وصف |
|---|---|---|---|
| لا أحد | 0 | ⇱ | لا إيقاف إزالة كلمة. |
| أبو الهول | 0 | ⇱ | Sphinx هو خادم بحث مفتوح المصدر. يؤدي البحث عن Google Top عن SPHINX Stopwords أيضًا إلى قائمتين تم تجميعهما يدويًا http://astellar.com/2011/12/stopwords-for-sphinx-search/ التي تعتمد على منشورات مؤلف المدونة. |
| ebscohost | 24 | ⇱ | كلمات التوقف المستخدمة في قواعد البيانات الطبية EBSCOHOST MEDLINE و CINAHL |
| Corenlp (متشددين) | 28 | ⇱ | متشدد في SRC/EDU/Stanford/NLP/COREF/DATA/Wordlists.java وذوي الشيء نفسه في SRC/EDU/Stanford/NLP/DCOREF/DICTIONARIALES.JAVA |
| تصنيف NL (Google) | 32 | ⇱ | تعتمد قائمة Stopwords القصيرة أدناه على ما اعتقدنا أنه Google Stopwords قبل عقد من الزمن ، بناءً على الكلمات التي تم تجاهلها إذا كنت تبحث عنها في تركيبة مع كلمة أخرى. (أي كما في عبارة "كلمة رئيسية"). |
| لوكين ، سولر ، elastisearch | 33 | ⇱ | (ملاحظة: تحتوي بعض ملفات التكوين على "S" و "T" ككلمات توقف.) مجموعة غير قابلة للتحرير تحتوي على بعض الكلمات الإنجليزية الشائعة التي لا تكون مفيدة عادةً للبحث. |
| MySQL (innodb) | 36 | ⇱ | كلمة يتم استخدامها افتراضيًا ككلمة توقف لفهارس النص الكامل على جداول InnoDB. لا يتم استخدامه إذا قمت بتجاوز معالجة الكلمات الافتراضية مع إما innodb_ft_server_stopword_table أو innodb_ft_user_stopword_table. |
| Ovid (خدمات المعلومات الطبية) | 39 | ⇱ | تُعرف كلمات المعنى الجوهري قليلاً التي تحدث بشكل متكرر بحيث تكون مفيدة في البحث باسم "كلمات التوقف". لا يمكنك البحث عن كلمات التوقف التالية بأنفسهم ، ولكن يمكنك تضمينها ضمن عبارات. |
| القوس (ليبو ، قوس قزح ، سهم ، قوس متقاطع) | 48 | ⇱ | القوس: مجموعة أدوات لنمذجة اللغة الإحصائية واسترجاع النص والتصنيف والتجميع. قائمة قصيرة متشددين. يتضمن أيضًا 524 قائمة مشتقة من الذكاء ، مثل مطرقة. انظر http://www.cs.cmu.edu/~mccallum/bow/rainbow/ |
| lingpipe | 76 | ⇱ | تطبيق EnglishStopTokenizerFactory قائمة توقف باللغة الإنجليزية على مصنع Tokenizer أساسي محتوى |
| vowpal wabbit (doc2lda) | 83 | ⇱ | stopwords المستخدمة في مثال LDA |
| تحليل النص 101 | 85 | ⇱ | الحد الأدنى من القائمة التي جمعتها Kavita Ganesan التي تتكون من محددات ، وتنسيق التزامن وحرف الجر http://text-analytics101.rxnlp.com/2014/10/all-about-words-for-text-mining.html |
| lexisnexis® | 100 | ⇱ | "فيما يلي" كلمات ضوضاء "ولا يمكن البحث فيها أبدًا: بالكاد بالكاد إلى أو لم يكن الأمر كذلك ، فإن الآخرين" كلمات رئيسية صاخبة "ويمكن البحث عن طريق إرفاقها في اقتباسات." |
| OKAPI (GSL.CACM) | 108 | ⇱ | قائمة توقف محددة CACM من Okapi |
| TextFixer | 119 | ⇱ | من TextFixer.com المرتبطة من صفحة Wiki على كلمات إيقاف. |
| DKPRO | 127 | ⇱ | PostgreSQL (كرة الثلج المشتقة) |
| postgres | 127 | ⇱ | "كلمات توقف هي كلمات شائعة جدًا ، وتظهر في كل وثيقة تقريبًا ، وليس لها قيمة تمييز." |
| مساعدة PubMed | 133 | ⇱ | المدرجة في PubMed Help Pages. |
| Corenlp (اختصار) | 150 | ⇱ | مجموعة من الكلمات التي ينبغي اعتبارها كلمات توقف لمطابقة الاختصار |
| NLTK | 153 | ⇱ | وفقا للبريد الإلكتروني فان ريج. Sbergen (1979) "استرجاع المعلومات" (Butterworths ، لندن). تم توسيعها قليلاً من Postgres postgresql.txt والتي تم استعارتها من كرة الثلج. |
| Spark Ml lib | 153 | ⇱ | (ملاحظة: مثل NLTK) تم الحصول عليها من Postgres تم زيادة القائمة الإنجليزية |
| mongodb | 174 | ⇱ | يقول الالتزام "تم تغيير ملفات توقف الكلمات إلى قوائم توقف كرة الثلج" |
| Quanteda | 174 | ⇱ | لديه قوائم الافتراضية الذكية والثلوج. مصدر |
| تصنيف NL (افتراضي) | 174 | ⇱ | (ملاحظة: مثل قائمة توقف Snowball الافتراضية ، ولكن Ramsnl يتم الاستشهاد بها بشكل متكرر كمصدر) "يتم استخدام هذه القائمة في [تصنيف NL] محلل ومحلل المقالات للنص الإنجليزي ، عندما تسمح لها باستخدام قائمة Stopwords الافتراضية." |
| Snowball (الأصلي) | 174 | ⇱ | قائمة توقف كرة الثلج الافتراضية. |
| Xapian | 174 | ⇱ | (ملاحظة: يستخدم Snowball Stopwords) "لقد كان تقليديًا في إعداد أنظمة الأشعة تحت الحمراء لتجاهل الكلمات الأكثر شيوعًا للغة - كلمات التوقف - أثناء الفهرسة". |
tm | 174 | ⇱ | تستخدم حزمة R tm قائمة Snowball ولديها أيضًا ذكي. |
| 99BTOOLS | 183 | ⇱ | "كلمات توقف هي الكلمات التي لا تحتوي على أهمية مهمة يمكن استخدامها في استعلامات البحث. معظم محرك البحث تقوم بتصفية هذه الكلمات من استعلام البحث قبل إجراء البحث ، وهذا يحسن الأداء." |
| deeplearning4j | 194 | ⇱ | توجد كلمات Stopwords DL4J في مكانين - كلمات Stopwords و StopWords.txt. ربما مشتقة من كرة الثلج. بعض الدخول غير العادية على سبيل المثال: ----s . |
| رويترز ويب للعلوم ™ | 211 | ⇱ | "كلمات التوقف شائعة ، وكثيرا ما تستخدم كلمات مثل المقالات (A ، و ، و) ، وحرارة الجر (في ، من أجل ، من خلال) ، وضمائر (، لها ، له) التي لا يمكن البحث عنها ككلمات فردية في موضوعات الموضوع وحقول العنوان. |
| كلمات الوظيفة (كوك 1988) | 221 | ⇱ | "تم تجميع هذه القائمة المكونة من 225 عنصرًا لأغراض عملية منذ بعض الوقت كبيانات لمحلل الكمبيوتر للطالب الإنجليزية. الورق. |
| OKAPI (GSL.Sample) | 222 | ⇱ | هذا OKAPI هو BM25 OKAPI. (ملاحظة: يتم تضمين ملف stopword النصي من جميع مصطلحات "F" "H" ، على النحو المحدد بواسطة DEFS.H) يحتوي ملف GSL على مصطلحات يجب التعامل معها بطريقة خاصة بواسطة عملية الفهرسة. يتم تعريف كل نوع بواسطة رمز الفصل. |
| كرة الثلج (موسعة) | 227 | ⇱ | ملاحظة: يتضمن ذلك الكلمات الإضافية المذكورة في التعليقات "قائمة كلمات توقف باللغة الإنجليزية. العديد من النماذج أدناه نادرة جدًا (على سبيل المثال" أنفسكم ") ولكن تم تضمينها من أجل الاكتمال." |
| DatascienceDojo | 250 | ⇱ | تستخدم في مشاعر في الوقت الفعلي Azureml Demo للقاء |
| corenlp (stopwords.txt) | 257 | ⇱ | ملاحظة: "A" ، "A" ، "و" ، "،" ، "،" ولكن "،" ، ولا "متشددين في stoplist.java يشمل علامات الترقيم (!! ، -lrb- ...) |
| Okapiframework | 262 | ⇱ | هذا ليس okapi من BM25! (على الأقل لا أعتقد ذلك) هذه القائمة المستخدمة في إطار OKAPI هذا OKAPI هي التوطين والترجمة OKAPI. |
| معرض أزور | 310 | ⇱ | قائمة غلاسكو المعدلة قليلاً. |
| Atire (NCBI Medline) | 313 | ⇱ | NCBI WRD_STOP Stop Word List of 313 مصطلح تم استخلاصه من Medline. استخدامه غير مقيد. يمكن تنزيل القائمة من هنا |
| يذهب | 317 | ⇱ | اذهب إلى مكتبة Opportwords. هذه هي قائمة غلاسكو دون "كمبيوتر" "أنا" سميكة - تحتوي على "SHINEV" |
| Scikit-Learn | 318 | ⇱ | يستخدم قائمة غلاسكو ، ولكن بدون كلمة "الكمبيوتر" |
| غلاسكو الأشعة تحت الحمراء | 319 | ⇱ | الموارد اللغوية من مجموعة استرداد معلومات غلاسكو. الكثير من النسخ وتحرير هذا واحد. على سبيل المثال: XPO6 لديها أخطاء - قد اقتبس بدلاً من "LF" على سبيل المثال: Herse "بدلاً من نفسها - تأتي كواحدة من أفضل النتائج في بحث Google. |
| XPO6 | 319 | ⇱ | تستخدم في مكتبة وشبكة Humboldt Diglital وتوثيقها في Blogpost. من المحتمل أن تكون مستمدة من قائمة غلاسكو. |
| سبيس | 326 | ⇱ | قائمة محسنة من Stone ، Denis ، Kwantes (2010) ورقة |
| جينسيم | 337 | ⇱ | مثل Spacy (قائمة محسنة من Stone ، Denis ، Kwantes (2010)) |
| OKAPI (موسع GSL.CACM) | 339 | ⇱ | قائمة CACM الموسعة من Okapi |
| C99 و TextTiping | 371 | ⇱ | غلاف UIMA لتطبيقات Java لخوارزميات التجزئة C99 و TextTiping ، كتبها فريدي تشوي |
| جالاجو (استقصاء) | 418 | ⇱ | Core/SRC/Main/Resources/STOPWORDS/قائمة الاستجواب هي نفسها indri الافتراضية. |
| indri | 418 | ⇱ | جزء من مشروع Lemur |
| Onix & Lextek | 429 | ⇱ | من المحتمل أن تكون قائمة كلمات الإيقاف هذه هي قائمة الكلمات الأكثر استخدامًا على نطاق واسع. ويغطي عدد واسع من كلمات التوقف دون أن تصبح عدوانية للغاية وتشمل الكثير من الكلمات التي قد يبحث عنها المستخدم. تحتوي قائمة الكلمات هذه على 429 كلمة. |
| بوابة (استخراج عبارة keyphrase) | 452 | ⇱ | كلمات التوقف المستخدمة في خوارزمية استخراج الشريط الرئيسي للبوابة |
| Zettair | 469 | ⇱ | Zettair هو محرك بحث مضغوط وسريع للنص مصمم وكتابته من قبل مجموعة محرك البحث في جامعة RMIT. كان معروفا ذات مرة باسم لوسي. |
| OKAPI (موسع GSL.Sample) | 474 | ⇱ | مثل OKAPI_SAMPLE.TXT ولكن مع مصطلحات "I" (وليس السلوك الافتراضي OKAPI! ولكن قد يكون مفيدًا) |
| Taporware | 485 | ⇱ | مشروع Taporware ، جامعة McMaster - قائمة Glasgow المعدلة - يتضمن أرقامًا من 0 إلى 100 و 1990 إلى 2020 (لتواريخ من المفترض) أيضًا علامات الترقيم |
| Voyant (Taporware) | 488 | ⇱ | يستخدم Voyant قائمة Taporware افتراضيًا ، ويتضمن Extra You ، You ، الخاص بك - على الأرجح لـ Shakespeare Corpus. Trombone repo لديه أيضا غلاسكو وذكي في الموارد. |
| مطرقة | 524 | ⇱ | قائمة الكلمات الافتراضية للماس مطر. (استنادًا إلى ذكي على ما أعتقد) انظر المستندات |
| ويكا | 526 | ⇱ | مثل Bow (قوس قزح ، وهو ذكي) ولكن مع إضافة إضافية لتجنب الكلمات مثلك ، |
| MySQL (Myisam) | 543 | ⇱ | تستخدم Myisam و InnoDB قوائم توقف مختلفة. مأخوذة من ذكي ولكن معدلة |
| جالاجو (rmstop) | 565 | ⇱ | يتضمن بعض علامات الترقيم ، وأحرف UTF8 ، www ، http ، org ، net ، youtube ، wikipedia |
| كيفن بوج | 571 | ⇱ | قوائم Multilang التي جمعتها Kevin Bougé. اللغة الإنجليزية ذكية. |
| ذكي | 571 | ⇱ | Smart (نظام للتحليل الميكانيكي واسترجاع النص) هو نظام استرجاع المعلومات هو نظام استرجاع المعلومات تم تطويره في جامعة كورنيل في الستينيات. |
| روج | 598 | ⇱ | القائمة الذكية الممتدة المستخدمة في مجموعة أدوات التقييم الملخص Rouge 1.5.5 - تتضمن كلمات إضافية: رويترز ، AP ، الأخبار ، التكنولوجيا ، الفهرس ، 3 أيام من الأسبوع والشهور. |
| tonybsk_1.txt | 635 | ⇱ | أصل غير معروف - فقدت المرجع. |
| sphinx البحث في نهاية المطاف | 665 | ⇱ | امتداد لـ SPHINX لديه هذه القائمة. |
| تصنيف NL (كبير) | 667 | ⇱ | قائمة طويلة جدا من صفوف |
| tonybsk_6.txt | 671 | ⇱ | أصل غير معروف - فقدت المرجع. |
| جحر | 733 | ⇱ | محرك استرجاع Terrier "يمكن تحميل قائمة كلمات التوقف للتحميل من خاصية الإيقاف. Filename." |
| Atire (Puurula) | 988 | ⇱ | المدرجة في Atire انظر الورق |
| alir3z4 | 1298 | ⇱ | قائمة كلمات توقف شائعة بلغات مختلفة. القائمة الإنجليزية تبدو وكأنها مدمجة من عدة مصادر. |
ملحوظات:
n ، تنتهي بخط فارغ. UTF8 مشفرة.https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/teaching/iws/tirsaa/sources/text_utability.html
http://text-analytics101.rxnlp.com/2014/10/all-about-top-words-for-text-mining.html
https://github.com/lintool/ir-reproducibility/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
لدى Galago أيضًا قائمة "توقف": https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstructure
ذكية FTP Mirror: http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
كلمات توقف متعددة لغة (EN بالفعل واحدة مما سبق في الجدول): https://sites.google.com/site/kevinbouge/stopwords-lists
المزيد لللغات المتعددة (EN بالفعل واحدة مما سبق في الجدول): https://code.google.com/archive/p/stop-words/
كلمات توقف لـ 50 لغة في JSON (EN ذكي): https://github.com/6/stopwords-json
هل حصلت على قائمة مفضلة لوقف الكلمات التي تختلف عن ما هو هنا؟ أرسل طلب سحب مع قائمتك كملف نصي ، وكلمة واحدة لكل سطر في مجلد EN/ مجلد وصف جديد في en_stopwords.csv