Die Stopword -Filterung ist ein häufiger Schritt bei der Vorverarbeitung von Text für verschiedene Zwecke. Dies ist eine Liste verschiedener Stopword -Listen, die aus verschiedenen Suchmaschinen, Bibliotheken und Artikeln extrahiert wurden. Es gibt eine überraschende Anzahl verschiedener Listen.
Im Moment sind es nur englische Stoppwörter.
| Datei | Größe | Quelle | Beschreibung |
|---|---|---|---|
| Keiner | 0 | ⇱ | Kein Stop -Wort -Entfernung. |
| Sphinx | 0 | ⇱ | Sphinx ist ein Open Source -Suchserver. Die oberste Google-Suche nach Sphinx-Stoppwörtern führt auch zu zwei manuell kompilierten Listen http://astellar.com/2011/12/stopwords-for--phinx-search/, die auf den Posts des Blogautors basieren. |
| EBSCOHOST | 24 | ⇱ | Die Stoppwörter, die in EBSCOHOST Medical Databases Medline und Cinahl verwendet werden |
| Corenlp (hartcodiert) | 28 | ⇱ | Festcodiert in src/edu/stanford/nlp/coref/data/wordlists.java und dasselbe in src/edu/stanford/nlp/dcoref/dictionaries.java |
| Ränge NL (Google) | 32 | ⇱ | Die folgende Liste der kurzen Stopwords basiert auf dem, was wir als Google -Stopwords vor einem Jahrzehnt angesehen haben, die auf Wörtern basieren, die ignoriert wurden, wenn Sie in Kombination mit einem anderen Wort nach ihnen suchen würden. (dh wie in der Phrase "ein Schlüsselwort"). |
| Lucene, Solr, Elastisarch | 33 | ⇱ | (Hinweis: Einige Konfigurationsdateien haben zusätzliche 's' und 't' als Stoppwörter.) Ein nicht modifizierbarer Satz, der einige gemeinsame englische Wörter enthält, die normalerweise für die Suche nicht nützlich sind. |
| Mysql (InnoDB) | 36 | ⇱ | Ein Wort, das standardmäßig als Stoppword für FullText -Indizes in InnoDB -Tabellen verwendet wird. Nicht verwendet, wenn Sie die Standard -Stoppword -Verarbeitung entweder mit der Option "InnoDB_FT_USER_Stopword_table" überschreiben, entweder mit der InnoDB_FT_SERVER_STOPWORD_TABLE. |
| Ovid (Medical Information Services) | 39 | ⇱ | Wörter mit wenig intrinsischer Bedeutung, die zu häufig auftreten, um bei der Suche nach Text nützlich zu sein, werden als "Stoppwörter" bezeichnet. Sie können nicht alleine nach den folgenden Stoppwörtern suchen, aber Sie können sie in Phrasen einbeziehen. |
| Bogen (Libbow, Regenbogen, Pfeil, Armbrust) | 48 | ⇱ | Bogen: Ein Toolkit für statistische Sprachmodellierung, Textabnahme, Klassifizierung und Clustering. Kurzliste hartcodiert. Enthält auch 524 intelligente Liste, wie Mallet. Siehe http://www.cs.cmu.edu/~mccallum/bow/rainbow/ |
| Lingrohr | 76 | ⇱ | Ein englischstoptokenizerfaktory wendet eine englische Stoppliste auf eine enthaltene Basis -Tokenizer -Fabrik an |
| Vowpal Wabbit (DOC2LDA) | 83 | ⇱ | Stoppwörter, die in LDA -Beispiel verwendet werden |
| Textanalyse 101 | 85 | ⇱ | Minimale Liste, die von Kavita Ganesan zusammengestellt wurde, die aus Determinern besteht, die Konjunktionen und Präpositionen http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-ming.html |
| LexisNexis® | 100 | ⇱ | "Das Folgende sind 'Rauschwörter' und sind nie durchsuchbar: Immer kaum in noch nicht in oder dh" andere sind "laute Keywords" und durchsuchen, indem sie sie in Zitate einschließen. " |
| Okapi (gsl.cacm) | 108 | ⇱ | CACM Spezifische Stoppliste von Okapi |
| Textfixer | 119 | ⇱ | Von textfixer.com von der Wiki -Seite über Stoppwörter verlinkt. |
| DKPRO | 127 | ⇱ | PostgreSQL (Schneeball abgeleitet) |
| Postgres | 127 | ⇱ | "Stoppwörter sind Wörter, die sehr häufig sind, in fast jedem Dokument erscheinen und keinen Diskriminierungswert haben." |
| PubMed Hilfe | 133 | ⇱ | In PubMed Help Pages aufgeführt. |
| Corenlp (Akronym) | 150 | ⇱ | Eine Reihe von Wörtern, die als Stoppwörter für den Akronym -Match betrachtet werden sollten |
| NLTK | 153 | ⇱ | Laut E -Mail van Rij. Sbergen (1979) "Information Abruf" (Butterworths, London). Es ist leicht von Postgres postgresql.txt erweitert, der vermutlich aus Schneeball entlehnt wurde. |
| Funken ML Lib | 153 | ⇱ | (Hinweis: Gleich wie NLTK) Sie wurden von postgres erhalten. Die englische Liste wurde erweitert |
| MongoDb | 174 | ⇱ | Commit sagt: "STOP -WORTS -Dateien in die Snowball -Stopplisten geändert" |
| Quanteda | 174 | ⇱ | Hat intelligente und Schneeball -Standardlisten. Quelle |
| Ränge NL (Standard) | 174 | ⇱ | (HINWEIS: Gleich wie die Standard -Snowball -Stoplist, aber ranksnl häufig als Quelle zitiert.) „Diese Liste wird in [Ranks nl] Seitenanalysator und Artikelanalysator für englische Text verwendet, wenn Sie die Standardstoppword -Liste verwenden lassen.“ |
| Schneeball (Original) | 174 | ⇱ | Standard -Schneeball -Stoppliste. |
| Xapian | 174 | ⇱ | (Hinweis: Verwendet Snowball -Stoppwörter) „Es war traditionell, IR -Systeme einzurichten, um die häufigsten Wörter einer Sprache - die Stoppwörter - während der Indexierung zu verwerfen.“ |
R tm | 174 | ⇱ | R tm -Paket verwendet die Schneeballliste und hat auch Smart. |
| 99Webtools | 183 | ⇱ | "Stoppwörter sind Wörter, die keine wichtige Bedeutung enthalten, die in Suchabfragen verwendet werden soll. Die meisten Suchmaschinen filtern diese Wörter vor der Suche nach der Suche aus der Suchabfrage. Dies verbessert die Leistung." |
| DeepLearning4J | 194 | ⇱ | DL4J -Stoppwörter befinden sich an 2 Stellen - Stoppwörtern und Stoppwords.txt. Wahrscheinlich aus Schneeball abgeleitet. Einige ungewöhnliche Vorspeisen zB: ----s . |
| Reuters Web of Science ™ | 211 | ⇱ | "Stoppwörter sind häufig, häufig verwendete Wörter wie Artikel (a, an, die), Präpositionen (von, in, für, durch) und Pronomen (IT, IHR, IHS), die nicht als individuelle Wörter im Thema und in den Titelsfeldern gesucht werden können. Wenn Sie ein Stoppword in eine Phrase eingeben, wird das Stopword als Wortlagerinterpretation interpretiert." |
| Funktionswörter (Cook 1988) | 221 | ⇱ | „Diese Liste von 225 Elementen wurde vor einiger Zeit für praktische Zwecke als Daten für einen Computer -Parser für Schüler Englisch zusammengestellt. Papier. |
| Okapi (GSL.Sample) | 222 | ⇱ | Dieser Okapi ist der BM25 Okapi. (HINWEIS: Inbegriffen Stopword -Textdatei stammt aus allen "f" -"H" -Erditionen, wie von DEFS.H.H definiert.) Die GSL -Datei enthält Begriffe, die auf besondere Weise durch den Indexierungsprozess behandelt werden sollen. Jeder Typ wird durch einen Klassencode definiert. |
| Schneeball (erweitert) | 227 | ⇱ | Hinweis: Dies schließt die zusätzlichen Wörter ein, die in Kommentaren "Eine englische Stopp -Wortliste erwähnt haben. Viele der folgenden Formulare sind ziemlich selten (zB" selbst "), aber zur Vollständigkeit enthalten." |
| DataSciencedojo | 250 | ⇱ | Verwendet in einer Echtzeit-Stimmung Azureml Demo für ein Meetup |
| Corenlp (stopwords.txt) | 257 | ⇱ | Hinweis: "a", "An", "The", "und", "oder", "," ",", "Nor" in Stoplist.java enthält auch Interpunktion (!!, -lrb- ...) |
| Okapiframework | 262 | ⇱ | Dies ist nicht Okapi von BM25! (Zumindest glaube ich nicht) Diese Liste, die in Okapi Framework verwendet wird. Diese Okapi ist die Lokalisierung und Übersetzung Okapi. |
| Azure Gallery | 310 | ⇱ | Leicht modifizierte Glasgowliste. |
| INIRE (NCBI Medline) | 313 | ⇱ | NCBI WRD_STOP STOP WORD LISTE VON 313 AUSGABEN VON MEDLINE. Seine Verwendung ist uneingeschränkt. Die Liste kann hier heruntergeladen werden |
| Gehen | 317 | ⇱ | Gehen Sie die Bibliothek der Stopwords. Dies ist die Glasgow -Liste ohne "Computer" i '' dick ' - hat' dickv ' |
| Scikit-Learn | 318 | ⇱ | Verwendet Glasgow List, jedoch ohne das Wort "Computer" |
| Glasgow IR | 319 | ⇱ | Sprachressourcen aus Glasgow Information Abrufgruppe. Viele Kopien und Änderungen davon. EG: XPO6 hat Fehler - zitiert anstelle von 'lf' EG: HERSE "anstelle von sich selbst - als eines der Top -Ergebnisse bei der Google -Suche. |
| XPO6 | 319 | ⇱ | Wird in Humboldt Diglital Library und Network verwendet und in Blogpost dokumentiert. Wahrscheinlich abgeleitet von Glasgow List. |
| Spacy | 326 | ⇱ | Verbesserte Liste von Stone, Denis, Kwantes (2010) Papier |
| Gensim | 337 | ⇱ | Gleich wie Spacy (verbesserte Liste von Stone, Denis, Kwantes (2010)) |
| Okapi (erweiterte GSL.CACM) | 339 | ⇱ | Erweiterte CACM -Liste von Okapi |
| C99 und Texttiling | 371 | ⇱ | UIMA -Wrapper für die Java -Implementierungen der Segmentierungsalgorithmen C99 und Texttiling, geschrieben von Freddy Choi |
| Galago (Inquery) | 418 | ⇱ | Die Liste der Core/SRC/Main/Ressourcen/Stopwords/Inquery entspricht dem Indri -Standard. |
| Indri | 418 | ⇱ | Teil des Lemur -Projekts |
| Onix & Lextek | 429 | ⇱ | Diese Stoppword -Liste ist wahrscheinlich die am häufigsten verwendete Stoppword -Liste. Es deckt eine Vielzahl von Stoppwörtern ab, ohne zu aggressiv zu werden und zu viele Wörter einzubeziehen, nach denen ein Benutzer durchsucht. Diese WordList enthält 429 Wörter. |
| Gate (Tastaturextraktion) | 452 | ⇱ | Stoppwörter, die im Gate -Tastaturextraktionsalgorithmus verwendet werden |
| Zettair | 469 | ⇱ | Zettair ist eine kompakte und schnelle Suchmaschine, die von der Suchmaschinengruppe der RMIT University entworfen und verfasst wurde. Es war einst als Lucy bekannt. |
| Okapi (erweitertes GSL.Sample) | 474 | ⇱ | Gleich wie okapi_sample.txt, aber mit "i" Begriffen (nicht Standard -Okapi -Verhalten! Aber kann nützlich sein) |
| Taporware | 485 | ⇱ | Taporware -Projekt, McMaster University - Modifizierte Glasgow -Liste - enthält die Nummern 0 bis 100 und 1990 bis 2020 (für Daten vermutlich) auch Zeichensetzung |
| Voyant (Taporware) | 488 | ⇱ | Voyant verwendet standardmäßig die Taporware -Liste, enthält zusätzliche du, du, dein - vermutlich für Shakespeare Corpus. Das Trombone Repo hat auch Glasgow und Smart in Ressourcen. |
| HAMMER | 524 | ⇱ | Standard Mallet Stopword -Liste. (Basierend auf Smart, denke ich) siehe Docs |
| Weka | 526 | ⇱ | Wie Bogen (Rainbow, was intelligent ist), aber mit zusätzlichen Ll -ve hinzugefügt, um Wörter wie Sie zu vermeiden, ich habe usw. Fast genauso wie Mallet.txt |
| MySQL (MyISAM) | 543 | ⇱ | Myisam und InnoDB verwenden verschiedene Stopplisten. Von intelligent, aber modifiziert genommen |
| Galago (rmstop) | 565 | ⇱ | Enthält einige Interpunktion, UTF8 -Zeichen, www, http, org, net, youtube, wikipedia |
| Kevin Bougé | 571 | ⇱ | Multilang -Listen, die von Kevin Bougé zusammengestellt wurden. Englisch ist klug. |
| SCHLAU | 571 | ⇱ | Smart (System für die mechanische Analyse und Abruf des Textes) Informationsabrufsystem ist ein Informationsabrufsystem, das in den 1960er Jahren an der Cornell University entwickelt wurde. |
| ROUGE | 598 | ⇱ | Erweiterte Smart -Liste, die in Rouge 1.5.5 Zusammenfassung Bewertungs -Toolkit verwendet wird - Enthält zusätzliche Wörter: Reuters, AP, News, Tech, Index, 3 Brieftage der Woche und Monate. |
| Tonybsk_1.txt | 635 | ⇱ | Unbekannter Ursprung - Ich habe die Referenz verloren. |
| Sphinx -Suche ultimativ | 665 | ⇱ | Eine Erweiterung für Sphinx hat diese Liste. |
| Ränge nl (groß) | 667 | ⇱ | Eine sehr lange Liste von ranks.nl |
| Tonybsk_6.txt | 671 | ⇱ | Unbekannter Ursprung - Ich habe die Referenz verloren. |
| Terrier | 733 | ⇱ | Terrier Retrieval Engine „Stopword -Liste zum Laden kann aus der STOPWords.FileName -Eigenschaft geladen werden.“ |
| IRIRE (Puurula) | 988 | ⇱ | Enthalten in IRIRE siehe Papier |
| Alir3z4 | 1298 | ⇱ | Liste der gemeinsamen Stoppwörter in verschiedenen Sprachen. Die englische Liste sieht aus mehreren Quellen zusammen. |
Anmerkungen:
n , enden mit einer leeren Linie. UTF8 codiert.https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~Haim/teaching/iws/tirsaa/sources/text_utilities.html
http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-ming.html
https://github.com/lintool/ir-represcicibilibility/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/Fall15/software.html
Galago hat auch eine "Stop -Phrase" -Liste: https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstructure
Smart FTP Mirror: http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
Mehrere Sprachstoppwörter (en oben bereits in der Tabelle): https://sites.google.com/site/kevinbouge/stopwords-lists
Mehr für mehrere Sprachen (en oben bereits in der Tabelle): https://code.google.com/archive/p/stop-words/
Stoppwörter für 50 Sprachen in JSON (en ist intelligent): https://github.com/6/stopwords-json
Haben Sie eine Lieblings -Stopword -Liste, die anders ist als hier? Senden Sie eine Pull -Anfrage mit Ihrer Liste als Textdatei, 1 Wort pro Zeile in EN/ Ordner und eine neue Zeile in en_Stopwords.csv