Le filtrage des mots arrêtés est une étape courante dans le prétraitement du texte à diverses fins. Il s'agit d'une liste de plusieurs listes de mots d'arrêt différentes extraites de divers moteurs de recherche, bibliothèques et articles. Il y a un nombre surprenant de listes différentes.
Pour le moment, ce ne sont que des mots d'arrêt anglais.
| déposer | taille | source | description |
|---|---|---|---|
| Aucun | 0 | ⇱ | Pas de retrait des mots d'arrêt. |
| Sphinx | 0 | ⇱ | Sphinx est un serveur de recherche open source. Top Google Recherche de mots d'arrêt Sphinx conduit également à deux listes compilées manuellement http://astellar.com/2011/12/stopwords-for-sphinx-search/ qui sont basées sur les publications de l'auteur du blog. |
| EBSCOST | 24 | ⇱ | Les mots d'arrêt utilisés dans les bases de données médicales Ebscohost Medline et Cinahl |
| Corenlp (codé en dur) | 28 | ⇱ | Codé en dur dans src / edu / stanford / nlp / coref / data / wordlists.java et le même dans src / edu / stanford / nlp / dcoref / dictionnaires.java |
| Classe NL (Google) | 32 | ⇱ | La liste des mots d'arrêt courts ci-dessous est basé sur ce que nous considérons comme des mots d'arrêt Google il y a une décennie, sur la base de mots qui ont été ignorés si vous les recherchiez en combinaison avec un autre mot. (c'est-à-dire que dans l'expression "un mot-clé"). |
| Lucene, Solr, Elastisearch | 33 | ⇱ | (Remarque: certains fichiers de configuration ont des «t» et des mots d'arrêt supplémentaires.) Un ensemble non modifiable contenant des mots anglais communs qui ne sont généralement pas utiles pour la recherche. |
| Mysql (innodb) | 36 | ⇱ | Un mot qui est utilisé par défaut comme mot d'arrêt pour les index FullText sur les tables InNODB. Non utilisé si vous remplacez le traitement par mot de départ par défaut avec l'innodb_ft_server_stopword_table ou l'option innodb_ft_user_stopword_table. |
| Ovide (services d'information médicale) | 39 | ⇱ | Les mots de petite signification intrinsèque qui se produisent trop fréquemment pour être utiles dans la recherche de texte sont appelés «mots d'arrêt». Vous ne pouvez pas rechercher les mots d'arrêt suivants par eux-mêmes, mais vous pouvez les inclure dans des phrases. |
| Arc (libbow, arc-en-ciel, flèche, arbalète) | 48 | ⇱ | Arc: une boîte à outils pour la modélisation statistique du langage, la récupération de texte, la classification et le clustering. Liste courte codé en dur. Comprend également 524 LISTE SMART DÉRIVÉE, Identique à Mallet. Voir http://www.cs.cmu.edu/~mccallum/bow/rainbow/ |
| Gigogne | 76 | ⇱ | Un anglaisstoptokizerfactory applique une liste d'arrêt en anglais à une usine de tokenizer de base contenue |
| Vowpal wabbit (doc2lda) | 83 | ⇱ | Mords de pointe utilisés dans l'exemple LDA |
| Analytique de texte 101 | 85 | ⇱ | Liste minimale compilée par Kavita Ganesan composée de déterminants, de coordination conjonctions et prépositions http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-miling.html |
| LexisNexis® | 100 | ⇱ | «Les mots suivants sont des« mots de bruit »et ne sont jamais consultables: jamais à peine donc dans ni à savoir et les autres sont des« mots clés bruyants »et sont consultables en les entrant dans des citations.» |
| Okapi (gsl.cacm) | 108 | ⇱ | Liste d'arrêt spécifique du CACM d'Okapi |
| Fiche de texte | 119 | ⇱ | De textfixer.com lié à partir de la page wiki sur les mots d'arrêt. |
| Dkpro | 127 | ⇱ | Postgresql (dérive de boule de neige) |
| Postgres | 127 | ⇱ | "Les mots d'arrêt sont des mots très courants, apparaissent dans presque tous les documents et n'ont aucune valeur de discrimination." |
| Aide PubMed | 133 | ⇱ | Listé dans PubMed Help Pages. |
| Corenlp (acronyme) | 150 | ⇱ | Un ensemble de mots qui devraient être considérés comme des mots d'arrêt pour l'acronyme Matcher |
| NLTK | 153 | ⇱ | Selon un e-mail Van Rij. Sbergen (1979) "Information Retrieval" (Butterworths, Londres). Il est légèrement élargi de Postgres Postgresql.txt qui a été emprunté à Snowball vraisemblablement. |
| Spark ML Lib | 153 | ⇱ | (Remarque: Identique à NLTK) Ils ont été obtenus à partir de Postgres, la liste anglaise a été augmentée |
| Mongodb | 174 | ⇱ | Commit dit «les fichiers de mots d'arrêt changés vers les listes d'arrêt de boule de neige» |
| Quickeda | 174 | ⇱ | A des listes par défaut intelligentes et de boule de neige. Source |
| Classe NL (par défaut) | 174 | ⇱ | (Remarque: Identique à la liste d'arrêt de boule de neige par défaut, mais Ranksnl fréquemment cité comme source) «Cette liste est utilisée dans [Ranks NL] Page Analyzer and Article Analyzer for English Text, lorsque vous le laissez utiliser la liste des mots d'arrêt par défaut.» |
| Boule de neige (original) | 174 | ⇱ | Liste d'arrêt de boule de neige par défaut. |
| Xapien | 174 | ⇱ | (Remarque: utilise des mots arrêtés de boule de neige) «Il a été traditionnel dans la mise en place de systèmes IR pour éliminer les mots les plus courants d'une langue - les mots d'arrêt - pendant l'indexation.» |
R tm | 174 | ⇱ | Le package R tm utilise la liste des boules de neige et a également Smart. |
| 99webtools | 183 | ⇱ | «Les mots d'arrêt sont des mots qui ne contiennent pas de signification importante à utiliser dans les requêtes de recherche. La plupart des moteurs de recherche filtrent ces mots à partir de la requête de recherche avant d'effectuer la recherche, ce qui améliore les performances.» |
| Deeplearning4j | 194 | ⇱ | Les mots d'arrêt DL4J sont à 2 endroits - mots d'arrêt et mots d'arrêt.txt. Probablement dérivé de Snowball. Quelques entires inhabituels par exemple: ----s |
| Reuters Web of Science ™ | 211 | ⇱ | «Les mots d'arrêt sont des mots courants, fréquemment utilisés tels que les articles (a, an, les), les prépositions (de, dans, pour, à travers) et les pronoms (it, leur, le sien) qui ne peuvent pas être recherchés comme des mots individuels dans les champs de sujet et de titre. Si vous incluez un mot d'arrêt dans une phrase, le mot d'arrêt est interprété comme un mot de la place.» |
| Mots de fonction (Cook 1988) | 221 | ⇱ | «Cette liste de 225 éléments a été compilée à des fins pratiques il y a quelque temps comme données pour un analyseur d'ordinateur pour l'élève anglais. Paper |
| Okapi (gsl.sample) | 222 | ⇱ | Cet okapi est le BM25 OKAPI. (Remarque: le fichier texte des mots arrêtés inclus provient de tous les termes «F» «H», tels que définis par DeFs.h) Le fichier GSL contient des termes qui doivent être traités de manière particulière par le processus d'indexation. Chaque type est défini par un code de classe. |
| Boule de neige (agrandie) | 227 | ⇱ | Remarque: Cela inclut les mots supplémentaires mentionnés dans les commentaires «Une liste de mots d'arrêt en anglais. Beaucoup de formulaires ci-dessous sont assez rares (par exemple,« vous-même ») mais inclus pour l'exhaustivité.» |
| Datasciiedojo | 250 | ⇱ | Utilisé dans une démo Azureml Sentiment en temps réel pour une rencontre |
| Corenlp (wordwords.txt) | 257 | ⇱ | Remarque: "a", "an", "the", "et", "ou", "mais", "ni" codé en dur dans stopList.java inclut également la ponctuation (!!, -lrb-…) |
| Okapiframework | 262 | ⇱ | Ce n'est pas Okapi de BM25! (Au moins je ne pense pas) Cette liste utilisée dans Okapi Framework Cet OKAPI est la localisation et la traduction Okapi. |
| Galerie azure | 310 | ⇱ | Liste de Glasgow légèrement modifiée. |
| Arire (NCBI Medline) | 313 | ⇱ | NCBI WRD_STOP STOP Word Liste des 313 termes extraits de Medline. Son utilisation n'est pas restreinte. La liste peut être téléchargée à partir d'ici |
| Aller | 317 | ⇱ | Bibliothèque de mots arrêtés. Ceci est la liste de Glasgow sans 'ordinateur' 'i' 'épais "- a« épaisvant » |
| scikit-apprend | 318 | ⇱ | Utilise la liste de Glasgow, mais sans le mot «ordinateur» |
| Glasgow ir | 319 | ⇱ | Ressources linguistiques de Glasgow Information Retrieval Group. Beaucoup de copies et modifications de celui-ci. EG: XPO6 a des erreurs - a une citation au lieu de «lf» par exemple: Herse »au lieu d'elle - est l'un des principaux résultats de la recherche Google. |
| xpo6 | 319 | ⇱ | Utilisé dans la bibliothèque et réseau diglitaux de Humboldt et documentés dans Blogpost. Probablement dérivé de la liste de Glasgow. |
| spality | 326 | ⇱ | Liste améliorée de Stone, Denis, Kwantes (2010) Papier |
| Gensim | 337 | ⇱ | Identique à Spacy (liste améliorée de Stone, Denis, Kwantes (2010)) |
| Okapi (GSL.CACM étendu) | 339 | ⇱ | Liste CACM étendue à partir d'Okapi |
| C99 et TextStiling | 371 | ⇱ | Emballage UIMA pour les implémentations Java des algorithmes de segmentation C99 et TextTiling, écrit par Freddy Choi |
| Galago (enquête) | 418 | ⇱ | La liste Core / Src / Main / Resources / Stopwords / Inquery est la même que l'Indri par défaut. |
| Indri | 418 | ⇱ | Une partie du projet Lémur |
| Onix et Lextek | 429 | ⇱ | Cette liste de mots d'arrêt est probablement la liste des mots d'arrêt la plus utilisée. Il couvre un grand nombre de mots d'arrêt sans devenir trop agressifs et incluant trop de mots sur lesquels un utilisateur pourrait rechercher. Cette liste de mots contient 429 mots. |
| Porte (extraction du phrase de clé) | 452 | ⇱ | Mottes d'arrêt utilisés dans l'algorithme d'extraction du phrase de clé Gate |
| Zettair | 469 | ⇱ | Zettair est un moteur de recherche de texte compact et rapide conçu et écrit par le groupe de moteurs de recherche de l'Université RMIT. Il était autrefois connu sous le nom de Lucy. |
| OKAPI (étendue GSL.Sample) | 474 | ⇱ | Identique à okapi_sample.txt mais avec les termes «i» (pas le comportement d'Okapi par défaut! Mais peut être utile) |
| Tapor | 485 | ⇱ | Taporware Project, McMaster University - Liste de Glasgow modifiée - comprend des numéros 0 à 100 et 1990 à 2020 (pour les dates vraisemblablement) également ponctuation |
| Voyant (taporware) | 488 | ⇱ | Voyant utilise la liste des taporware par défaut, inclut un extra, toi, ton - vraisemblablement pour le corpus Shakespeare. Trombone Repo a également Glasgow et Smart in Resources. |
| MAILLET | 524 | ⇱ | Liste des mots arrêtés de maillet par défaut. (Basé sur Smart je pense) Voir les documents |
| Weka | 526 | ⇱ | Comme Bow (arc-en-ciel, qui est intelligent) mais avec plus que nous avons ajouté pour éviter les mots comme vous, j'ai etc. |
| Mysql (myisam) | 543 | ⇱ | Myisam et InnoDB utilisent différents listes d'arrêt. Tiré de intelligent mais modifié |
| Galago (RMSTOP) | 565 | ⇱ | Comprend une ponctuation, des caractères UTF8, www, http, org, net, youtube, wikipedia |
| Bougé de Kevin | 571 | ⇱ | Mullang listes compilées par Kevin Bougé. L'anglais est intelligent. |
| INTELLIGENT | 571 | ⇱ | Smart (Système pour l'analyse mécanique et la récupération du texte) Le système de récupération d'informations est un système de récupération d'informations développé à l'Université Cornell dans les années 1960. |
| ROUGE | 598 | ⇱ | Liste intelligente étendue utilisée dans Rouge 1.5.5 Résumé Évaluation Toolkit - Comprend des mots supplémentaires: Reuters, AP, News, Tech, Index, 3 lettres de la semaine et des mois. |
| Tonybsk_1.txt | 635 | ⇱ | Origine inconnue - J'ai perdu la référence. |
| SPHINX Search Ultimate | 665 | ⇱ | Une extension pour Sphinx a cette liste. |
| Classe NL (grand) | 667 | ⇱ | Une liste très longue de Ranks.nl |
| Tonybsk_6.txt | 671 | ⇱ | Origine inconnue - J'ai perdu la référence. |
| Terrier | 733 | ⇱ | Terrier Retrieval Engine «La liste des mots d'arrêt à charger peut être chargée à partir de la propriété Stopwords.FileName». |
| Arire (puurula) | 988 | ⇱ | Inclus dans Arire Voir papier |
| ALIR3Z4 | 1298 | ⇱ | Liste des mots d'arrêt communs dans diverses langues. La liste anglaise ressemble à plusieurs sources. |
Notes:
n , terminez par une ligne vide. UTF8 encodé.https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/teaching/iws/tirsaa/sources/text_utibles.html
http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-minging.html
https://github.com/lintool/ir-reproductibilibilité/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
Galago a également une liste "Stop phrase": https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstructar
Smart FTP Mirror: http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
Multipliers de mots d'arrêt (en déjà l'un des éléments ci-dessus dans le tableau): https://sites.google.com/site/kevinbouge/stopwords-lists
Plus pour plusieurs langues (en déjà l'une des ci-dessus dans le tableau): https://code.google.com/archive/p/stop-words/
MOTS DE MOTS POUR 50 LANGUAGES EN JSON (EN IS SMART): https://github.com/6/stopwords-json
Avez-vous une liste de mots d'arrêt préférée qui est différente de ce qui est ici? Envoyez une demande de traction avec votre liste en tant que fichier texte, 1 mot par ligne dans EN / dossier et une nouvelle ligne dans EN_STOPWORDS.csv