El filtrado de palabras de parada es un paso común en el texto de preprocesamiento para diversos fines. Esta es una lista de varias listas diferentes de palabras de parada extraídas de varios motores de búsqueda, bibliotecas y artículos. Hay un sorprendente número de listas diferentes.
Por el momento son solo palabras de parada en inglés.
| archivo | tamaño | fuente | descripción |
|---|---|---|---|
| Ninguno | 0 | ⇱ | Sin eliminación de palabras de parada. |
| Esfinge | 0 | ⇱ | Sphinx es un servidor de búsqueda de código abierto. La búsqueda superior de Google para las palabras de parada Sphinx también conduce a dos listas compiladas manualmente http://astellar.com/2011/12/stopwords-for-sphinx-search/ que se basan en las publicaciones del autor del blog. |
| Ebohost | 24 | ⇱ | Las palabras de parada utilizadas en las bases de datos médicas de EBSCOHost Medline y Cinahl |
| Corenlp (codificado) | 28 | ⇱ | Codificado en src/edu/stanford/nlp/coref/data/wordlists.java y lo mismo en src/edu/stanford/nlp/dcoref/diccionarios.java |
| Ranga NL (Google) | 32 | ⇱ | La breve lista de palabras de parada a continuación se basa en lo que creíamos que son las palabras de parada de Google hace una década, basada en palabras que fueron ignoradas si las buscas en combinación con otra palabra. (es decir, como en la frase "una palabra clave"). |
| Lucene, Solr, elastisearch | 33 | ⇱ | (Nota: algunos archivos de configuración tienen 's' y 't' adicionales como palabras de parada). Un conjunto no modificable que contiene algunas palabras en inglés comunes que generalmente no son útiles para buscar. |
| Mysql (innodb) | 36 | ⇱ | Una palabra que se usa de forma predeterminada como una palabra de parada para índices de texto completo en las tablas innoDB. No se usa si anula el procesamiento de palabras de parada predeterminada con la opción innodb_ft_server_stopword_table o la opción innodb_ft_user_stopword_table. |
| Ovid (Servicios de información médica) | 39 | ⇱ | Las palabras de poco significado intrínseco que ocurren con demasiada frecuencia para ser útiles en la búsqueda de texto se conocen como "palabras de parada". No puede buscar las siguientes palabras de parada por sí mismas, pero puede incluirlas dentro de las frases. |
| Arco (libbow, arcoíris, flecha, ballesta) | 48 | ⇱ | Bow: un conjunto de herramientas para modelado de lenguaje estadístico, recuperación de texto, clasificación y agrupación. Lista corta codificada. También incluye 524 List Derived Smart, igual que Mallet. Ver http://www.cs.cmu.edu/~mccallum/bow/rainbow/ |
| Tubo de ling | 76 | ⇱ | Un inglésstopTokenizerFactory aplica una lista de paradas en inglés a una fábrica de tokenizador base contenida |
| Vowpal Wabbit (DOC2LDA) | 83 | ⇱ | Palabras de parada utilizadas en el ejemplo de LDA |
| Análisis de texto 101 | 85 | ⇱ | Lista mínima compilada por Kavita Ganesan que consta de determinantes, conjuntos de coordinación y preposiciones http://text-analytics101.rxnlp.com/2014/10/all-bout-stop-words-for-text-mining.html |
| LEXISNEXIS® | 100 | ⇱ | "Las siguientes son 'palabras de ruido' y nunca se pueden buscar: casi no se encuentran en ni a saber. Otros son 'palabras clave ruidosas' y se pueden buscar encerrándolas en citas". |
| Okapi (GSL.CACM) | 108 | ⇱ | Lista de parada específica de CACM de Okapi |
| Texto de texto | 119 | ⇱ | Desde textfixer.com vinculado desde la página wiki en las palabras de detención. |
| Dkpro | 127 | ⇱ | PostgreSQL (bola de nieve derivada) |
| Post -put | 127 | ⇱ | "Las palabras de detención son palabras que son muy comunes, aparecen en casi todos los documentos y no tienen valor de discriminación". |
| Ayuda PubMed | 133 | ⇱ | Listado en páginas de ayuda de PubMed. |
| Corenlp (acrónimo) | 150 | ⇱ | Un conjunto de palabras que deben considerarse palabras de parada para el acrónimo Matcher |
| Nltk | 153 | ⇱ | Según el correo electrónico Van Rij. Sbergen (1979) "Recuperación de información" (Butterworths, Londres). Se expandió ligeramente de Postgres Postgresql.txt que fue tomado de Snowball Presumiblemente. |
| Chispa ml lib | 153 | ⇱ | (Nota: Igual que NLTK) se obtuvieron de Postgres, la lista de inglés se ha aumentado |
| Mongodb | 174 | ⇱ | Commit dice 'Cambiar los archivos de detención de palabras a las listas de parada de bola de nieve' |
| Cuantda | 174 | ⇱ | Tiene listas predeterminadas de Smart and Snowball. Fuente |
| Clasifica a NL (predeterminado) | 174 | ⇱ | (Nota: Igual que la lista de parada de bola de nieve predeterminada, pero Ranksnl frecuentemente citada como fuente) "Esta lista se usa en el analizador de página [NL] y el analizador de artículos para el texto en inglés, cuando deja que use la lista de palabras de parada predeterminada". |
| Bola de nieve (original) | 174 | ⇱ | Lista de parada de bola de nieve predeterminada. |
| Xapio | 174 | ⇱ | (Nota: usa palabras de parada de bola de nieve) "Ha sido tradicional en la configuración de sistemas IR para descartar las palabras más comunes de un idioma, las palabras de parada, durante la indexación". |
R tm | 174 | ⇱ | El paquete R tm usa la lista de bolas de nieve y también tiene inteligencia. |
| 99WebTools | 183 | ⇱ | "Las palabras de detención son palabras que no contienen importancia importante que se utilizará en las consultas de búsqueda. La mayoría del motor de búsqueda filtra estas palabras de la consulta de búsqueda antes de realizar la búsqueda, esto mejora el rendimiento". |
| Deeplearning4J | 194 | ⇱ | Las palabras de parada DL4J están en 2 lugares - Palabras de parada y palabras de parada.txt. Probablemente derivado de la bola de nieve. Algunos entres inusuales, por ejemplo, ----s . |
| Reuters Web of Science ™ | 211 | ⇱ | "Las palabras de parada son palabras comunes, con frecuencia, como artículos (A, AN, The), preposiciones (de, en, para, a través de) y pronombres (it, su, su) que no se pueden buscar como palabras individuales en el tema y los campos de título. Si incluye una palabra de parada en una frase, la palabra de parada se interpreta como un titular de la palabra". |
| Palabras de función (Cook 1988) | 221 | ⇱ | “Esta lista de 225 elementos se compiló para fines prácticos hace algún tiempo como datos para un analizador de computadora para inglés. Paper. |
| Okapi (GSL.Sample) | 222 | ⇱ | Este Okapi es el BM25 Okapi. (Nota: El archivo de texto de la palabra de parada incluido es de todos los términos "f" "h", según lo definido por defs.h) El archivo GSL contiene términos que se deben tratar de manera especial mediante el proceso de indexación. Cada tipo se define por un código de clase. |
| Bola de nieve (expandida) | 227 | ⇱ | Nota: Esto incluye las palabras adicionales mencionadas en los comentarios "Una lista de palabras de parada en inglés. Muchos de los formularios a continuación son bastante raros (por ejemplo, 'ustedes mismos') pero se incluyen para completar". |
| DataSciencojo | 250 | ⇱ | Utilizado en una demostración de Azureml de sentimiento en tiempo real para una reunión |
| Corenlp (stopwords.txt) | 257 | ⇱ | Nota: "A", "An", "The", "y", "o", "pero", "ni" codificado en stoplist.java también incluye puntuación (!!, -lrb- ...) |
| Okapiframework | 262 | ⇱ | ¡Este no es Okapi de BM25! (Al menos no lo creo) Esta lista utilizada en el marco de Okapi Este Okapi es la localización y traducción OKAPI. |
| Galería Azure | 310 | ⇱ | Lista de Glasgow ligeramente modificada. |
| Atire (NCBI Medline) | 313 | ⇱ | NCBI WRD_STOP STOP Lista de palabras de 313 términos extraídos de Medline. Su uso no tiene restricciones. La lista se puede descargar desde aquí |
| Ir | 317 | ⇱ | Vaya a la biblioteca de palabras de parada. Esta es la lista de Glasgow sin 'computadora' 'i' 'gruesa' - tiene 'grueso' |
| lear | 318 | ⇱ | Utiliza la lista de Glasgow, pero sin la palabra "computadora" |
| Glasgow ir | 319 | ⇱ | Recursos lingüísticos del grupo de recuperación de información de Glasgow. Muchas copias y ediciones de este. Por ejemplo, XPO6 tiene errores: tiene una cita en lugar de 'LF', por ejemplo, Hersee "en lugar de sí misma, aparece como uno de los principales resultados en la búsqueda de Google. |
| xpo6 | 319 | ⇱ | Utilizado en Humboldt Diglital Library and Network y documentado en BlogPost. Probablemente derivado de la lista de Glasgow. |
| extirpado | 326 | ⇱ | Lista mejorada de Stone, Denis, Kwantes (2010) Documento |
| Gensim | 337 | ⇱ | Igual que Spacy (Lista mejorada de Stone, Denis, Kwantes (2010)) |
| Okapi (GSL.CACM expandido) | 339 | ⇱ | Lista de CACM ampliada de Okapi |
| C99 y toque de texto | 371 | ⇱ | Uima Wrapper para las implementaciones de Java de los algoritmos de segmentación C99 y TextTiling, escrito por Freddy Choi |
| Galago (investigación) | 418 | ⇱ | La lista Core/Src/Main/Resources/Stopwords/Investigating es la misma que la predeterminada de Indri. |
| Indri | 418 | ⇱ | Parte del proyecto Lemur |
| Onix y Lextek | 429 | ⇱ | Esta lista de palabras de parada es probablemente la lista de palabras de parada más utilizada. Cubre una amplia cantidad de palabras de parada sin ser demasiado agresivos e incluyendo demasiadas palabras en las que un usuario podría buscar. Esta lista de palabras contiene 429 palabras. |
| Puerta (extracción de frase de teclas) | 452 | ⇱ | Palabras de parada utilizadas en el algoritmo de extracción de frase de teclas de compuerta |
| Zettair | 469 | ⇱ | Zettair es un motor de búsqueda de texto compacto y rápido diseñado y escrito por el grupo de motores de búsqueda en la Universidad RMIT. Una vez fue conocido como Lucy. |
| Okapi (muestra de gsl.sample expandido) | 474 | ⇱ | Igual que okapi_sample.txt pero con términos "I" (¡no es un comportamiento predeterminado de Okapi! Pero puede ser útil) |
| Taporware | 485 | ⇱ | Proyecto Taporware, Universidad McMaster - Lista modificada de Glasgow - Incluye números de 0 a 100 y 1990 a 2020 (para fechas presumiblemente) también puntuación |
| Voyant (taporware) | 488 | ⇱ | Voyant usa la lista de Taporware de forma predeterminada, incluye Extra Thou, Thee, You - Presumiblemente para Shakespeare Corpus. El repositorio de trombones también tiene Glasgow e inteligente en recursos. |
| MAZO | 524 | ⇱ | Lista predeterminada de palabras de parada mallet. (Basado en inteligencia, creo) ver documentos |
| Weka | 526 | ⇱ | Como Bow (Rainbow, que es inteligente) pero con extra se agregaron para evitar palabras como usted, tengo, etc. casi exactamente lo mismo que Mallet.txt |
| Mysql (myisam) | 543 | ⇱ | Myisam e innodb usan diferentes listas. Tomado de inteligente pero modificado |
| Galago (RMStop) | 565 | ⇱ | Incluye algo de puntuación, caracteres UTF8, www, http, org, net, youtube, wikipedia |
| Kevin Bougé | 571 | ⇱ | Listas de Multilang compilados por Kevin Bougé. El inglés es inteligente. |
| ELEGANTE | 571 | ⇱ | El sistema de recuperación de información Smart (Sistema para el análisis mecánico y recuperación del texto) es un sistema de recuperación de información desarrollado en la Universidad de Cornell en la década de 1960. |
| COLORETE | 598 | ⇱ | Lista inteligente extendida utilizada en Rouge 1.5.5 Resumen de herramientas de evaluación de evaluación: incluye palabras adicionales: Reuters, AP, noticias, tecnología, índice, días de 3 letras de la semana y meses. |
| Tonybsk_1.txt | 635 | ⇱ | Origen desconocido - Perdí la referencia. |
| Sphinx Search Ultimate | 665 | ⇱ | Una extensión para Sphinx tiene esta lista. |
| Ranga NL (grande) | 667 | ⇱ | Una lista muy larga de ranks.nl |
| Tonybsk_6.txt | 671 | ⇱ | Origen desconocido - Perdí la referencia. |
| Terrier | 733 | ⇱ | Motor de recuperación de Terrier "La lista de palabras de parada para cargar se puede cargar desde la palabra de parada. Propiedad de nombre de nombre". |
| Atire (Puúrula) | 988 | ⇱ | Incluido en Atire ver papel |
| Alir3z4 | 1298 | ⇱ | Lista de palabras de parada comunes en varios idiomas. La lista de inglés parece fusionado de varias fuentes. |
Notas:
n , termina con una línea en blanco. UTF8 codificado.https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/taaching/iws/tirsaa/sources/text_utilidades.html
http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-mining.html
https://github.com/lintool/ir-reproducibilidad/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
Galago también tiene una lista de "frase de parada": https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstructure
Smart FTP Mirror: http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
Múltiples palabras de parada de lenguaje (es una de las anteriores en la tabla): https://sites.google.com/site/kevinbouge/stopwords-lists
Más para múltiples idiomas (ya uno de los anteriores en la tabla): https://code.google.com/archive/p/stop-words/
Palabras de parada para 50 idiomas en JSON (ES es inteligente): https://github.com/6/stopwords-json
¿Tienes una lista de palabras de parada favorita que sea diferente a lo que está aquí? Envíe una solicitud de extracción con su lista como un archivo de texto, 1 palabra por línea en la carpeta EN/ y una nueva fila en en_stopwords.csv