A filtragem de palavras -stop é uma etapa comum no pré -processamento de texto para vários fins. Esta é uma lista de várias listas diferentes de palavras de parada extraídas de vários mecanismos de pesquisa, bibliotecas e artigos. Há um número surpreendente de listas diferentes.
No momento, são apenas as palavras de parada em inglês.
| arquivo | tamanho | fonte | descrição |
|---|---|---|---|
| Nenhum | 0 | ⇱ | Sem parar de remoção de palavras. |
| Esfinge | 0 | ⇱ | Esfinge é um servidor de pesquisa de código aberto. As principais pesquisas do Google por palavras de parada de Esfinge também levam a duas listas manualmente compiladas http://astellar.com/2011/12/stopwords-for-sphinx-search/, que são baseadas nas postagens do autor do blog. |
| Ebscohost | 24 | ⇱ | As palavras de parada usadas nos bancos de dados médicos ebscohost Medline e Cinahl |
| Corenlp (codificado) | 28 | ⇱ | Codificado em SRC/EDU/Stanford/NLP/Coref/Data/WordLists.java e o mesmo em SRC/EDU/Stanford/NLP/dcoref/dictionaries.java |
| Classifica NL (Google) | 32 | ⇱ | A lista de palavras de parada curta abaixo é baseada no que acreditamos ser as palavras de parada do Google há uma década, com base em palavras que foram ignoradas se você as procurasse em combinação com outra palavra. (ou seja, como na frase "uma palavra -chave"). |
| Lucene, Solr, ElastisEarch | 33 | ⇱ | (Nota: alguns arquivos de configuração têm 's' e 't' extra como palavras de parada.) Um conjunto não modificável contendo algumas palavras em inglês comuns que geralmente não são úteis para pesquisar. |
| Mysql (innodb) | 36 | ⇱ | Uma palavra que é usada por padrão como um stopword para índices FullText nas tabelas InnOdB. Não é usado se você substituir o processamento padrão do stopword com o innodb_ft_server_stopword_table ou a opção innodb_ft_user_stopword_table. |
| Ovídio (Serviços de Informação Médica) | 39 | ⇱ | Palavras de pouco significado intrínseco que ocorrem com muita frequência para serem úteis na pesquisa de texto são conhecidas como "palavras de parada". Você não pode procurar as seguintes palavras de parada sozinha, mas pode incluí -las em frases. |
| Arco (libbow, arco -íris, flecha, besta) | 48 | ⇱ | Arco: um kit de ferramentas para modelagem de linguagem estatística, recuperação de texto, classificação e cluster. Lista curta codificada. Também inclui 524 lista de derivados inteligentes, igual a Mallet. Veja http://www.cs.cmu.edu/~mccallum/bow/rainbow/ |
| Lingpipe | 76 | ⇱ | Um EnglishStopTokenizerFactory aplica uma lista de paradas em inglês a uma fábrica de tokenizador de base contida |
| VOWPAL WABBIT (DOC2lDA) | 83 | ⇱ | Palavras de parada usadas no exemplo LDA |
| Analítica de texto 101 | 85 | ⇱ | Lista mínima compilada por Kavita Ganesan composta por determinantes, coordenando conjunções e preposições http://text-analytic101.rxnlp.com/2014/10/all-about-stop-words-for-text-mining.html |
| Lexisnexis® | 100 | ⇱ | “A seguir, são 'palavras de ruído' e nunca são pesquisáveis: nunca, portanto, nem se sabe, outros são 'palavras -chave barulhentas' e são pesquisáveis, envolvendo -as em citações.” |
| OKAPI (GSL.CACM) | 108 | ⇱ | CACM StopList específico de Okapi |
| Textfixer | 119 | ⇱ | De textfixer.com Linked da página wiki em palavras de parada. |
| DKPro | 127 | ⇱ | PostGresql (derivado da bola de neve) |
| PostGres | 127 | ⇱ | "As palavras de parada são palavras muito comuns, aparecem em quase todos os documentos e não têm valor de discriminação." |
| Ajuda do PubMed | 133 | ⇱ | Listado no PubMed Help Pages. |
| Corenlp (sigla) | 150 | ⇱ | Um conjunto de palavras que devem ser consideradas palavras de parada para o acrônimo Matcher |
| Nltk | 153 | ⇱ | De acordo com o e -mail van Rij. Sbergen (1979) "Recuperação de informações" (Butterworths, Londres). É ligeiramente expandido do Postgres PostgreSql.txt, que foi emprestado da bola de neve presumivelmente. |
| Spark Ml Lib | 153 | ⇱ | (NOTA: O mesmo que NLTK) Eles foram obtidos no Postgres, a lista de inglês foi aumentada |
| MongoDB | 174 | ⇱ | Commit diz 'Alterado arquivos de Stop Words para as listas de paradas da Ball Snow' |
| Quanteda | 174 | ⇱ | Tem listas de padrão inteligente e de bola de neve. Fonte |
| Classifica NL (padrão) | 174 | ⇱ | (Nota: o mesmo que a parada de bola de neve padrão, mas classifica -se freqüentemente citado como fonte) “Esta lista é usada no analisador de página [classifica NL] e analisador de artigos para texto em inglês, quando você o permite usar a lista de palavras de parada padrão.” |
| Bola de neve (original) | 174 | ⇱ | Stoplist de bola de neve padrão. |
| Xapian | 174 | ⇱ | (Nota: usa palavras de parada de bola de neve) "Tem sido tradicional na criação de sistemas de infravermelho para descartar as palavras mais comuns de um idioma - as palavras de parada - durante a indexação". |
R tm | 174 | ⇱ | O pacote R tm usa lista de bola de neve e também tem inteligência. |
| 99Webtools | 183 | ⇱ | “Palavras de parada são palavras que não contêm um significado importante a ser usado nas consultas de pesquisa. A maioria dos mecanismos de pesquisa filtra essas palavras da consulta de pesquisa antes de executar a pesquisa, isso melhora o desempenho.” |
| Deeplearning4J | 194 | ⇱ | DL4J Stopwords está em 2 lugares - palavras de parada e stopwords.txt. Provavelmente derivado da bola de neve. Alguns inteiros incomuns, por exemplo: ----s |
| Reuters Web of Science ™ | 211 | ⇱ | “As palavras de parada são comuns, com freqüentemente palavras como artigos (a, an, o), preposições (de, em, para, através) e pronomes (ele, deles, dele) que não podem ser pesquisados como palavras individuais nos campos de tópico e título. |
| Palavras de função (Cook 1988) | 221 | ⇱ | “Esta lista de 225 itens foi compilada para fins práticos há algum tempo como dados para um analisador de computador para o inglês do aluno. Papel |
| OKAPI (GSL.Sample) | 222 | ⇱ | Este okapi é o BM25 OKAPI. (Nota: o arquivo de texto de stopword incluído é de todos os termos “f” “h”, conforme definido por defs.h) O arquivo GSL contém termos que devem ser tratados de uma maneira especial pelo processo de indexação. Cada tipo é definido por um código de classe. |
| Bola de neve (expandida) | 227 | ⇱ | NOTA: Isso inclui as palavras extras mencionadas nos comentários “Uma lista de palavras de parada em inglês. Muitos dos formulários abaixo são bastante raros (por exemplo, 'vocês mesmos'), mas incluídos para a completude.” |
| DatasciencenOjo | 250 | ⇱ | Usado em uma demonstração em tempo real do AzureMl para um encontro |
| Corenlp (stopwords.txt) | 257 | ⇱ | Nota: "a", "an", "the", "e", "ou", "mas", "nem" codificado no stoplist.java também inclui pontuação (!!, -lrb-…) |
| Okapiframework | 262 | ⇱ | Isso não é okapi do BM25! (Penso que não acho que sim) Esta lista usada na estrutura Okapi Este okapi é a localização e tradução okapi. |
| Galeria do Azure | 310 | ⇱ | Lista de Glasgow ligeiramente modificada. |
| ATIRE (NCBI MEDLINE) | 313 | ⇱ | NCBI WRD_STOP Lista de palavras de parada de 313 termos extraídos do Medline. Seu uso é irrestrito. A lista pode ser baixada aqui |
| Ir | 317 | ⇱ | Vá biblioteca de palavras de stopgs. Esta é a lista de Glasgow sem 'computador' 'i' 'grossa' - tem 'espessura' |
| Scikit-Learn | 318 | ⇱ | Usa a lista de Glasgow, mas sem a palavra "computador" |
| GLASGOW IR | 319 | ⇱ | Recursos linguísticos do Glasgow Information Retrieval Group. Muitas cópias e edições deste. Por exemplo: XPO6 tem erros - tem citação em vez de 'LF', por exemplo: HERE "em vez de si mesma - surge como um dos principais resultados na pesquisa do Google. |
| xpo6 | 319 | ⇱ | Usado na biblioteca e rede Diglital Humboldt e documentado no BlogPost. Provavelmente derivado da lista de Glasgow. |
| Spacy | 326 | ⇱ | Lista aprimorada de Stone, Denis, Kwantes (2010) Paper |
| Gensim | 337 | ⇱ | O mesmo que Spacy (lista melhorada de Stone, Denis, Kwantes (2010)) |
| OKAPI (GSL.CACM expandido) | 339 | ⇱ | Lista de CACM expandida de Okapi |
| C99 e texttiling | 371 | ⇱ | Wrapper UIMA para as implementações Java dos Algoritmos de Segmentação C99 e TextTiling, escrito por Freddy Choi |
| Galago (Inquérito) | 418 | ⇱ | A lista Core/SRC/Main/Resources/StopDs/Inquery é a mesma que o padrão Indri. |
| Indri | 418 | ⇱ | Parte do projeto de Lemur |
| Onix & Lextek | 429 | ⇱ | Esta lista de stopword é provavelmente a lista de palavras de parada mais amplamente usada. Ele abrange um amplo número de palavras de parada sem ficar muito agressivo e incluir muitas palavras nas quais um usuário pode pesquisar. Esta lista de palavras contém 429 palavras. |
| GATE (extração da shrase) | 452 | ⇱ | Palavras de parada usadas no algoritmo de extração da shretneta de porta |
| Zettair | 469 | ⇱ | Zettair é um mecanismo de pesquisa de texto rápido e rápido, projetado e escrito pelo grupo de mecanismos de pesquisa da Universidade RMIT. Já foi conhecido como Lucy. |
| Okapi (expandido GSL.Sample) | 474 | ⇱ | O mesmo que okapi_sample.txt, mas com os termos "i" (não o comportamento do Okapi padrão! Mas pode ser útil) |
| Taporware | 485 | ⇱ | Projeto Taporware, McMaster University - Lista de Glasgow modificada - inclui números de 0 a 100 e 1990 a 2020 (para datas presumivelmente) também pontuação |
| Voyant (taporware) | 488 | ⇱ | A Voyant usa a lista de taporware por padrão, inclui você, você, teu - presumivelmente para o Shakespeare Corpus. O repositório de trombone também possui Glasgow e Smart em recursos. |
| MALHO | 524 | ⇱ | Lista de palavras de parada do Mallet padrão. (Baseado no Smart, eu acho) Veja os documentos |
| Weka | 526 | ⇱ | Como Bow (Rainbow, que é inteligente), mas com o LL extra adicionado para evitar palavras como você, etc. quase exatamente o mesmo que Mallet.txt |
| Mysql (myisam) | 543 | ⇱ | Myisam e Innodb usam paradas diferentes. Retirado de inteligente, mas modificado |
| Galago (RMStop) | 565 | ⇱ | Inclui alguma pontuação, caracteres UTF8, www, http, org, net, youtube, wikipedia |
| Kevin Bougé | 571 | ⇱ | Listas multilanges compiladas por Kevin Bougé. O inglês é inteligente. |
| INTELIGENTE | 571 | ⇱ | O sistema Smart (Sistema para Análise Mecânica e Recuperação de Texto) é um sistema de recuperação de informações desenvolvido na Cornell University na década de 1960. |
| ROUGE | 598 | ⇱ | Lista inteligente estendida usada no ROUGE 1.5.5 Resumo do kit de ferramentas de avaliação - inclui palavras extras: Reuters, AP, Notícias, Tecnologia, Índice, 3 Dias da semana e meses. |
| Tonybsk_1.txt | 635 | ⇱ | Origem desconhecida - perdi a referência. |
| Pesquisa de Esfinge Ultimate | 665 | ⇱ | Uma extensão para a esfinge possui esta lista. |
| Classifica NL (grande) | 667 | ⇱ | Uma lista muito longa de Ranks.nl |
| Tonybsk_6.txt | 671 | ⇱ | Origem desconhecida - perdi a referência. |
| Terrier | 733 | ⇱ | Terrier Retrieval Engine “Lista de palavras de parada para carregar pode ser carregada na propriedade Stopwords.FileName.” |
| Atire (puurula) | 988 | ⇱ | Incluído em atire ver papel |
| Alir3Z4 | 1298 | ⇱ | Lista de palavras de parada comuns em vários idiomas. A lista de inglês parece mesclada de várias fontes. |
Notas:
n , termine com uma linha em branco. UTF8 codificado.https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/teaching/iws/tirsaa/sources/text_utilities.html
http://text-analytics101.rxnlp.com/2014/10/all-about-top-words-for-text-mining.html
https://github.com/lintool/ir-reprodutibility/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
O Galago também possui uma lista de "Stop Frase": https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstructure
Espelho FTP inteligente: http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
Múltiplas palavras de parada de idiomas (já é uma das acima na tabela): https://sites.google.com/site/kevinbouge/stopwords-lists
Mais para vários idiomas (já é um dos itens acima na tabela): https://code.google.com/archive/p/stop-words/
Palavras de parada para 50 idiomas em JSON (EN é inteligente): https://github.com/6/stopwords-json
Você tem uma lista de stopword favorita que é diferente do que está aqui? Envie uma solicitação de tração com sua lista como um arquivo de texto, 1 palavra por linha em EN/ Pasta e uma nova linha em en_stopwords.csv