停止词过滤是用于各种目的的预处理文本的常见步骤。这是从各种搜索引擎,库和文章中提取的几个不同的停止列表的列表。有很多不同的列表。
目前,这只是英语停止字。
| 文件 | 尺寸 | 来源 | 描述 |
|---|---|---|---|
| 没有任何 | 0 | ⇱ | 没有停止单词删除。 |
| 狮身人面像 | 0 | ⇱ | Sphinx是开源搜索服务器。 Google搜索sphinx potwords的顶级搜索还导致两个手动编译的列表http://astellar.com/2011/12/stopwords-fors-for-sphinx-search/基于博客作者的帖子。 |
| EBSCOHOST | 24 | ⇱ | EBSCohost医疗数据库中使用的停止单词Medline和Cinahl |
| Corenlp(硬编码) | 28 | ⇱ | 在src/edu/stanford/nlp/coref/data/wordlists.java中进行了硬编码。 |
| 排名NL(Google) | 32 | ⇱ | 以下简短的停止列表是基于我们认为是十年前的Google opetwords的基础,基于您将它们与另一个单词结合使用的单词。 (即“关键字”中的短语中)。 |
| Lucene,Solr,Elastisearch | 33 | ⇱ | (注意:某些配置文件具有额外的“ s”和“ t”作为停止字词。)一个不可修复的集合,其中包含一些通常不适用于搜索的常见英语单词。 |
| mysql(innodb) | 36 | ⇱ | 默认情况下用作InnoDB表上FullText索引的一个单词。如果您使用innodb_ft_server_stopword_table或Innodb_ft_user_stopword_table选项覆盖默认的停止词处理。 |
| OVID(医疗信息服务) | 39 | ⇱ | 几乎没有固有含义的单词过于频繁而无法在搜索文本中有用的单词被称为“停止词”。您无法独自搜索以下停止词,但是可以将它们包含在短语中。 |
| 弓(Libbow,Rainbow,Arrow,Crossbow) | 48 | ⇱ | 弓:用于统计语言建模,文本检索,分类和聚类的工具包。简单的硬编码。还包括524个智能派生列表,与槌相同。请参阅http://www.cs.cmu.edu/~mccallum/bow/rainbow/ |
| lingpipe | 76 | ⇱ | 英语stoptokenizerFactory将英语停止列表应用于包含的基础令牌工厂 |
| Vowpal Wabbit(DOC2LDA) | 83 | ⇱ | lda示例中使用的止词 |
| 文本分析101 | 85 | ⇱ | 由Kavita Ganesan编制的最小列表由确定词组成,协调连词和介词http://text-analytics101.rxnlp.com/2014/10/10/all-about-about-about-stop-words-pop-words-for-words-for-for-text-mining.html-mining.html |
| LexisNexis® | 100 | ⇱ | “以下是'噪声单词',永远无法搜索:因此,几乎没有涉及。 |
| okapi(gsl.cacm) | 108 | ⇱ | okapi的CACM特定阻止列表 |
| TextFixer | 119 | ⇱ | 从wiki页面上的textfixer.com上的停止单词链接。 |
| dkpro | 127 | ⇱ | Postgresql(雪球派生) |
| Postgres | 127 | ⇱ | “停止单词是非常普遍的单词,几乎出现在每个文档中,并且没有歧视价值。” |
| PubMed帮助 | 133 | ⇱ | 在PubMed帮助页面中列出。 |
| Corenlp(首字母缩写) | 150 | ⇱ | 一组应视为首字母缩略词匹配器的单词 |
| NLTK | 153 | ⇱ | 根据电子邮件van rij。 Sbergen(1979)“信息检索”(Butterworths,伦敦)。它从Postgres Postgresql.txt略有扩展,大概是从雪球借来的。 |
| 火花ML Lib | 153 | ⇱ | (注意:与NLTK相同)它们是从Postgres获得的,英语列表已得到增强 |
| mongodb | 174 | ⇱ | 提交说“将停止单词文件更改为雪球停止列表” |
| 定量 | 174 | ⇱ | 有聪明的雪球默认列表。来源 |
| 排名NL(默认) | 174 | ⇱ | (注意:与默认的雪球停止列表相同,但兰克SNL经常被称为源)“当您使用默认的stopwords列表时,[等级NL]页面分析仪和文章分析仪中使用此列表。” |
| 雪球(原始) | 174 | ⇱ | 默认的雪球停止列表。 |
| Xapian | 174 | ⇱ | (注意:使用雪球停止字):“在索引期间,建立IR系统以丢弃一种语言的最常见单词 - 传统上是传统的。” |
R tm | 174 | ⇱ | R tm软件包使用雪球列表,并且也很聪明。 |
| 99webtools | 183 | ⇱ | “停止单词是在搜索查询中不包含重要意义的单词。在执行搜索之前,大多数搜索引擎都会从搜索查询中过滤这些单词,这会改善性能。” |
| 深度学习4J | 194 | ⇱ | DL4J停止字母位于2个位置 - 停止词和optwords.txt。可能来自雪球。有些不寻常的是: ----s 。 |
| 路透社网络科学™ | 211 | ⇱ | “停止词是常见的,经常使用的词,例如文章(a,an,the),介词(in,in,for,for,thy)和代词(IT,他们的,他的),无法将其作为主题和标题字段中的单个单词搜索。如果您在短语中包含一个停止字词,则将停止词解释为单词位置持有人。” |
| 功能词(Cook 1988) | 221 | ⇱ | “这225个项目的列表是为了实际目的而汇编的,作为学生英语的计算机解析器的数据。纸张。 |
| okapi(gsl.sample) | 222 | ⇱ | 此OKAPI是BM25 OKAPI。 (注意:包含的stopword文本文件来自所有“ f”“ h”项,如defs.h所定义)GSL文件包含索引过程以特殊方式处理的术语。每种类型都由类代码定义。 |
| 雪球(扩展) | 227 | ⇱ | 注意:这包括评论中提到的额外单词“英语停止单词列表。 |
| DataSciencedojo | 250 | ⇱ | 用于实时情感Azureml演示进行聚会 |
| corenlp(stopwords.txt) | 257 | ⇱ | 注意:“ a”,“”,“”,“”,“”,“,”,“但是”,“ nor”在opetlist.java中也包括标点符号(!!,-lrb--…) |
| Okapiframework | 262 | ⇱ | 这不是BM25的Okapi! (至少我不这么认为)okapi框架中使用的列表此列表是OKAPI的本地化和翻译OKAPI。 |
| Azure画廊 | 310 | ⇱ | 格拉斯哥列表略微修改。 |
| ATIRE(NCBI MEDLINE) | 313 | ⇱ | 从Medline提取的313个术语的NCBI WRD_STOP停止单词列表。它的使用不受限制。该列表可以从这里下载 |
| 去 | 317 | ⇱ | GO停止字库。这是没有“计算机”的格拉斯哥列表,“ i”“厚” - 具有“厚” |
| Scikit-Learn | 318 | ⇱ | 使用格拉斯哥列表,但没有“计算机”一词 |
| 格拉斯哥IR | 319 | ⇱ | 格拉斯哥信息检索小组的语言资源。该版本的许多副本和编辑。例如:XPO6有错误 - Quote而不是“ LF”,例如:“而不是她自己)是Google搜索中最重要的结果之一。 |
| XPO6 | 319 | ⇱ | 用于Humboldt Diglital库和网络,并在Blogpost中进行了记录。可能来自格拉斯哥列表。 |
| Spacy | 326 | ⇱ | 来自Stone,Denis,Kwantes的改进列表(2010年)纸 |
| Gensim | 337 | ⇱ | 与Spacy相同(Stone,Denis,Kwantes(2010)的改进列表) |
| OKAPI(扩展的GSL.CACM) | 339 | ⇱ | 从OKAPI扩展了CACM列表 |
| C99和文字提示 | 371 | ⇱ | 弗雷迪·崔(Freddy Choi)撰写的分割算法C99和Textfieling的Java实现的UIMA包装器 |
| 加拉戈(询问) | 418 | ⇱ | 核心/src/main/resources/stopwords/询问列表与Indri默认值相同。 |
| Indri | 418 | ⇱ | 狐猴项目的一部分 |
| Onix&Lextek | 429 | ⇱ | 此停止字列表可能是使用最广泛的停止字样列表。它涵盖了很多停止字样,而不会变得过于侵略性,并且包括用户可能会搜索的单词太多。此WordList包含429个单词。 |
| 栅极(键形提取) | 452 | ⇱ | GATE键形提取算法中使用的停止词 |
| Zettair | 469 | ⇱ | Zettair是由RMIT University搜索引擎组设计和撰写的紧凑且快速的文本搜索引擎。它曾经被称为露西。 |
| OKAPI(扩展的GSL.Sample) | 474 | ⇱ | 与okapi_sample.txt相同,但带有“ i”术语(不是默认的okapi行为!但可能有用) |
| Taporware | 485 | ⇱ | 麦克马斯特大学塔皮器项目 - 修改后的格拉斯哥列表 - 包括数字0到100,以及1990年至2020年(大概是日期)也标点符号 |
| 航行(taporware) | 488 | ⇱ | Voyant默认使用Taporware列表,包括您的额外,您,您 - 大概是莎士比亚语料库。 Trombone Repo还具有Glasgow和Smart的资源。 |
| 槌 | 524 | ⇱ | 默认的槌锤停止字列表。 (我认为是基于聪明的)请参阅文档 |
| weka | 526 | ⇱ | 像弓(彩虹,很聪明),但添加了额外的添加以避免像你一样,我。 |
| mysql(myisam) | 543 | ⇱ | Myisam和Innodb使用不同的停靠站。取自智能但修改 |
| Galago(RMSTOP) | 565 | ⇱ | 包括一些标点符号,UTF8字符,www,http,org,net,youtube,wikipedia |
| 凯文·布格 | 571 | ⇱ | 凯文·布格(KevinBougé)编写的Multilang列表。英语很聪明。 |
| 聪明的 | 571 | ⇱ | SMART(用于文本的机械分析和检索系统)信息检索系统是1960年代康奈尔大学开发的信息检索系统。 |
| 胭脂 | 598 | ⇱ | Rouge 1.5.5摘要评估工具包中使用的扩展智能列表 - 包括额外的单词:路透社,AP,新闻,技术,索引,每周和几个月的3个字母日。 |
| tonybsk_1.txt | 635 | ⇱ | 未知来源 - 我失去了参考。 |
| 狮身人面像搜索最终 | 665 | ⇱ | Sphinx的扩展名具有此列表。 |
| 排名NL(大) | 667 | ⇱ | ranks.nl的很长列表 |
| tonybsk_6.txt | 671 | ⇱ | 未知来源 - 我失去了参考。 |
| 梗 | 733 | ⇱ | 梗犬检索引擎“可以从optwords.filename属性中加载要加载的停止词列表。” |
| atire(puurula) | 988 | ⇱ | 包括在Atire中参见纸 |
| alir3z4 | 1298 | ⇱ | 以各种语言的通用停止单词列表。英语列表看起来像是来自多个来源的合并。 |
笔记:
n ,以空白行结尾。 UTF8编码。https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/teaching/iws/tirsaa/sources/text_utilities.html
http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-mining.html
https://github.com/lintool/ir-reproducibility/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
Galago还具有“停止短语”列表:https://sourceforge.net/p/lemur/galago/ci/default/default/tree/core/core/src/main/main/resources/stopwords/stopwords/stopstructure
智能FTP镜子:http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
多语言停止字(表中已经是表中的一个):https://sites.google.com/site/kevinbouge/stopwords-lists-lists
多种语言的更多信息(表中的一种已经在表中之一):https://code.google.com/archive/p/stop-words/
JSON中的50种语言的停止词(en smart):https://github.com/6/stopwords-json
您是否有一个与这里有不同的停车列表?将带有您列表的拉请请求作为文本文件发送,在en/文件夹中每行1个单词,而en_stopwords.csv中的新行