ストップワードフィルタリングは、さまざまな目的でテキストを前処理する一般的なステップです。これは、さまざまな検索エンジン、ライブラリ、および記事から抽出されたいくつかの異なるストップワードリストのリストです。驚くべき数の異なるリストがあります。
現時点では、それはただの英語のストップワードです。
| ファイル | サイズ | ソース | 説明 |
|---|---|---|---|
| なし | 0 | ⇱ | 停止単語の削除はありません。 |
| スフィンクス | 0 | ⇱ | Sphinxはオープンソース検索サーバーです。スフィンクスのトップ検索では、ブログの著者の投稿に基づいている2つの手動でコンパイルされた2つのリストhttp://astellar.com/2011/2011/2011/stopwords-for-sphinx-search/にもつながります。 |
| ebscohost | 24 | ⇱ | ebscohost Medical Databases MedlineとCinahlで使用される停止単語 |
| corenlp(ハードコード) | 28 | ⇱ | src/edu/stanford/nlp/coref/data/wordlists.javaおよびsrc/edu/stanford/nlp/dcoref/dictionaries.javaでハードコードされています |
| ランクNL(Google) | 32 | ⇱ | 以下の短いストップワードリストは、10年前にGoogle Stopwordsと考えられていたものに基づいています。 (つまり、「キーワード」というフレーズのように)。 |
| Lucene、Solr、Elastisearch | 33 | ⇱ | (注:一部の構成ファイルには、ストップワードとして追加の「s」と「t」があります。)検索には通常役に立たない一般的な英語の単語を含む変更できないセット。 |
| mysql(innodb) | 36 | ⇱ | INNODBテーブルのフルテキストインデックスのストップワードとしてデフォルトで使用される単語。 INNODB_FT_SERVER_STOPWORD_TABLEまたはINNODB_FT_USER_STOPWORD_TABLEオプションのいずれかでデフォルトのSTOPWORD処理をオーバーライドする場合は使用されません。 |
| Ovid(医療情報サービス) | 39 | ⇱ | テキストの検索に役立つ頻繁に発生しすぎる、ほとんど本質的な意味の言葉は「ストップワード」として知られています。次のストップワードを自分で検索することはできませんが、フレーズに含めることはできます。 |
| 弓(Libbow、Rainbow、Arrow、Crossbow) | 48 | ⇱ | 弓:統計言語モデリング、テキストの検索、分類、クラスタリングのためのツールキット。短いリストハードコード。 Malletと同じ524のスマート派生リストも含まれています。 http://www.cs.cmu.edu/~mccallum/bow/rainbow/を参照してください |
| lingpipe | 76 | ⇱ | EnglishStoptokenizerFactoryは、英語のストップリストを含むベーストークネイザーファクトリーに適用します |
| Vowpal Wabbit(doc2lda) | 83 | ⇱ | LDAの例で使用されているストップワード |
| テキスト分析101 | 85 | ⇱ | 決定者、調整接続詞、および前置詞で構成されるKavita Ganesanによって編集された最小リストhttp://text-analytics101.rxnlp.com/2014/10/all-about-words-for-text-mining.html |
| LexisNexis® | 100 | ⇱ | 「以下は「ノイズワード」であり、検索可能なものではありません。したがって、ほとんどVizでもありませんでした。 |
| okapi(gsl.cacm) | 108 | ⇱ | okapiからのCACM固有のストップリスト |
| TextFixer | 119 | ⇱ | Wikiページから停止ワードでリンクされたtextfixer.comから。 |
| dkpro | 127 | ⇱ | PostgreSQL(雪だるま由来) |
| ポストグレス | 127 | ⇱ | 「停止単語は、非常に一般的で、ほとんどすべてのドキュメントに表示され、差別価値がない単語です。」 |
| PubMedヘルプ | 133 | ⇱ | PubMedヘルプページにリストされています。 |
| Corenlp(頭字語) | 150 | ⇱ | 頭字語マッチャーのストップワードと見なされるべき単語のセット |
| nltk | 153 | ⇱ | 電子メールvan Rijによると。 Sbergen(1979)「情報検索」(バターワース、ロンドン)。おそらくスノーボールから借りたPostgresql.txtからわずかに拡張されています。 |
| Spark ML lib | 153 | ⇱ | (注:nltkと同じ)それらはポストグレスから取得されました英語リストが増強されました |
| mongodb | 174 | ⇱ | コミットは「Stop Wordsファイルを雪だるま停止リストに変更した」と言います |
| Quanteda | 174 | ⇱ | スマートとスノーボールのデフォルトリストがあります。ソース |
| ランクNL(デフォルト) | 174 | ⇱ | (注:デフォルトのスノーボールストップリストと同じですが、ranksnlはソースとして頻繁に引用されます) |
| スノーボール(オリジナル) | 174 | ⇱ | デフォルトのスノーボールストップリスト。 |
| XAPIAN | 174 | ⇱ | (注:スノーボールのストップワードを使用しています)「インデックス作成中に言語の非常に一般的な単語(ストップワード)を破棄するためにIRシステムをセットアップするのは伝統的でした。」 |
r tm | 174 | ⇱ | R tmパッケージはスノーボールリストを使用しており、スマートもあります。 |
| 99webtools | 183 | ⇱ | 「停止単語は、検索クエリで使用する重要な重要性を含む単語です。ほとんどの検索エンジンは、検索を実行する前に検索クエリからこれらの単語をフィルタリングします。これにより、パフォーマンスが向上します。」 |
| deeplearning4j | 194 | ⇱ | dl4jストップワードは、ストップワードとstopwords.txtの2つの場所にあります。おそらくスノーボールに由来します。いくつかの珍しい全体の例: ----s 。 |
| Reuters Web of Science™ | 211 | ⇱ | 「ストップワードは、記事(a、an、the)、前置詞(in、in、for for)、および代名詞(それ、彼)などの一般的な単語(彼)です。 |
| 関数単語(クック1988) | 221 | ⇱ | 「この225個のアイテムのリストは、学生英語のコンピューターパーサーのデータとして、ほぼ前に実用的な目的で編集されました。 |
| okapi(gsl.sample) | 222 | ⇱ | このオカピはBM25オカピです。 (注:defs.hで定義されているように、stopwordテキストファイルが含まれるすべての「f」「h」用語からのものです)gslファイルには、インデックス作成プロセスによって特別な方法で扱われる項が含まれています。各タイプはクラスコードで定義されます。 |
| スノーボール(拡張) | 227 | ⇱ | 注:これには、「英語のストップワードリスト」というコメントに記載されている追加の単語が含まれています。以下のフォームの多くは非常にまれですが、完全性のために含まれています。」 |
| datasciencedojo | 250 | ⇱ | ミートアップにリアルタイムセンチメントAzuremlデモで使用 |
| corenlp(stopwords.txt) | 257 | ⇱ | 注: "a"、 "an"、 "、"、 "、"、 "、"、 "、"、 "、"、 "、" nol "hardcoded in stoplist.javaにも句読点が含まれています(!!、-lrb-…) |
| okapiframework | 262 | ⇱ | これはBM25のOkapiではありません! (少なくとも私はそうは思いません)Okapiフレームワークで使用されているこのリストこのOkapiは、ローカリゼーションと翻訳okapiです。 |
| Azure Gallery | 310 | ⇱ | わずかに変更されたグラスゴーリスト。 |
| Atire(NCBI Medline) | 313 | ⇱ | NCBI WRD_STOP Medlineから抽出された313用語の停止ワードリスト。その使用は無制限です。リストはこちらからダウンロードできます |
| 行く | 317 | ⇱ | stopwordsライブラリに行きます。これは「コンピューター」のないグラスゴーリストです。 |
| Scikit-Learn | 318 | ⇱ | グラスゴーリストを使用しますが、「コンピューター」という言葉がありません |
| グラスゴーIR | 319 | ⇱ | グラスゴー情報検索グループの言語リソース。これのコピーと編集がたくさんあります。例:XPO6には間違いがあります - 「LF」の代わりに引用があります:自分の代わりにHERSE」は、Google検索のトップの結果の1つとして現れます。 |
| XPO6 | 319 | ⇱ | Humboldt Diglital Library and Networkで使用され、BlogPostで文書化されています。グラスゴーリストから派生した可能性があります。 |
| スペイシー | 326 | ⇱ | Stone、Denis、Kwantes(2010)の改善リスト |
| 原因 | 337 | ⇱ | Spacyと同じ(Stone、Denis、Kwantes(2010)の改善リスト) |
| okapi(拡張gsl.cacm) | 339 | ⇱ | OkapiからCACMリストを拡張しました |
| C99とテキストタイリング | 371 | ⇱ | Freddy Choiによって書かれたセグメンテーションアルゴリズムC99とテキストタイリングのJava実装のUIMAラッパー |
| ガラゴ(インクリー) | 418 | ⇱ | Core/SRC/Main/Resources/Stopwords/Inqueryリストは、IndRIデフォルトと同じです。 |
| インドリ | 418 | ⇱ | LEMURプロジェクトの一部 |
| Onix&Lextek | 429 | ⇱ | このストップワードリストは、おそらく最も広く使用されているストップワードリストです。積極的になりすぎず、ユーザーが検索する可能性のある単語が多すぎることなく、多数のストップワードをカバーします。このワードリストには429語が含まれています。 |
| ゲート(キーフレーズ抽出) | 452 | ⇱ | ゲートキーフレーズ抽出アルゴリズムで使用されるストップワード |
| ゼッテア | 469 | ⇱ | Zettairは、RMIT大学の検索エンジングループによって設計および作成されたコンパクトで高速のテキスト検索エンジンです。かつてルーシーとして知られていました。 |
| okapi(拡張gsl.sample) | 474 | ⇱ | okapi_sample.txtと同じですが、「i」という用語があります(デフォルトのokapiの動作ではありませんが、便利かもしれません) |
| Taporware | 485 | ⇱ | McMaster University -Modified Glasgow List - Taporware Projectが含まれています。 |
| Voyant(Taporware) | 488 | ⇱ | VoyantはデフォルトでTaporwareリストを使用しており、おそらくシェークスピアコーパスのために、あなた、あなた、あなた、あなたの余分なものが含まれています。 Trombone Repoには、グラスゴーとスマートのリソースもあります。 |
| マレット | 524 | ⇱ | デフォルトのマレットストップワードリスト。 (スマートに基づいて)ドキュメントを参照してください |
| ウェカ | 526 | ⇱ | 弓のように(虹、賢い)が、あなたのような言葉を避けるために追加された追加が追加されました。私はmallet.txtとほぼ同じ |
| mysql(myisam) | 543 | ⇱ | MyisamとInnodbは異なるストップリストを使用しています。スマートから取られたが修正された |
| ガラゴ(rmstop) | 565 | ⇱ | いくつかの句読点、UTF8文字、www、http、org、net、youtube、wikipediaが含まれています |
| ケビン・ブーゲ | 571 | ⇱ | KevinBougéが編集したMultilangリスト。英語は賢いです。 |
| 頭いい | 571 | ⇱ | SMART(テキストの機械分析と検索のシステム)情報検索システムは、1960年代にコーネル大学で開発された情報検索システムです。 |
| ルージュ | 598 | ⇱ | ルージュで使用される拡張スマートリスト1.5.5要約評価ツールキット - ロイター、AP、ニュース、テクノロジー、インデックス、週と月の3文字の日。 |
| tonybsk_1.txt | 635 | ⇱ | 未知の起源 - 私は参照を失いました。 |
| Sphinx Search Ultimate | 665 | ⇱ | Sphinxの拡張機能にはこのリストがあります。 |
| ランクNL(大) | 667 | ⇱ | rank.nlからの非常に長いリスト |
| tonybsk_6.txt | 671 | ⇱ | 未知の起源 - 私は参照を失いました。 |
| テリア | 733 | ⇱ | Terrier回収エンジン「ロードするストップワードリストは、stopwords.filenameプロパティからロードできます。」 |
| Atire(プーラ) | 988 | ⇱ | Atireに含まれる論文を参照してください |
| ALIR3Z4 | 1298 | ⇱ | さまざまな言語の一般的な停止単語のリスト。英語リストは、いくつかのソースから統合されたように見えます。 |
注:
n 、空白線で終わります。 UTF8エンコード。https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/teaching/iws/tirsaa/sources/text_utilities.html
http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-mining.html
https://github.com/lintool/ir-reproducibility/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
Galagoには、「停止フレーズ」リスト:https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstructureもあります
スマートFTPミラー:http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
複数の言語停止ワード(すでに上記の表の1つ):https://sites.google.com/site/kevinbouge/stopwords-lists
複数の言語の詳細(すでに上記の1つのテーブルのいずれか):https://code.google.com/archive/p/stop-words/
JSONの50言語のストップワード(enはスマート):https://github.com/6/stopwords-json
ここにあるものとは違うお気に入りのストップワードリストを持っていますか?リストをテキストファイルとして、EN/フォルダーに1行ごとに1ワード、EN_STOPWORDS.CSVでプルリクエストを送信します。