Penyaringan stopword adalah langkah umum dalam teks preprocessing untuk berbagai tujuan. Ini adalah daftar beberapa daftar stopword berbeda yang diekstraksi dari berbagai mesin pencari, perpustakaan, dan artikel. Ada sejumlah daftar yang berbeda.
Saat ini hanya Stopwords bahasa Inggris.
| mengajukan | ukuran | sumber | keterangan |
|---|---|---|---|
| Tidak ada | 0 | ⇱ | Tidak ada penghapusan kata berhenti. |
| Sphinx | 0 | ⇱ | Sphinx adalah server pencarian sumber terbuka. Pencarian Google Teratas untuk Stopwords Sphinx juga mengarah ke dua daftar yang dikompilasi secara manual http://astellar.com/2011/12/stopwords-for-sphinx-search/ yang didasarkan pada posting penulis blog. |
| Ebscohost | 24 | ⇱ | Kata -kata berhenti yang digunakan dalam database medis Ebscohost Medline dan Cinahl |
| Corenlp (hardcoded) | 28 | ⇱ | Hardcoded dalam src/edu/stanford/nlp/coref/data/wordlists.java dan sama di src/edu/stanford/nlp/dcoref/kamus.java |
| Peringkat NL (Google) | 32 | ⇱ | Daftar Stopwords singkat di bawah ini didasarkan pada apa yang kami yakini sebagai Google Stopwords satu dekade yang lalu, berdasarkan kata -kata yang diabaikan jika Anda akan mencarinya dalam kombinasi dengan kata lain. (yaitu. Seperti dalam frasa "kata kunci"). |
| Lucene, Solr, Elastisearch | 33 | ⇱ | (Catatan: Beberapa file konfigurasi memiliki 'S' dan 'T' sebagai stopwords.) Set yang tidak dapat dikodifikasikan berisi beberapa kata bahasa Inggris umum yang biasanya tidak berguna untuk mencari. |
| Mysql (innodb) | 36 | ⇱ | Kata yang digunakan secara default sebagai stopword untuk indeks fulltext pada tabel innodb. Tidak digunakan jika Anda mengganti proses stopword default dengan innodb_ft_server_stopword_table atau opsi innodb_ft_user_stopword_table. |
| Ovid (Layanan Informasi Medis) | 39 | ⇱ | Kata -kata dari makna intrinsik kecil yang terjadi terlalu sering berguna dalam mencari teks dikenal sebagai "stopwords." Anda tidak dapat mencari stopword berikut sendiri, tetapi Anda dapat memasukkannya ke dalam frasa. |
| Bow (Libbow, Rainbow, Panah, Crossbow) | 48 | ⇱ | Bow: Toolkit untuk pemodelan bahasa statistik, pengambilan teks, klasifikasi dan pengelompokan. Daftar Pendek Hardcoded. Juga termasuk 524 daftar turunan pintar, sama seperti palu. Lihat http://www.cs.cmu.edu/~mccallum/bow/rainbow/ |
| Lingpipe | 76 | ⇱ | An EnglishStopokenizerFactory menerapkan daftar berhenti bahasa Inggris ke pabrik tokenizer dasar yang terkandung |
| Vowpal wabbit (doc2lda) | 83 | ⇱ | Stopwords digunakan dalam contoh LDA |
| Analisis Teks 101 | 85 | ⇱ | Daftar minimal yang dikompilasi oleh Kavita Ganesan yang terdiri dari penentu, mengoordinasikan konjungsi dan preposisi http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-cining.html |
| LexisNexis® | 100 | ⇱ | "Berikut ini adalah 'kata -kata noise' dan tidak pernah dapat dicari: tidak pernah ke dalam atau karena itu ya. |
| Okapi (GSL.CACM) | 108 | ⇱ | Stoplist spesifik CACM dari Okapi |
| TextFixer | 119 | ⇱ | Dari textfixer.com ditautkan dari halaman wiki di stop words. |
| Dkpro | 127 | ⇱ | PostgreSQL (Snowball diturunkan) |
| Postgres | 127 | ⇱ | "Hentikan kata -kata adalah kata -kata yang sangat umum, muncul di hampir setiap dokumen, dan tidak memiliki nilai diskriminasi." |
| Bantuan PubMed | 133 | ⇱ | Tercantum dalam halaman bantuan PubMed. |
| Corenlp (akronim) | 150 | ⇱ | Satu set kata yang harus dianggap sebagai stopword untuk pencocokan akronim |
| Nltk | 153 | ⇱ | Menurut Email Van Rij. Sbergen (1979) "Pengambilan Informasi" (Butterworths, London). Ini sedikit diperluas dari postgres PostgreSQL.txt yang dipinjam dari Snowball mungkin. |
| Spark Ml Lib | 153 | ⇱ | (Catatan: Sama seperti NLTK) mereka diperoleh dari Postgres Daftar bahasa Inggris telah ditambah |
| Mongodb | 174 | ⇱ | Komit mengatakan 'mengubah file stop words ke daftar berhenti snowball' |
| Kuanteda | 174 | ⇱ | Memiliki daftar default yang cerdas dan bola salju. Sumber |
| Peringkat nl (default) | 174 | ⇱ | (Catatan: Sama seperti stoplist snowball default, tetapi peringkat sering disebut sebagai sumber) “Daftar ini digunakan dalam penganalisa halaman [peringkat NL] dan penganalisa artikel untuk teks bahasa Inggris, ketika Anda membiarkannya menggunakan daftar Stopwords default.” |
| Snowball (asli) | 174 | ⇱ | Stoplist Snowball default. |
| Xapian | 174 | ⇱ | (Catatan: Menggunakan Snowball Stopwords) “Telah tradisional dalam menyiapkan sistem IR untuk membuang kata -kata bahasa yang paling umum - stopwords - selama pengindeksan.” |
R tm | 174 | ⇱ | Paket R tm menggunakan daftar bola salju dan juga memiliki SMART. |
| 99WebTools | 183 | ⇱ | "Hentikan kata -kata adalah kata -kata yang tidak mengandung signifikansi penting untuk digunakan dalam kueri pencarian. Sebagian besar mesin pencari menyaring kata -kata ini dari permintaan pencarian sebelum melakukan pencarian, ini meningkatkan kinerja." |
| DEEPEEDEARNING4J | 194 | ⇱ | DL4J Stopwords ada di 2 tempat - stopwords dan stopwords.txt. Mungkin berasal dari bola salju. Beberapa ikut tidak biasa misalnya: ----s |
| Reuters Web of Science ™ | 211 | ⇱ | “Stopwords adalah umum, kata -kata yang sering digunakan seperti artikel (a, an, the), preposisi (dari, dalam, untuk, melalui), dan kata ganti (itu, mereka, miliknya) yang tidak dapat dicari sebagai kata -kata individual dalam bidang topik dan judul. Jika Anda memasukkan stopword dalam sebuah frasa, stopword ditafsirkan sebagai pemegang tempat kata. |
| Kata -kata fungsi (Cook 1988) | 221 | ⇱ | “Daftar 225 item ini dikompilasi untuk tujuan praktis beberapa waktu lalu sebagai data untuk parser komputer untuk bahasa Inggris siswa. Kertas. |
| Okapi (GSL.Sample) | 222 | ⇱ | Okapi ini adalah okapi BM25. (Catatan: File teks stopword yang disertakan berasal dari semua istilah "f" "h", sebagaimana didefinisikan oleh defs.h) file GSL berisi istilah yang harus ditangani dengan cara khusus dengan proses pengindeksan. Setiap jenis ditentukan oleh kode kelas. |
| Bola salju (diperluas) | 227 | ⇱ | Catatan: Ini termasuk kata -kata tambahan yang disebutkan dalam komentar “Daftar Kata Berhenti Bahasa Inggris. Banyak formulir di bawah ini cukup jarang (misalnya 'dirimu') tetapi termasuk dalam kelengkapan." |
| DataSciencedOJo | 250 | ⇱ | Digunakan dalam sentimen real-time demo Azureml untuk pertemuan |
| Corenlp (stopwords.txt) | 257 | ⇱ | Catatan: "A", "an", "the", "dan", "atau", "BUT", "NOR" HARDCODED DI STOTLIST.java juga termasuk tanda baca (!!, -lrb- ...) |
| Okapiframework | 262 | ⇱ | Ini bukan okapi dari BM25! (Setidaknya saya kira tidak) Daftar ini digunakan dalam kerangka okapi okapi ini adalah lokalisasi dan terjemahan okapi. |
| Galeri Azure | 310 | ⇱ | Daftar Glasgow yang sedikit dimodifikasi. |
| ATIRE (NCBI Medline) | 313 | ⇱ | Ncbi wrd_stop stop word list dari 313 istilah yang diekstraksi dari medline. Penggunaannya tidak terbatas. Daftar ini dapat diunduh dari sini |
| Pergi | 317 | ⇱ | Perpustakaan Stopwords. Ini adalah daftar Glasgow tanpa 'komputer' 'i' 'tebal' - memiliki 'tebal' |
| scikit-learn | 318 | ⇱ | Menggunakan daftar Glasgow, tetapi tanpa kata "komputer" |
| IR Glasgow | 319 | ⇱ | Sumber daya linguistik dari kelompok pengambilan informasi Glasgow. Banyak salinan dan suntingan yang satu ini. EG: XPO6 memiliki kesalahan - memiliki kutipan alih -alih 'lf' misalnya: herse "bukannya dirinya - muncul sebagai salah satu hasil teratas dalam pencarian Google. |
| xpo6 | 319 | ⇱ | Digunakan di Humboldt Diglital Library and Network dan didokumentasikan di blogpost. Kemungkinan berasal dari daftar Glasgow. |
| Spacy | 326 | ⇱ | Daftar Peningkatan dari Stone, Denis, Kwantes (2010) Kertas |
| Gensim | 337 | ⇱ | Sama seperti Spacy (Daftar Peningkatan dari Stone, Denis, Kwantes (2010)) |
| Okapi (GSL.CACM yang diperluas) | 339 | ⇱ | Daftar CACM yang Diperluas dari Okapi |
| C99 dan tekstil | 371 | ⇱ | Pembungkus UIMA untuk Implementasi Java dari Algoritma Segmentasi C99 dan TextTiling, ditulis oleh Freddy Choi |
| GALAGO (PERTANJUTAN) | 418 | ⇱ | Daftar Core/SRC/Main/Resources/Stopwords/Penyelidikan sama dengan Default Indri. |
| Indri | 418 | ⇱ | Bagian dari Proyek Lemur |
| Onix & Lextek | 429 | ⇱ | Daftar Stopword ini mungkin merupakan daftar stopword yang paling banyak digunakan. Ini mencakup sejumlah stopword tanpa terlalu agresif dan termasuk terlalu banyak kata yang mungkin dicari pengguna. Daftar kata ini berisi 429 kata. |
| Gerbang (ekstraksi keyphrase) | 452 | ⇱ | Stopwords Digunakan dalam Algoritma Ekstraksi Keyphrase Gerbang |
| Zettair | 469 | ⇱ | Zettair adalah mesin pencari teks yang ringkas dan cepat yang dirancang dan ditulis oleh Grup Mesin Pencari di RMIT University. Itu pernah dikenal sebagai Lucy. |
| Okapi (GSL.Sample yang diperluas) | 474 | ⇱ | Sama seperti okapi_sample.txt tetapi dengan istilah "i" (bukan perilaku okapi default! Tapi mungkin berguna) |
| Taporware | 485 | ⇱ | Proyek Taporware, Universitas McMaster - Daftar Glasgow yang Dimodifikasi - Termasuk angka 0 hingga 100, dan 1990 hingga 2020 (untuk tanggal mungkin) juga tanda baca |
| Voyant (taporware) | 488 | ⇱ | Voyant menggunakan daftar taporware secara default, termasuk ekstra, kamu, Anda - mungkin untuk corpus Shakespeare. Trombone Repo juga memiliki Glasgow dan Smart dalam Sumber Daya. |
| MARTIL | 524 | ⇱ | Daftar Stopword Mallet Default. (Berdasarkan Smart saya pikir) lihat Documents |
| Weka | 526 | ⇱ | Seperti busur (pelangi, yang pintar) tetapi dengan tambahan ditambahkan untuk menghindari kata -kata seperti Anda, saya dll. Hampir persis sama dengan mallet.txt |
| Mysql (myisam) | 543 | ⇱ | Myisam dan Innodb menggunakan stoplist yang berbeda. Diambil dari pintar tapi dimodifikasi |
| Galago (RMSTOP) | 565 | ⇱ | Termasuk beberapa tanda baca, karakter UTF8, www, http, org, net, youtube, wikipedia |
| Kevin Bougé | 571 | ⇱ | Daftar multilang yang disusun oleh Kevin Bougé. Bahasa Inggris itu cerdas. |
| CERDAS | 571 | ⇱ | Sistem Pengambilan Informasi Smart (System for Mechanical Analisis dan Pengambilan Teks) adalah sistem pengambilan informasi yang dikembangkan di Universitas Cornell pada 1960 -an. |
| Rouge | 598 | ⇱ | Daftar pintar yang diperluas yang digunakan dalam Rouge 1.5.5 Ringkasan Evaluasi Toolkit - Termasuk kata -kata tambahan: Reuters, AP, berita, teknologi, indeks, 3 surat hari dalam seminggu dan bulan. |
| tonybsk_1.txt | 635 | ⇱ | Asal yang Tidak Diketahui - Saya kehilangan referensi. |
| SPHINX Search Ultimate | 665 | ⇱ | Ekstensi untuk Sphinx memiliki daftar ini. |
| Peringkat nl (besar) | 667 | ⇱ | Daftar yang sangat panjang dari peringkat.nl |
| tonybsk_6.txt | 671 | ⇱ | Asal yang Tidak Diketahui - Saya kehilangan referensi. |
| Terrier | 733 | ⇱ | Mesin Pengambilan Terrier “Daftar Stopword untuk Memuat dapat dimuat dari Properti Stopwords.filename.” |
| Atire (puurula) | 988 | ⇱ | Termasuk dalam Kertas See Atire |
| Alir3z4 | 1298 | ⇱ | Daftar kata -kata berhenti umum dalam berbagai bahasa. Daftar bahasa Inggris terlihat seperti bergabung dari beberapa sumber. |
Catatan:
n , diakhiri dengan garis kosong. UTF8 dikodekan.https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/teaching/iws/tirsaa/sources/text_utilities.html
http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-pining.html
https://github.com/lintool/ir-reproducibility/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
Galago juga memiliki daftar "Stop Frase": https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstruktur
Smart FTP Mirror: http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
Multiple Language Stopwords (en sudah salah satu di atas dalam tabel): https://sites.google.com/site/kevinbouge/stopwords-lists
Lebih untuk beberapa bahasa (en sudah salah satu dari di atas dalam tabel): https://code.google.com/archive/p/stop-words/
Stopwords untuk 50 bahasa di JSON (en pintar): https://github.com/6/stopwords-json
Apakah Anda punya daftar stopword favorit yang berbeda dengan apa di sini? Kirim permintaan tarik dengan daftar Anda sebagai file teks, 1 kata per baris di folder EN/ dan baris baru di en_stopwords.csv