Фильтрация стоп -слов является общим шагом в предварительной обработке текста для различных целей. Это список нескольких различных списков стоп -слов, извлеченных из различных поисковых систем, библиотек и статей. Есть удивительное количество различных списков.
На данный момент это просто английские остановки.
| файл | размер | источник | описание |
|---|---|---|---|
| Никто | 0 | ⇱ | Нет остановки. Удаление слов. |
| Сфинкс | 0 | ⇱ | SPHINX - это сервер поиска с открытым исходным кодом. Top Google Search for Sphinx Stopwords также приводит к двум вручную скомпилированным спискам http://astellar.com/2011/12/stopwords-for-sphinx-search/, которые основаны на сообщениях автора блога. |
| Ebscohost | 24 | ⇱ | Слова, используемые в медицинских базах данных EBSCOHOST Medline и Cinahl |
| Corenlp (жестко кодировать) | 28 | ⇱ | В твердом кодировании в SRC/EDU/Stanford/NLP/COREF/DATA/WORDLISTS.JAVA и то же самое в SRC/EDU/Stanford/NLP/DCOREF/Dictionares.java |
| Ранжирует NL (Google) | 32 | ⇱ | Список коротких остатков ниже основан на том, что мы считали Google Stopwords десять лет назад, основываясь на словах, которые были проигнорированы, если вы искали их в сочетании с другим словом. (т.е. как в фразе «ключевое слово»). |
| Lucene, Solr, Elastisearch | 33 | ⇱ | (Примечание. Некоторые файлы конфигурации имеют дополнительные «s» и «t» в виде стоп -слов.) Немодифицируемый набор, содержащий некоторые общие английские слова, которые обычно не полезны для поиска. |
| Mysql (Innodb) | 36 | ⇱ | Слово, которое используется по умолчанию в качестве стоп -слова для полных индексов на таблицах InnoDB. Не используется, если вы переопределяете обработку стоп -слов по умолчанию либо с помощью innodb_ft_server_stopword_table, либо опции innodb_ft_user_stopword_table. |
| Ovid (медицинские информационные услуги) | 39 | ⇱ | Слова маленького внутреннего значения, которое встречается слишком часто, чтобы быть полезными в поиске текста, известны как «остаточные слова». Вы не можете искать следующие стоп -слова сами, но вы можете включить их в фразы. |
| Лук (либеол, радуга, стрелка, арбалет) | 48 | ⇱ | Лук: инструментарий для статистического языкового моделирования, поиска текста, классификации и кластеризации. Короткий список жестко кодируется. Также включает 524 Smart List List, такой же, как Mallet. См. Http://www.cs.cmu.edu/~mccallum/bow/rainbow/ |
| Lingpipe | 76 | ⇱ | AnglishStoptokenizerFactory применяет английский список остановок на заводскую фабрику базового токенизатора |
| Vowpal wabbit (doc2lda) | 83 | ⇱ | Остановки, используемые в примере LDA |
| Текстовая аналитика 101 | 85 | ⇱ | Минимальный список, составленный Кавитой Ганесан, состоящий из определятелей, координации соединений и предлогов http://text-analytics101.rxnlp.com/2014/10/all-about-top-words-for-text-mining.html |
| Lexisnexis® | 100 | ⇱ | «Ниже приведены« шумовые слова »и никогда не могут найти поиск: вряд ли вряд ли в них не было, а также, а другие -« шумные ключевые слова », и можно найти поиск, прилагая их в кавычки». |
| Okapi (gsl.cacm) | 108 | ⇱ | CACM Специфичный список остановки от Okapi |
| TextFixer | 119 | ⇱ | От textfixer.com, связанного со страницы вики на Stop Words. |
| Dkpro | 127 | ⇱ | Postgresql (получен снежный ком) |
| Постгрес | 127 | ⇱ | «Слова - это слова, которые очень распространены, появляются почти в каждом документе и не имеют значения дискриминации». |
| PubMed Help | 133 | ⇱ | Перечислены в PubMed Help Pages. |
| Corenlp (аббревиатура) | 150 | ⇱ | Набор слов, которые следует считать остановками для аббревиатуры маттера |
| Nltk | 153 | ⇱ | Согласно электронной почте Ван Ридж. Sbergen (1979) «Поиск информации» (Butterworths, Лондон). Он немного расширен из Postgres postgresql.txt, который был заимствован из снежного кома, предположительно. |
| Spark Ml Lib | 153 | ⇱ | (Примечание: так же, как NLTK) Они были получены из Postgres, английский список был дополнен |
| Mongodb | 174 | ⇱ | Commit говорит: «Измененные файлы Stop Words в списки остановки снежного кома» |
| Quacteda | 174 | ⇱ | Имеет умные и снежные списки по умолчанию. Источник |
| Ранга NL (по умолчанию) | 174 | ⇱ | (ПРИМЕЧАНИЕ: То же самое, что и по умолчанию, но Ranksnl часто цитируется в качестве источника) «Этот список используется в анализаторе страниц NL] и анализатора статьи для английского текста, когда вы позволяете ему использовать список стоп -слов по умолчанию». |
| Снежный ком (оригинал) | 174 | ⇱ | По умолчанию снежный коток. |
| Xapian | 174 | ⇱ | (ПРИМЕЧАНИЕ: использует стоп -слов снежного кома) «Это было традиционно в настройке ИК -систем, чтобы отказаться от самых распространенных слов языка - стоп -слов - во время индексации». |
R tm | 174 | ⇱ | R tm Package использует список снежного кома, а также имеет умный. |
| 99webtools | 183 | ⇱ | «Слова - это слова, которые не содержат важного значения, которое будет использоваться в поисковых запросах. Большинство поисковых систем фильтровали эти слова из поискового запроса перед выполнением поиска, это повышает производительность». |
| Deeplearning4j | 194 | ⇱ | DL4J Stopwords находятся в 2 местах - Stopwords and Stopwords.txt. Вероятно, получен из снежного кома. Некоторые необычные поясняют, например: ----s . |
| Reuters Web of Science ™ | 211 | ⇱ | «Стоп -слова являются обычными, часто используемыми словами, такими как статьи (a, an, the), предлоги (из, в, для, через) и местоимения (это, их, его), которые нельзя искать в виде отдельных слов в поля« темы ». Если вы включаете стоп -слово в фразу, стоп -слова интерпретируются как владелец слова». |
| Функциональные слова (Cook 1988) | 221 | ⇱ | «Этот список из 225 пунктов был составлен для практических целей некоторое время назад в качестве данных для компьютерного анализатора для студенческого английского языка. |
| Okapi (gsl.sample) | 222 | ⇱ | Этот Okapi - BM25 Okapi. (Примечание. Включенный текстовый файл Stopword из всех терминов «F» H », как определено defs.h) Файл GSL содержит термины, с которыми следует обращаться особым образом в процессе индексации. Каждый тип определяется кодом класса. |
| Снежный ком (расширен) | 227 | ⇱ | Примечание. Это включает в себя дополнительные слова, упомянутые в комментариях «Список слов английского остановки. Многие из приведенных ниже форм довольно редки (например,« сами »), но включены для полноты». |
| DataSciEncejo | 250 | ⇱ | Используется в демонстрации Azureml для встречи в реальном времени для встреч |
| Corenlp (stopwords.txt) | 257 | ⇱ | ПРИМЕЧАНИЕ: «A», «an», «The», «и», «или», «но», «, а не« жестко кодируется в Stoplist.java также включает пунктуацию (!!, -lrb-…) |
| Okapiframework | 262 | ⇱ | Это не Okapi BM25! (По крайней мере, я так не думаю). Этот список, используемый в Okapi Framework. Этот Okapi является локализацией и переводом Okapi. |
| Азурская галерея | 310 | ⇱ | Слегка модифицированный список Глазго. |
| Atire (NCBI Medline) | 313 | ⇱ | NCBI WRD_STOP Stop Word Sist из 313 терминов, извлеченных из Medline. Его использование неограничено. Список можно загрузить отсюда |
| Идти | 317 | ⇱ | Go Stop Words Library. Это список Глазго без «компьютера» «i» «толстый» - есть «толстый» |
| Scikit-learn | 318 | ⇱ | Использует список Глазго, но без слова «компьютер» |
| Глазго Ир | 319 | ⇱ | Лингвистические ресурсы из группы поиска информации Глазго. Много копий и изменений этого. Например: у XPO6 есть ошибки - есть цитата вместо «LF», например: HERSE »вместо себя - станет одним из лучших результатов в поиске Google. |
| XPO6 | 319 | ⇱ | Используется в библиотеке и сети Гумбольдта и задокументирован в блоге. Вероятно, получен из списка Глазго. |
| шпажина | 326 | ⇱ | Улучшенный список от Stone, Denis, Kwantes (2010). |
| Генсим | 337 | ⇱ | То же, что и Spacy (улучшенный список из Stone, Denis, Kwantes (2010)) |
| Okapi (расширенный gsl.cacm) | 339 | ⇱ | Расширенный список CACM от Okapi |
| C99 и текстовое время | 371 | ⇱ | Обертка UIMA для реализации Java Алгоритмов сегментации C99 и текстового роста, написанного Фредди Чой |
| Галаго (запрос) | 418 | ⇱ | Список Core/src/main/resources/stopwords/questry такой же, как и Indri default. |
| Индри | 418 | ⇱ | Часть проекта Lemur |
| Onix & Lextek | 429 | ⇱ | Этот список стоп -слов, вероятно, является наиболее широко используемым списком стоп -слов. Он охватывает широкое количество стоп -слов, не становясь слишком агрессивным, и включая слишком много слов, которые пользователь может искать. Этот список содержит 429 слов. |
| Ворота (извлечение KeyPhrase) | 452 | ⇱ | Стопщины, используемые в алгоритме извлечения ключей Gate |
| Zettair | 469 | ⇱ | Zettair - это компактная и быстрое текстовая поисковая система, разработанная и написанная группой поисковых систем в Университете RMIT. Когда -то это было известно как Люси. |
| Okapi (расширенный gsl.sample) | 474 | ⇱ | То же, что и Okapi_sample.txt, но с терминами «i» (не по умолчанию поведения Okapi! Но может быть полезен) |
| Плавник | 485 | ⇱ | Проект Taporware, Университет МакМастера - модифицированный список Глазго - включает в себя числа от 0 до 100 и с 1990 по 2020 год (для дат, предположительно), также пунктуация. |
| Voyant (Taporware) | 488 | ⇱ | По умолчанию Voyant использует список Taporware, включает в себя Extra, ты, твой - предположительно для Шекспира Корпус. Trombone Repo также имеет Glasgow и Smart в ресурсах. |
| Молоток | 524 | ⇱ | По умолчанию список остатков Mallet. (Основано на умном, я думаю) См. Документы |
| Weka | 526 | ⇱ | Как лук (радуга, которая умна), но с дополнительным добавлением, чтобы избежать таких слов, как вы, я и т. Д. Почти точно так же, как Mallet.txt |
| Mysql (myisam) | 543 | ⇱ | Myisam и Innodb используют разные стоплежи. Взят из умного, но модифицированного |
| Галаго (RMSTOP) | 565 | ⇱ | Включает в себя некоторые пунктуации, символы UTF8, www, http, org, net, youtube, Википедия |
| Кевин Буге | 571 | ⇱ | Multilang списки, составленные Кевином Буге. Английский умный. |
| УМНЫЙ | 571 | ⇱ | Smart (System для механического анализа и поиска текста) системы поиска информации - это система поиска информации, разработанная в Корнелльском университете в 1960 -х годах. |
| Руж | 598 | ⇱ | Расширенный интеллектуальный список, используемый в Rouge 1.5.5 Сводная оценка Toolkit - включает в себя дополнительные слова: Reuters, AP, News, Tech, Index, 3 -буквочные дни недели и месяцев. |
| tonybsk_1.txt | 635 | ⇱ | Неизвестное происхождение - я потерял ссылку. |
| Sphinx Search Ultimate | 665 | ⇱ | Расширение для Sphinx имеет этот список. |
| Ранжирует NL (большой) | 667 | ⇱ | Очень длинный список из рядов. |
| tonybsk_6.txt | 671 | ⇱ | Неизвестное происхождение - я потерял ссылку. |
| Терьер | 733 | ⇱ | Двигатель повреждения Terrier «Стоп -список для загрузки может быть загружен из свойства Stopwords.filename». |
| Аллир (пурула) | 988 | ⇱ | Включено в Atire см. Бумага |
| Alir3z4 | 1298 | ⇱ | Список общих слов остановки на различных языках. Английский список выглядит как объединенный из нескольких источников. |
Примечания:
n , заканчивая пустой линией. UTF8 кодируется.https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/teaching/iws/tirsaa/sources/text_utilities.html
http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-mining.html
https://github.com/lintool/ir-reproducibility/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
Галаго также имеет список «остановки фразы»: https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstructure
Smart FTP зеркало: http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
Многочисленные языковые остановки (EN уже один из вышеперечисленных в таблице): https://sites.google.com/site/kevinbouge/stopwords-lists-lists
Больше для нескольких языков (уже один из вышеперечисленных в таблице): https://code.google.com/archive/p/stop-words/
Стоп слов для 50 языков в JSON (EN Smart): https://github.com/6/stopwords-json
У вас есть любимый список Stopword, который отличается от того, что здесь? Отправить запрос на вытягивание со списком в виде текстового файла, 1 слово за строку в папке EN/ FOLDE и новая строка в EN_STOPWORDS.CSV