Stopword 필터링은 다양한 목적으로 전처리 텍스트의 일반적인 단계입니다. 이것은 다양한 검색 엔진, 라이브러리 및 기사에서 추출한 여러 다른 중단 목록 목록입니다. 놀라운 수의 다른 목록이 있습니다.
현재 그것은 단지 영어 중단입니다.
| 파일 | 크기 | 원천 | 설명 |
|---|---|---|---|
| 없음 | 0 | ⇱ | 중지 단어 제거가 없습니다. |
| 스핑크스 | 0 | ⇱ | Sphinx는 오픈 소스 검색 서버입니다. Sphinx Stopwords에 대한 Top Google 검색은 또한 블로그 작성자의 게시물을 기반으로하는 http://astellar.com/2011/12/stopwords-for-sphinx-search/ 두 개의 수동으로 컴파일 된 목록으로 이어집니다. |
| ebscohost | 24 | ⇱ | Ebscohost 의료 데이터베이스 Medline 및 Cinahl에 사용 된 중지 단어 |
| Corenlp (하드 코드) | 28 | ⇱ | src/edu/stanford/nlp/coref/data/wordlists.java에서 하드 코드 및 SRC/EDU/Stanford/NLP/DCOREF/DICICIONARIES.java에서도 동일합니다 |
| NL 순위 (Google) | 32 | ⇱ | 아래의 짧은 스톱워드 목록은 10 년 전 Google Stopwords로 여겨지는 것을 기반으로합니다. 다른 단어와 함께 검색 할 경우 무시 된 단어를 기반으로합니다. (즉, "키워드"라는 문구에서와 같이). |
| Lucene, Solr, elastisearch | 33 | ⇱ | (참고 : 일부 구성 파일에는 stopwords로 추가 's'와 't'가 있습니다.) 일반적으로 검색에 유용하지 않은 일반적인 영어 단어가 포함 된 미확인 세트. |
| mysql (innodb) | 36 | ⇱ | InnoDB 테이블에서 풀 텍스트 인덱스의 스톱워드로 기본적으로 사용되는 단어. innodb_ft_server_stopword_table 또는 innodb_ft_user_stopword_table 옵션으로 기본 스톱워드 처리를 무시한 경우 사용하지 않습니다. |
| OVID (의료 정보 서비스) | 39 | ⇱ | 텍스트를 검색하는 데 너무 자주 발생하기에는 너무 자주 발생하는 내재적 의미의 작은 단어를 "스톱워드"로 알려져 있습니다. 당신은 자체적으로 다음 중단 단어를 검색 할 수 없지만 문구 내에 포함시킬 수 있습니다. |
| 활 (libbow, 무지개, 화살, 석궁) | 48 | ⇱ | BOW : 통계 언어 모델링, 텍스트 검색, 분류 및 클러스터링을위한 툴킷. 짧은 목록 하드 코드. Mallet과 같은 524 스마트 파생 목록도 포함됩니다. http://www.cs.cmu.edu/~mccallum/bow/rainbow/를 참조하십시오. |
| 링 파이프 | 76 | ⇱ | EnglishStoptokenizerFactory는 포함 된 기본 토큰 화기 공장에 영어 정지 목록을 적용합니다. |
| VOWPAL WABBIT (DOC2LDA) | 83 | ⇱ | LDA 예제에 사용 된 스톱워드 |
| 텍스트 분석 101 | 85 | ⇱ | 결정자, 조정 연결 및 전치사로 구성된 Kavita Ganesan에 의해 컴파일 된 최소 목록 http://text-analytics101.rxnlp.com/2014/10/All-About-stop-for-text-mining.html |
| LexisNexis® | 100 | ⇱ | "다음은 '소음 단어'이며 결코 검색 할 수 없습니다. 따라서 거의 거의 없었습니다. 다른 사람들은 '시끄러운 키워드'이며 인용문으로 둘러싸여 검색 할 수 있습니다." |
| Okapi (GSL.CACM) | 108 | ⇱ | Okapi의 CACM 특정 스톱리스트 |
| TextFixer | 119 | ⇱ | Wiki Page에서 링크 된 TextFixer.com에서 중지 단어에서 링크. |
| dkpro | 127 | ⇱ | Postgresql (눈덩이 파생) |
| 포스트 그레스 | 127 | ⇱ | "중지 단어는 매우 흔한 단어이며 거의 모든 문서에 나타나며 차별 값이 없습니다." |
| PubMed 도움말 | 133 | ⇱ | PubMed 도움말 페이지에 나열되어 있습니다. |
| Corenlp (약어) | 150 | ⇱ | 아크로 랜드 매칭의 스톱워드로 간주되어야하는 단어 세트 |
| nltk | 153 | ⇱ | 이메일 Van Rij에 따르면. Sbergen (1979) "정보 검색"(Butterworths, London). Snowball에서 빌린 Postgres Postgresql.txt에서 약간 확장되었습니다. |
| Spark ML Lib | 153 | ⇱ | (참고 : NLTK와 동일) Postgres에서 얻은 영어 목록이 보강되었습니다. |
| Mongodb | 174 | ⇱ | Commit은 '중지 단어 파일 변경 파일을 Snowball STOP 목록으로 변경했습니다.' |
| Quanteda | 174 | ⇱ | 스마트 및 스노우 볼 기본 목록이 있습니다. 원천 |
| 순위 NL (기본값) | 174 | ⇱ | (참고 : 기본 Snowball STOP리스트와 동일하지만 RankSNL은 자주 소스로 인용됩니다)“이 목록은 기본 스톱워드 목록을 사용할 때 영어 텍스트의 [Ranks NL] 페이지 분석기 및 기사 분석기에 사용됩니다.” |
| 눈덩이 (원본) | 174 | ⇱ | 기본 눈덩이 스톱리스트. |
| Xapian | 174 | ⇱ | (참고 : Snowball Stopwords를 사용하십시오.)“INDEXING 동안 IR 시스템을 설정하는 데 전통적이었습니다. |
r tm | 174 | ⇱ | R tm 패키지는 눈덩이 목록을 사용하며 스마트합니다. |
| 99webtools | 183 | ⇱ | "중지 단어는 검색 쿼리에 사용해야 할 중요한 의미를 포함하지 않는 단어입니다. 대부분의 검색 엔진은 검색 쿼리에서 이러한 단어를 필터링하기 전에 성능을 향상시킵니다." |
| deeplearning4j | 194 | ⇱ | DL4J Stopwords는 2 개의 장소에 있습니다 - Stopwords and Stopwords.txt. 아마도 눈덩이에서 파생되었습니다. 일부 비정상적인 입장은 예를 들어 : ----s . |
| Reuters Web of Science ™ | 211 | ⇱ | "스톱워드는 주제와 제목 필드에서 개별 단어로 검색 할 수없는 기사 (A, A, The), 전치사 (A, an, in, through) 및 대명사 (It, thens, His)와 같은 일반적으로 자주 사용되는 단어입니다. 문구에 스톱워드를 포함 시키면 중단 단어는 단어 장소 보유자로 해석됩니다." |
| 기능 단어 (Cook 1988) | 221 | ⇱ | “이 225 개 항목 목록은 얼마 전 학생 영어를위한 컴퓨터 파서에 대한 데이터로 실용적인 목적으로 편집되었습니다. |
| Okapi (gsl.sample) | 222 | ⇱ | 이 Okapi는 BM25 Okapi입니다. (참고 : 포함 된 스톱워드 텍스트 파일은 defs.h에 의해 정의 된대로 모든“f”“h”용어에서 나온다. 각 유형은 클래스 코드로 정의됩니다. |
| 눈덩이 (확장) | 227 | ⇱ | 참고 : 여기에는 "영어 중지 단어 목록. 아래의 많은 양식은 매우 드물지만 완전성을 위해 포함되어 있습니다." |
| datasciencebojo | 250 | ⇱ | 실시간 감정에 사용 azureml 데모가 모임을 위해 사용 |
| corenlp (stopwords.txt) | 257 | ⇱ | 참고 : "a", "an", "the", "and", "또는", ","but ","또는 "stoplist.java는 구두점 (!!, -lrb-…)도 포함되어 있습니다. |
| Okapiframework | 262 | ⇱ | 이것은 BM25의 Okapi가 아닙니다! (적어도 나는 그렇게 생각하지 않습니다) Okapi 프레임 워크에 사용 된이 목록은이 Okapi는 현지화 및 번역 Okapi입니다. |
| Azure Gallery | 310 | ⇱ | 약간 수정 된 글래스고 목록. |
| Atire (NCBI Medline) | 313 | ⇱ | NCBI WRD_STOP MEDLINE에서 추출한 313 용어의 단어 목록 중지 단어 목록. 그것의 사용은 제한되지 않습니다. 목록은 여기에서 다운로드 할 수 있습니다 |
| 가다 | 317 | ⇱ | 스톱워드 라이브러리로 이동하십시오. 이것은 '컴퓨터'가없는 글래스고 목록입니다. |
| Scikit-Learn | 318 | ⇱ | 글래스고 목록을 사용하지만“컴퓨터”라는 단어없이 |
| 글래스고 IR | 319 | ⇱ | 글래스고 정보 검색 그룹의 언어 자원. 이것의 많은 사본과 편집. EG : XPO6은 실수가 있습니다 - 자신 대신 'LF'예를 들어 : Herse "대신 인용이 있습니다. Google 검색에서 가장 큰 결과 중 하나로 나타납니다. |
| XPO6 | 319 | ⇱ | Humboldt Diglital Library 및 Network에서 사용되며 BlogPost에 문서화되어 있습니다. 글래스고 목록에서 파생 된 것 같습니다. |
| 스파이 | 326 | ⇱ | Stone, Denis, Kwantes (2010)에서 개선 된 목록 |
| 세대 | 337 | ⇱ | Spacy와 동일합니다 (Stone, Denis, Kwantes (2010)의 개선 된 목록) |
| Okapi (확장 GSL.CACM) | 339 | ⇱ | Okapi에서 CACM 목록을 확장했습니다 |
| C99 및 텍스트 링 | 371 | ⇱ | Freddy Choi가 작성한 세분화 알고리즘 C99 및 텍스트 링의 Java 구현을위한 UIMA 래퍼 |
| 갈고 (호중한) | 418 | ⇱ | Core/SRC/Main/Resources/Stopwords/Quancer 목록은 Indri 기본값과 동일합니다. |
| 인드리 | 418 | ⇱ | 여우 원숭이 프로젝트의 일부 |
| Onix & Lextek | 429 | ⇱ | 이 stopword 목록은 아마도 가장 널리 사용되는 Stopword 목록 일 것입니다. 너무 공격적이지 않고 사용자가 검색 할 수있는 너무 많은 단어를 포함하지 않고 다수의 스톱워드를 다룹니다. 이 단어 목록에는 429 단어가 포함되어 있습니다. |
| 게이트 (키 프레이즈 추출) | 452 | ⇱ | GATE KEYPHRASE 추출 알고리즘에 사용 된 StopWord |
| Zettair | 469 | ⇱ | Zettair는 RMIT University의 검색 엔진 그룹이 설계하고 작성하고 작곡 한 작고 빠른 텍스트 검색 엔진입니다. 한때 루시로 알려졌습니다. |
| Okapi (확장 GSL.sample) | 474 | ⇱ | okapi_sample.txt와 동일하지만 "i"용어가 있습니다 (기본 Okapi 동작은 아니지만 유용 할 수 있음) |
| 태포웨어 | 485 | ⇱ | Taporware Project, McMaster University -Modified Glasgow List - 0 ~ 100 및 1990 ~ 2020 (아마도 날짜)도 구두점을 포함합니다. |
| Voyant (Taporware) | 488 | ⇱ | Voyant는 기본적으로 타포웨어 목록을 사용합니다. 트롬본 레포에는 글래스고와 스마트 리소스도 있습니다. |
| 망치 | 524 | ⇱ | 기본 망치 스톱워드 목록. (스마트를 기반으로 생각합니다) 문서를 참조하십시오 |
| Weka | 526 | ⇱ | Bow (Rainbow, 똑똑한 Rainbow)이지만 Extra ll Ve가 추가 된 단어를 피하기 위해 추가하여 Mallet.txt와 거의 동일합니다. |
| MySQL (Myisam) | 543 | ⇱ | Myisam과 Innodb는 다른 스톱리스트를 사용합니다. 스마트하지만 수정되었습니다 |
| 갈고 (RMSTOP) | 565 | ⇱ | 일부 구두점, UTF8 문자, www, http, org, net, youtube, wikipedia 포함 |
| 케빈 부게 | 571 | ⇱ | Multilang은 Kevin Bougé가 편집 한 목록입니다. 영어는 똑똑합니다. |
| 똑똑한 | 571 | ⇱ | SMART (텍스트의 기계적 분석 및 검색을위한 시스템) 정보 검색 시스템은 1960 년대 Cornell University에서 개발 된 정보 검색 시스템입니다. |
| 연지 | 598 | ⇱ | Rouge 1.5.5 요약 평가 툴킷에 사용 된 확장 된 스마트 목록 - Reuters, AP, News, Tech, Index, 3 주일 및 월에 추가 단어가 포함되어 있습니다. |
| Tonybsk_1.txt | 635 | ⇱ | 알 수없는 원산지 - 나는 참조를 잃었다. |
| 스핑크스 검색 궁극 | 665 | ⇱ | Sphinx의 확장에는이 목록이 있습니다. |
| NL 순위 (대형) | 667 | ⇱ | Ranks.nl의 매우 긴 목록 |
| Tonybsk_6.txt | 671 | ⇱ | 알 수없는 원산지 - 나는 참조를 잃었다. |
| 테리어 | 733 | ⇱ | 테리어 검색 엔진 "스톱워드 목록은 stopwords.filename 속성에서로드 할 수 있습니다." |
| Atire (Puurula) | 988 | ⇱ | Atire에 포함 된 종이 참조 |
| alir3z4 | 1298 | ⇱ | 다양한 언어로 된 공통 중지 단어 목록. 영어 목록은 여러 출처에서 병합 된 것처럼 보입니다. |
참고 :
n , 빈 줄로 끝납니다. UTF8 인코딩.https://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/teaching/iws/tirsaa/sources/text_utilities.html
http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-mining.html
https://github.com/lintool/ir-reproduciety/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
Galago는 또한 "정지 문구"목록을 가지고 있습니다 : https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstructure
스마트 FTP 미러 : http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
다중 언어 스톱워드 (이미 위의 위의 표 중 하나) : https://sites.google.com/site/kevinbouge/stopwords-lists
여러 언어에 대한 자세한 내용 (이미 위의 위의 내용 중 하나) : https://code.google.com/archive/p/stop-words/
JSON의 50 개 언어에 대한 Stopwords (en is smart) : https://github.com/6/stopwords-json
여기에있는 것과 다른 가장 좋아하는 스톱워드 목록이 있습니까? 목록으로 텍스트 파일, en/ 폴더에서 줄 당 1 단어 및 en_stopwords.csv의 새 행