การกรองคำหยุดเป็นขั้นตอนทั่วไปในการประมวลผลข้อความล่วงหน้าเพื่อวัตถุประสงค์ต่าง ๆ นี่คือรายการของรายการคำพูดที่แตกต่างกันหลายรายการที่แยกออกมาจากเครื่องมือค้นหาห้องสมุดและบทความต่างๆ มีจำนวนรายการต่าง ๆ ที่น่าประหลาดใจ
ในขณะนี้มันเป็นเพียงคำพูดภาษาอังกฤษ
| ไฟล์ | ขนาด | แหล่งที่มา | คำอธิบาย |
|---|---|---|---|
| ไม่มี | 0 | ไม่มีการถอดคำหยุด | |
| สฟิงซ์ | 0 | Sphinx เป็นเซิร์ฟเวอร์การค้นหาโอเพ่นซอร์ส Google Search Top สำหรับ Sphinx Stopwords ยังนำไปสู่สองรายการที่รวบรวมด้วยตนเอง http://astellar.com/2011/12/stopwords-for-sphinx-search/ ซึ่งขึ้นอยู่กับโพสต์ของผู้เขียนบล็อก | |
| Ebscohost | 24 | คำหยุดที่ใช้ในฐานข้อมูลทางการแพทย์ Ebscohost Medline และ Cinahl | |
| Corenlp (hardcoded) | 28 | Hardcoded ใน SRC/EDU/Stanford/NLP/COREF/DATA/WORDLISTS.JAVA และเดียวกันใน SRC/EDU/Stanford/NLP/DCOREF/DICTIONARIES.JAVA | |
| อันดับ NL (Google) | 32 | รายการคำพูดสั้น ๆ ด้านล่างขึ้นอยู่กับสิ่งที่เราเชื่อว่าเป็น Google Stopwords เมื่อสิบปีก่อนตามคำที่ถูกเพิกเฉยหากคุณจะค้นหาพวกเขาร่วมกับคำอื่น (เช่นในวลี "คำหลัก") | |
| Lucene, Solr, Elastisearch | 33 | (หมายเหตุ: ไฟล์กำหนดค่าบางไฟล์มี 's' และ 't' เป็นคำสั่งพิเศษ) ชุดที่ไม่สามารถแก้ไขได้ซึ่งมีคำภาษาอังกฤษทั่วไปบางคำที่ไม่ได้มีประโยชน์สำหรับการค้นหา | |
| MySQL (InnoDB) | 36 | คำที่ใช้โดยค่าเริ่มต้นเป็นคำหยุดสำหรับดัชนี fulltext บนตาราง innoDB ไม่ได้ใช้หากคุณแทนที่การประมวลผลคำหยุดเริ่มต้นด้วยทั้ง InnoDB_FT_SERVER_STOPWORD_TABLE หรือตัวเลือก innoDB_FT_USER_STOPWORD_TABLE | |
| Ovid (บริการข้อมูลทางการแพทย์) | 39 | คำพูดของความหมายที่แท้จริงเล็กน้อยที่เกิดขึ้นบ่อยเกินไปที่จะเป็นประโยชน์ในการค้นหาข้อความเรียกว่า "คำสั่ง" คุณไม่สามารถค้นหาคำหยุดต่อไปนี้ด้วยตัวเอง แต่คุณสามารถรวมไว้ในวลี | |
| Bow (Libbow, Rainbow, Arrow, Crossbow) | 48 | Bow: ชุดเครื่องมือสำหรับการสร้างแบบจำลองภาษาสถิติการดึงข้อความการจำแนกและการจัดกลุ่ม รายการสั้น ๆ hardcoded นอกจากนี้ยังรวมถึง 524 รายการที่ได้มาจากอัจฉริยะเช่นเดียวกับค้อน ดู http://www.cs.cmu.edu/~mccallum/bow/rainbow/ | |
| Lingpipe | 76 | EnglishStopTokenizerFactory ใช้รายการหยุดภาษาอังกฤษกับโรงงาน Tokenizer ฐานที่มีอยู่ | |
| Vowpal Wabbit (Doc2lda) | 83 | คำพูดที่ใช้ในตัวอย่าง LDA | |
| Text Analytics 101 | 85 | รายการน้อยที่สุดที่รวบรวมโดย Kavita Ganesan ประกอบด้วยตัวกำหนด, การประสานงานร่วมกันและคำบุพบท | |
| Lexisnexis® | 100 | “ ต่อไปนี้เป็น 'คำเสียงรบกวน' และไม่เคยค้นหาได้เลย: แทบจะไม่เป็นเช่นนั้นและไม่ ได้แก่ อื่น ๆ คนอื่น ๆ เป็น 'คำหลักที่มีเสียงดัง' และสามารถค้นหาได้โดยการปิดล้อมพวกเขาในราคา” | |
| okapi (gsl.cacm) | 108 | CACM เฉพาะสต็อปลิสต์จาก okapi | |
| ผู้เขียนข้อความ | 119 | จาก textfixer.com เชื่อมโยงจากหน้า wiki ในคำหยุด | |
| dkpro | 127 | PostgreSQL (สโนว์บอลที่ได้มา) | |
| Postgres | 127 | “ หยุดคำเป็นคำที่พบได้ทั่วไปปรากฏในเกือบทุกเอกสารและไม่มีค่าการเลือกปฏิบัติ” | |
| PubMed ช่วยด้วย | 133 | ระบุไว้ในหน้าช่วยเหลือ PubMed | |
| Corenlp (ตัวย่อ) | 150 | ชุดของคำที่ควรพิจารณาคำหยุดสำหรับตัวย่อตัวย่อ | |
| nltk | 153 | ตามอีเมล Van Rij Sbergen (1979) "การดึงข้อมูล" (Butterworths, London) มันขยายตัวเล็กน้อยจาก postgres postgreSql.txt ซึ่งยืมมาจากสโนว์บอลน่าจะเป็น | |
| Spark ML lib | 153 | (หมายเหตุ: เหมือนกับ NLTK) พวกเขาได้รับจาก postgres รายการภาษาอังกฤษได้รับการเพิ่ม | |
| MongoDB | 174 | commit บอกว่า 'เปลี่ยนไฟล์หยุดคำไปยังรายการหยุดสโนว์บอล' | |
| ควอนตัส | 174 | มีรายการเริ่มต้นสมาร์ทและสโนว์บอล แหล่งที่มา | |
| อันดับ NL (ค่าเริ่มต้น) | 174 | (หมายเหตุ: เหมือนกับสต็อปลิสต์สโนว์บอลเริ่มต้น แต่ Ranksnl มักอ้างถึงเป็นแหล่งที่มา)“ รายการนี้ใช้ใน [อันดับ NL] Analyzer และ Analyzer บทความสำหรับข้อความภาษาอังกฤษเมื่อคุณปล่อยให้ใช้รายการคำสั่งหยุดเริ่มต้น” | |
| สโนว์บอล (ดั้งเดิม) | 174 | สโนว์บอลสโนว์บอลเริ่มต้น | |
| Xapian | 174 | (หมายเหตุ: ใช้คำหยุดสโนว์บอล)“ มันเป็นแบบดั้งเดิมในการตั้งค่าระบบ IR เพื่อทิ้งคำที่พบบ่อยที่สุดของภาษา - คำหยุด - ระหว่างการจัดทำดัชนี” | |
r tm | 174 | แพ็คเกจ R tm ใช้รายการสโนว์บอลและยังมีความฉลาด | |
| 99webtools | 183 | “ หยุดคำเป็นคำที่ไม่มีความสำคัญที่จะใช้ในการค้นหาคำค้นหาเครื่องมือค้นหาส่วนใหญ่กรองคำเหล่านี้จากคำค้นหาก่อนทำการค้นหาสิ่งนี้จะช่วยปรับปรุงประสิทธิภาพ” | |
| deeplearning4j | 194 | DL4J stopwords อยู่ใน 2 สถานที่ - stopwords และ stopwords.txt อาจได้มาจากสโนว์บอล บางอย่างผิดปกติบางอย่างเช่น: ----s | |
| Reuters Web of Science ™ | 211 | “ คำพูดเป็นเรื่องธรรมดาใช้คำที่ใช้บ่อยเช่นบทความ (a, an, the), คำบุพบท (ของ, ใน, สำหรับ, ผ่าน) และคำสรรพนาม (มัน, ของเขา, ของเขา) ที่ไม่สามารถค้นหาเป็นคำแต่ละคำในหัวข้อและชื่อเรื่องถ้าคุณรวมคำหยุดในวลี | |
| ฟังก์ชั่นคำ (Cook 1988) | 221 | “ รายการ 225 รายการนี้ถูกรวบรวมเพื่อวัตถุประสงค์ในทางปฏิบัติเมื่อไม่นานมานี้เป็นข้อมูลสำหรับตัวแยกวิเคราะห์คอมพิวเตอร์สำหรับนักเรียนภาษาอังกฤษ | |
| okapi (gsl.sample) | 222 | okapi นี้คือ bm25 okapi (หมายเหตุ: รวมไฟล์ข้อความหยุดคำว่ามาจากข้อกำหนด“ F”“ H” ทั้งหมดตามที่กำหนดโดย defs.h) ไฟล์ GSL มีข้อกำหนดที่จะต้องจัดการด้วยวิธีพิเศษโดยกระบวนการจัดทำดัชนี แต่ละประเภทถูกกำหนดโดยรหัสคลาส | |
| สโนว์บอล (ขยาย) | 227 | หมายเหตุ: ซึ่งรวมถึงคำพิเศษที่กล่าวถึงในความคิดเห็น“ รายการคำหยุดภาษาอังกฤษหลายรูปแบบด้านล่างนั้นค่อนข้างหายาก (เช่น 'ตัวคุณเอง') แต่รวมอยู่ด้วยความสมบูรณ์” | |
| DataSciencedojo | 250 | ใช้ในการสาธิต Azureml แบบเรียลไทม์สำหรับการพบปะสังสรรค์ | |
| corenlp (stopwords.txt) | 257 | หมายเหตุ: "a", "an", ",", "และ", "หรือ", "แต่", "หรือ" hardcoded ใน stoplist.java ยังรวมถึงเครื่องหมายวรรคตอน (!!, -lrb- …) | |
| okapiframework | 262 | นี่ไม่ใช่ okapi ของ BM25! (อย่างน้อยฉันก็ไม่คิดอย่างนั้น) รายการนี้ใช้ใน Okapi Framework Okapi นี้คือการแปลและการแปล Okapi | |
| Azure Gallery | 310 | รายการกลาสโกว์ดัดแปลงเล็กน้อย | |
| Atire (NCBI Medline) | 313 | NCBI WRD_STOP รายการคำหยุดของ 313 คำศัพท์ที่สกัดจาก MEDLINE การใช้งานไม่ จำกัด สามารถดาวน์โหลดรายการได้จากที่นี่ | |
| ไป | 317 | ไปห้องสมุด stopwords นี่คือรายการกลาสโกว์ที่ไม่มี 'คอมพิวเตอร์' 'ฉัน' 'หนา' - มี 'หนา' | |
| Scikit-learn | 318 | ใช้รายการกลาสโกว์ แต่ไม่มีคำว่า "คอมพิวเตอร์" | |
| กลาสโกว์ IR | 319 | ทรัพยากรทางภาษาจากกลุ่มดึงข้อมูลกลาสโกว์ สำเนาและการแก้ไขจำนวนมากนี้ เช่น: XPO6 มีข้อผิดพลาด - มีการอ้างถึงแทน 'LF' เช่น: herse "แทนที่จะเป็นตัวเธอเอง - มาเป็นหนึ่งในผลลัพธ์สูงสุดในการค้นหาของ Google | |
| XPO6 | 319 | ใช้ในไลบรารี Humboldt Diglital และเครือข่ายและบันทึกไว้ใน BlogPost น่าจะได้มาจากรายการกลาสโกว์ | |
| เครื่องราง | 326 | ปรับปรุงรายการจาก Stone, Denis, Kwantes (2010) Paper | |
| เครื่องถ่อมตัว | 337 | เหมือนกับ Spacy (รายการปรับปรุงจาก Stone, Denis, Kwantes (2010)) | |
| Okapi (ขยาย GSL.CACM) | 339 | เพิ่มรายการ CACM จาก okapi | |
| C99 และ texttiling | 371 | UIMA wrapper สำหรับการใช้งาน Java ของอัลกอริทึมการแบ่งส่วน C99 และ Texttiling เขียนโดย Freddy Choi | |
| Galago (สอบถาม) | 418 | รายการหลัก/src/main/resources/stopwords/การสอบถามเป็นเช่นเดียวกับค่าเริ่มต้นของ Indri | |
| ชาวอินรี | 418 | ส่วนหนึ่งของโครงการ Lemur | |
| Onix & Lextek | 429 | รายการคำพูดนี้น่าจะเป็นรายการคำสั่งที่ใช้กันอย่างแพร่หลายที่สุด มันครอบคลุมคำหยุดจำนวนมากโดยไม่ก้าวร้าวเกินไปและรวมถึงคำมากเกินไปซึ่งผู้ใช้อาจค้นหา รายการคำนี้มี 429 คำ | |
| GATE (การแยกกุญแจ) | 452 | คำพูดที่ใช้ในอัลกอริทึมการแยกคีย์ | |
| กอง Zettair | 469 | Zettair เป็นเครื่องมือค้นหาข้อความขนาดกะทัดรัดและรวดเร็วที่ออกแบบและเขียนโดยกลุ่มเครื่องมือค้นหาที่ RMIT University ครั้งหนึ่งเคยเป็นที่รู้จักกันในนามลูซี่ | |
| okapi (ขยาย GSL.sample) | 474 | เหมือนกับ okapi_sample.txt แต่มีคำว่า "ฉัน" (ไม่ใช่พฤติกรรม okapi เริ่มต้น! แต่อาจมีประโยชน์) | |
| เครื่องราง | 485 | โครงการ Taporware, McMaster University - Modified Glasgow List - รวมตัวเลข 0 ถึง 100 และ 1990 ถึง 2020 (สำหรับวันที่น่าจะเป็นเครื่องหมายวรรคตอน | |
| Voyant (Taporware) | 488 | Voyant ใช้รายการ taporware ตามค่าเริ่มต้นรวมถึงเจ้าพิเศษเจ้าของเจ้า - น่าจะเป็นของเชคสเปียร์คลังข้อมูล ทรอมโบน repo ยังมีกลาสโกว์และสมาร์ทในทรัพยากร | |
| ตะลุมพุก | 524 | รายการคำสั่ง mallet เริ่มต้น (ตามสมาร์ทฉันคิดว่า) ดูเอกสาร | |
| Weka | 526 | เช่น Bow (Rainbow ซึ่งฉลาด) แต่มีการเพิ่มเป็นพิเศษเพื่อหลีกเลี่ยงคำเช่นคุณฉัน ฯลฯ เกือบจะเหมือนกับ mallet.txt | |
| mysql (myisam) | 543 | Myisam และ Innodb ใช้สต็อปลิสต์ที่แตกต่างกัน นำมาจากอัจฉริยะ แต่ดัดแปลง | |
| Galago (RMSTOP) | 565 | รวมถึงเครื่องหมายวรรคตอน, อักขระ UTF8, www, http, org, net, youtube, wikipedia | |
| Kevin Bougé | 571 | รายการ Multilang ที่รวบรวมโดย Kevin Bougé ภาษาอังกฤษฉลาด | |
| ปราดเปรื่อง | 571 | SMART (ระบบสำหรับการวิเคราะห์เชิงกลและการดึงข้อความ) ระบบดึงข้อมูลเป็นระบบดึงข้อมูลที่พัฒนาขึ้นที่ Cornell University ในปี 1960 | |
| รูจ | 598 | Extended Smart List ที่ใช้ในชุดเครื่องมือประเมินผลสรุป Rouge 1.5.5 - รวมคำเพิ่มเติม: สำนักข่าวรอยเตอร์, AP, ข่าว, เทคโนโลยี, ดัชนี, 3 วันจดหมายของสัปดาห์และเดือน | |
| tonybsk_1.txt | 635 | แหล่งกำเนิดที่ไม่รู้จัก - ฉันสูญเสียการอ้างอิง | |
| การค้นหาสฟิงซ์ Ultimate | 665 | ส่วนขยายสำหรับสฟิงซ์มีรายการนี้ | |
| อันดับ NL (ใหญ่) | 667 | รายการที่ยาวมากจาก ranks.nl | |
| tonybsk_6.txt | 671 | แหล่งกำเนิดที่ไม่รู้จัก - ฉันสูญเสียการอ้างอิง | |
| เทอร์เรีย | 733 | Terrier Retrieval Engine“ รายการคำหยุดที่จะโหลดสามารถโหลดได้จากคุณสมบัติ sopwords.filename” | |
| Atire (puurula) | 988 | รวมอยู่ใน Atire ดูกระดาษ | |
| alir3z4 | 1298 | รายการคำหยุดทั่วไปในภาษาต่างๆ รายการภาษาอังกฤษดูเหมือนว่าจะถูกรวมเข้าด้วยกันจากหลายแหล่ง |
หมายเหตุ:
n จบด้วยเส้นเปล่า UTF8 เข้ารหัสhttps://en.wikipedia.org/wiki/stop_words
http://members.unine.ch/jacques.savoy/clef/
http://research.nii.ac.jp/ntcir/tools/tools-en.html
http://www.cs.uml.edu/~haim/teaching/iws/tirsaa/sources/text_utilities.html
http://text-analytics101.rxnlp.com/2014/10/all-about-stop-words-for-text-mining.html
https://github.com/lintool/ir-reproducibility/tree/master/systems
http://www.umiacs.umd.edu/~oard/teaching/734/fall15/software.html
Galago ยังมีรายการ "หยุดวลี": https://sourceforge.net/p/lemur/galago/ci/default/tree/core/src/main/resources/stopwords/stopstructure
Smart FTP Mirror: http://ftp.gnome.org/mirror/archive/ftp.sunet.se/pub/databases/full-text/smart/
คำหยุดภาษาหลายภาษา (en หนึ่งในตารางข้างต้นแล้ว): https://sites.google.com/site/kevinbouge/stopwords-lists
เพิ่มเติมสำหรับหลายภาษา (EN หนึ่งในตารางข้างต้นอยู่แล้ว): https://code.google.com/archive/p/stop-words/
คำพูดสำหรับ 50 ภาษาใน JSON (en เป็นอัจฉริยะ): https://github.com/6/stopwords-json
คุณมีรายการคำพูดที่ชื่นชอบที่แตกต่างจากที่นี่หรือไม่? ส่งคำขอดึงพร้อมรายการของคุณเป็นไฟล์ข้อความ 1 คำต่อบรรทัดใน EN/ โฟลเดอร์และแถวใหม่ใน EN_STOPWORDS.CSV