ดาวน์โหลด php text analysis - การ php text analysis ดาวน์โหลดซอร์สโค้ด

php text analysis

ซอร์สโค้ดอื่น ๆ

Update Snowball Stemmer Library

ดาวน์โหลด

การวิเคราะห์ข้อความ PHP

การวิเคราะห์ข้อความ PHP เป็นห้องสมุดสำหรับการดำเนินการดึงข้อมูล (IR) และงานการประมวลผลภาษาธรรมชาติ (NLP) โดยใช้ภาษา PHP มีเครื่องมือในห้องสมุดนี้ที่สามารถดำเนินการได้:

การจำแนกเอกสาร
การวิเคราะห์ความเชื่อมั่น
เปรียบเทียบเอกสาร
การวิเคราะห์ความถี่
การทำให้โทเค็น
ที่เกิด
การจัดวางที่มีข้อมูลร่วมกันแบบ pointwise
ความหลากหลายของคำศัพท์
การวิเคราะห์คลังข้อมูล
การสรุปข้อความ

เอกสารทั้งหมดสำหรับโครงการนี้สามารถพบได้ในหนังสือและวิกิ

PHP Text Analysis Book & Wiki

หนังสืออยู่ในผลงานและจำเป็นต้องมีส่วนร่วมของคุณ คุณสามารถค้นหาหนังสือได้ที่ https://github.com/yooper/php-text-analysis-book

นอกจากนี้เอกสารสำหรับห้องสมุดยังอยู่ในวิกิเช่นกัน https://github.com/yooper/php-text-analysis/wiki

คำแนะนำการติดตั้ง

เพิ่มการวิเคราะห์ข้อความ PHP ในโครงการของคุณ

 composer require yooper/php-text-analysis

การทำให้โทเค็น

 $ tokens = tokenize ( $ text );

คุณสามารถปรับแต่ง tokenizer ประเภทใดที่เป็น tokenize ด้วยการผ่านในชื่อของคลาส tokenizer

 $ tokens = tokenize ( $ text ,  TextAnalysis  Tokenizers PennTreeBankTokenizer::class);

tokenizer เริ่มต้นคือ textanalysis tokenizers GeneralTokenizer :: คลาส tokenizers บางตัวต้องการพารามิเตอร์ที่จะตั้งค่าเมื่ออินสแตนซ์

การทำให้เป็นมาตรฐาน

โดยค่าเริ่มต้น Normalize_tokens ใช้ฟังก์ชัน strtoLower เพื่อลดระดับโทเค็นทั้งหมด ในการปรับแต่งฟังก์ชั่นปกติให้ส่งผ่านฟังก์ชันหรือสตริงที่จะใช้โดย array_map

 $ normalizedTokens = normalize_tokens (array $ tokens );

 $ normalizedTokens = normalize_tokens (array $ tokens , ' mb_strtolower ' );

$ normalizedTokens = normalize_tokens (array $ tokens , function ( $ token ){ return mb_strtoupper ( $ token ); });

การแจกแจงความถี่

การโทรไปยัง freq_dist ส่งคืนอินสแตนซ์ freqdist

 $ freqDist = freq_dist ( tokenize ( $ text ));

รุ่น Ngram

โดยค่าเริ่มต้น bigrams จะถูกสร้างขึ้น

 $ bigrams = ngrams ( $ tokens );

ปรับแต่ง ngrams

 // create trigrams with a pipe delimiter in between each word
$ trigrams = ngrams ( $ tokens , 3 , ' | ' );

ที่เกิด

โดยวิธีการเริ่มต้นของต้นกำเนิดจะใช้สเตมเมอร์พอร์เตอร์

 $ stemmedTokens = stem ( $ tokens );

คุณสามารถปรับแต่งประเภทของ stemmer ที่จะใช้โดยผ่านชื่อของชื่อคลาส Stemmer

 $ stemmedTokens = stem ( $ tokens ,  TextAnalysis  Stemmers MorphStemmer::class);

สารสกัดคำหลักด้วย rake

มีวิธีตัดสั้นสำหรับการใช้อัลกอริทึม Rake คุณจะต้องทำความสะอาดข้อมูลของคุณก่อนที่จะใช้ พารามิเตอร์ที่สองคือขนาด ngram ของคำหลักของคุณที่จะแยก

 $ rake = rake ( $ tokens , 3 );
$ results = $ rake -> getKeywordScores ();

การวิเคราะห์ความเชื่อมั่นกับเวเดอร์

ต้องการการวิเคราะห์ความเชื่อมั่นด้วย PHP ใช้ Vader, https://github.com/cjhutto/vadersentiment การใช้งาน PHP สามารถเรียกใช้ได้อย่างง่ายดาย เพียงแค่ทำให้ข้อมูลของคุณเป็นปกติก่อนถึงมือ

 $ sentimentScores = vader ( $ tokens );

การจำแนกเอกสารด้วย Bayes ไร้เดียงสา

จำเป็นต้องทำการจำแนกเอกสารด้วย PHP พยายามใช้การใช้งาน Naive Bayes ตัวอย่างของการจำแนกรีวิวภาพยนตร์สามารถพบได้ในการทดสอบหน่วย

 $ nb = naive_bayes ();
$ nb -> train ( ' mexican ' , tokenize ( ' taco nacho enchilada burrito ' ));        
$ nb -> train ( ' american ' , tokenize ( ' hamburger burger fries pop ' ));  
$ nb -> predict ( tokenize ( ' my favorite food is a burrito ' ));

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน Update Snowball Stemmer Library
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-19
ขนาด 854.18KB
มาจาก Github

แอปที่เกี่ยวข้อง

ข้อความกับพระเยซูจีน

2023-08-23
ข้อความกับพระเยซู

2023-08-17
ข้อความกับพระเยซูเวอร์ชั่นภาษาจีน

2023-08-17
ข้อความหรือตาย

2023-07-03
RTE (ตัวแก้ไข Rich Text) ASP.NET

2011-05-25
แลกเปลี่ยนลิงค์ข้อความ PHP

2009-04-29

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด