php text analysis下載 - php text analysis源代碼下載

php text analysis

其他源碼

Update Snowball Stemmer Library

下載

PHP文本分析

PHP文本分析是使用PHP語言執行信息檢索（IR）和自然語言處理（NLP）任務的庫。該庫中有一些可以執行的工具：

文檔分類
情感分析
比較文件
頻率分析
令牌化
莖
與點式互信息的搭配
詞彙多樣性
語料庫分析
文本摘要

該項目的所有文檔都可以在書籍和Wiki中找到。

PHP文本分析書和Wiki

一本書正在製作中，需要您的貢獻。您可以在https://github.com/yooper/php-text-analysis-book上找到這本書

另外，圖書館的文檔也位於Wiki中。 https://github.com/yooper/php-text-analysis/wiki

安裝說明

將PHP文本分析添加到您的項目

 composer require yooper/php-text-analysis

令牌化

 $ tokens = tokenize ( $ text );

您可以通過以Tokenizer類的名義自定義與令牌化的標記

 $ tokens = tokenize ( $ text ,  TextAnalysis  Tokenizers PennTreeBankTokenizer::class);

默認令牌是 textAnalysis tokenizers generalTokenizer :: class 。一些令牌需要在實例化時設置參數。

正常化

默認情況下， normalize_tokens使用功能strtolower來降低所有令牌。要自定義歸一化函數，請傳遞Array_map使用的函數或字符串。

 $ normalizedTokens = normalize_tokens (array $ tokens );

 $ normalizedTokens = normalize_tokens (array $ tokens , ' mb_strtolower ' );

$ normalizedTokens = normalize_tokens (array $ tokens , function ( $ token ){ return mb_strtoupper ( $ token ); });

頻率分佈

呼叫freq_dist返回一個freqdist實例。

 $ freqDist = freq_dist ( tokenize ( $ text ));

ngram生成

默認情況下，生成了bigrams。

 $ bigrams = ngrams ( $ tokens );

自定義ngrams

 // create trigrams with a pipe delimiter in between each word
$ trigrams = ngrams ( $ tokens , 3 , ' | ' );

莖

默認情況下，詞幹方法使用搬運工。

 $ stemmedTokens = stem ( $ tokens );

您可以通過以Stemmer類名的名稱傳遞來自定義哪種類型的Stemmer

 $ stemmedTokens = stem ( $ tokens ,  TextAnalysis  Stemmers MorphStemmer::class);

關鍵字提取物與耙子

有一種使用耙算法的捷徑方法。您需要在使用之前清潔數據。第二個參數是要提取的關鍵字的ngram大小。

 $ rake = rake ( $ tokens , 3 );
$ results = $ rake -> getKeywordScores ();

維達的情感分析

需要使用PHP使用Vader，https://github.com/cjhutto/vadersentiment進行情感分析。可以輕鬆調用PHP實現。只是將您的數據正常化。

 $ sentimentScores = vader ( $ tokens );

幼稚貝葉斯的文檔分類

需要使用PHP進行一些文檔分類，並嘗試使用Naive Bayes實現。可以在單位測試中找到分類電影評論的示例

 $ nb = naive_bayes ();
$ nb -> train ( ' mexican ' , tokenize ( ' taco nacho enchilada burrito ' ));        
$ nb -> train ( ' american ' , tokenize ( ' hamburger burger fries pop ' ));  
$ nb -> predict ( tokenize ( ' my favorite food is a burrito ' ));

展開

附加信息

版本 Update Snowball Stemmer Library
類型其他源碼
更新時間 2025-04-19
大小 854.18KB
來自於 Github

相關應用

Text With Jesus漢化

2023-08-23
與耶穌發簡訊

2023-08-17
Text With Jesus中文版

2023-08-17
發短信或死亡

2023-07-03
RTE（富文本編輯器）ASP.NET

2011-05-25
PHP文字交換鏈(Text Link Exchange)

2009-04-29

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部