Download php text analysis - php text analysis Download do código fonte

php text analysis

Outro código-fonte

Update Snowball Stemmer Library

Baixar

Análise de texto PHP

A análise de texto PHP é uma biblioteca para executar tarefas de recuperação de informações (IR) e processamento de linguagem natural (PNL) usando o idioma PHP. Existem ferramentas nesta biblioteca que podem executar:

Classificação de documentos
Análise de sentimentos
Compare documentos
Análise de frequência
tokenização
Stemming
Colocações com informações mútuas pontuais
Diversidade lexical
Análise de corpus
Resumo do texto

Toda a documentação para este projeto pode ser encontrada no livro e na wiki.

Livro de Análise de Texto PHP e Wiki

Um livro está em andamento e suas contribuições são necessárias. Você pode encontrar o livro em https://github.com/yooper/php-text-analysis-book

Além disso, a documentação para a biblioteca também reside no wiki. https://github.com/yooper/php-text-analysis/wiki

Instruções de instalação

Adicione a análise de texto PHP ao seu projeto

 composer require yooper/php-text-analysis

Tokenização

 $ tokens = tokenize ( $ text );

Você pode personalizar com qual tipo de tokenizer tokenize, passando o nome da classe Tokenizer

 $ tokens = tokenize ( $ text ,  TextAnalysis  Tokenizers PennTreeBankTokenizer::class);

O tokenizer padrão é textanálise tokenizers generalTokenizer :: Class . Alguns tokenizadores exigem que os parâmetros sejam definidos após a instanciação.

Normalização

Por padrão, o normalize_tokens usa a função strTolower para baixar todos os tokens. Para personalizar a função Normalizar, passe em uma função ou em uma string a ser usada pelo Array_Map.

 $ normalizedTokens = normalize_tokens (array $ tokens );

 $ normalizedTokens = normalize_tokens (array $ tokens , ' mb_strtolower ' );

$ normalizedTokens = normalize_tokens (array $ tokens , function ( $ token ){ return mb_strtoupper ( $ token ); });

Distribuições de frequência

A chamada para FREQ_DIST retorna uma instância freqdist.

 $ freqDist = freq_dist ( tokenize ( $ text ));

Geração Ngram

Por padrão, os bigrams são gerados.

 $ bigrams = ngrams ( $ tokens );

Personalize os ngrams

 // create trigrams with a pipe delimiter in between each word
$ trigrams = ngrams ( $ tokens , 3 , ' | ' );

Stemming

Por padrão, o método STEM usa o porter Stemmer.

 $ stemmedTokens = stem ( $ tokens );

Você pode personalizar qual tipo de Stemmer usar, passando o nome do nome da classe STEMMER

 $ stemmedTokens = stem ( $ tokens ,  TextAnalysis  Stemmers MorphStemmer::class);

Extrato de palavra -chave com ancinho

Existe um método de atalho para usar o algoritmo de ancinho. Você precisará limpar seus dados antes de usar. O segundo parâmetro é o tamanho do Ngram de suas palavras -chave para extrair.

 $ rake = rake ( $ tokens , 3 );
$ results = $ rake -> getKeywordScores ();

Análise de sentimentos com Vader

Precisa de análise de sentimentos com PHP Use Vader, https://github.com/cjhutto/vadersentiment. A implementação do PHP pode ser invocada facilmente. Apenas normalize seus dados antes da mão.

 $ sentimentScores = vader ( $ tokens );

Classificação de documentos com Bayes ingênuo

Precisa fazer alguma classificação de documentos com PHP, tentando usar a implementação ingênua de Bayes. Um exemplo de classificação de críticas de filmes pode ser encontrado nos testes de unidade

 $ nb = naive_bayes ();
$ nb -> train ( ' mexican ' , tokenize ( ' taco nacho enchilada burrito ' ));        
$ nb -> train ( ' american ' , tokenize ( ' hamburger burger fries pop ' ));  
$ nb -> predict ( tokenize ( ' my favorite food is a burrito ' ));

Expandir

Informações adicionais

Versão Update Snowball Stemmer Library
Tipo Outro código-fonte
Data da Última Atualização 2025-04-19
tamanho 854.18KB
Vindo de Github

Aplicativos Relacionados

Texto com Jesus chinês

2023-08-23
Texto com Jesus

2023-08-17
Texto com Jesus versão chinesa

2023-08-17
Texto ou Morra

2023-07-03
RTE (Editor de Rich Text) ASP.NET

2011-05-25
Troca de link de texto PHP

2009-04-29

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos