Download de jieba php - jieba php Download de código fonte

Jieba-php

Segmentação de palavras chinesa "gagueira": seja o melhor componente de segmentação de palavras chinesas PHP e segmentação de palavras chinesas. A versão de tradução atual é a versão Jieba-0.33. No futuro, ele será atualizado lentamente e o desempenho precisa ser aprimorado. Os desenvolvedores interessados devem unir o desenvolvimento! Se você quiser usar a versão Python, vá para fxsjy/jieba

O chinês tradicional agora pode ser suportado! Basta mudar o dicionário para o Big Mode!

"Jieba" (chinês para "para gaguejar") Segmentação de texto chinesa: construído para ser o melhor módulo de segmentação de palavras chinesas PHP.

Role para baixo para obter documentação em inglês.

Exibição online

URL do site: http://jieba-php.fukuball.com
Código fonte do site: https://github.com/fukuball/jieba-php.fukuball.com

Recurso

Suporta modos de particípio de três palavras:
1) modo de precisão padrão, tentando cortar frases com mais precisão, adequado para análise de texto;
2) Padrão completo, digitalize todas as palavras na frase que podem ser baseadas em palavras, mas não podem resolver a ambiguidade. (Adicionar dicionário suficiente é necessário)
1. O modo de mecanismo de pesquisa, com base no modo preciso, divide as palavras longas novamente para melhorar a taxa de recall, é adequada para a segmentação de palavras do mecanismo de pesquisa.
Suporte verbo tradicional verbo
Suporta dicionário personalizado

Uso

Instalação automática: Após a instalação usando o Composer, referência através do AUTOLOAD

Exemplo de código

composer require fukuball/jieba-php:dev-master

Exemplo de código

 require_once " /path/to/your/vendor/autoload.php " ;

Instalação manual: Depois de colocar o Jieba-Php no diretório apropriado, faça referência a requer_once

Exemplo de código

 require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;

Algoritmo

Com base na estrutura da árvore da trie, a varredura de gráficos de palavras eficientes é alcançada para gerar gráfico acíclico direcionado (DAG) composto por todas as situações possíveis de formação de palavras em caracteres chineses em frases.
A programação dinâmica é usada para encontrar o caminho máximo de probabilidade para encontrar a combinação máxima de fatiamento com base na frequência de palavras
Para palavras não gerais, foi utilizado um modelo HMM baseado na capacidade de fazer palavras chinesas, e o algoritmo Viterbi foi usado.
BEMS Explicação FXSJY/JIEBA#7

Interface

O componente fornece apenas o método jieba.cut para segmentação de palavras
O método de corte aceita dois parâmetros de entrada: 1) O primeiro parâmetro é a sequência que requer segmentação de palavras 2) O parâmetro Cut_All é usado para controlar o modo de segmentação de palavras
A string a ser participante pode ser uma string utf-8
A estrutura retornada por Jieba.cut é uma matriz iterável

Função 1): Particípio da palavra

O método cut aceita um parâmetro de entrada: 1) O primeiro parâmetro é a sequência que requer segmentação de palavras 2) O parâmetro Cut_All é usado para controlar o padrão de segmentação de palavras
O método cutForSearch aceita um parâmetro: uma string que requer segmentação de palavras. Este método é adequado para os mecanismos de pesquisa construir segmentação de palavras indexadas invertidas, com uma granularidade relativamente fina
Nota: A string a ser participante é a string UTF-8
A estrutura retornada por cut e cutForSearch é uma matriz iterável

Exemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ();
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "我来到北京清华大学" , true );
var_dump ( $ seg_list ); #全模式

$ seg_list = Jieba:: cut ( "我来到北京清华大学" , false );
var_dump ( $ seg_list ); #默認精確模式

$ seg_list = Jieba:: cut ( "他来到了网易杭研大厦" );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cutForSearch ( "小明硕士毕业于中国科学院计算所，后在日本京都大学深造" ); #搜索引擎模式
var_dump ( $ seg_list );

Saída:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Full Mode:
array ( 15 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 3 ) "来"
  [ 2 ]=>
  string( 6 ) "来到"
  [ 3 ]=>
  string( 3 ) "到"
  [ 4 ]=>
  string( 3 ) "北"
  [ 5 ]=>
  string( 6 ) "北京"
  [ 6 ]=>
  string( 3 ) "京"
  [ 7 ]=>
  string( 3 ) "清"
  [ 8 ]=>
  string( 6 ) "清华"
  [ 9 ]=>
  string( 12 ) "清华大学"
  [ 10 ]=>
  string( 3 ) "华"
  [ 11 ]=>
  string( 6 ) "华大"
  [ 12 ]=>
  string( 3 ) "大"
  [ 13 ]=>
  string( 6 ) "大学"
  [ 14 ]=>
  string( 3 ) "学"
}

Default Mode:
array ( 4 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 6 ) "北京"
  [ 3 ]=>
  string( 12 ) "清华大学"
}
array ( 6 ) {
  [ 0 ]=>
  string( 3 ) "他"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 3 ) "了"
  [ 3 ]=>
  string( 6 ) "网易"
  [ 4 ]=>
  string( 6 ) "杭研"
  [ 5 ]=>
  string( 6 ) "大厦"
}
(此處，“杭研“並沒有在詞典中，但是也被 Viterbi 算法識別出來了)

Search Engine Mode:
array ( 18 ) {
  [ 0 ]=>
  string( 6 ) "小明"
  [ 1 ]=>
  string( 6 ) "硕士"
  [ 2 ]=>
  string( 6 ) "毕业"
  [ 3 ]=>
  string( 3 ) "于"
  [ 4 ]=>
  string( 6 ) "中国"
  [ 5 ]=>
  string( 6 ) "科学"
  [ 6 ]=>
  string( 6 ) "学院"
  [ 7 ]=>
  string( 9 ) "科学院"
  [ 8 ]=>
  string( 15 ) "中国科学院"
  [ 9 ]=>
  string( 6 ) "计算"
  [ 10 ]=>
  string( 9 ) "计算所"
  [ 11 ]=>
  string( 3 ) "后"
  [ 12 ]=>
  string( 3 ) "在"
  [ 13 ]=>
  string( 6 ) "日本"
  [ 14 ]=>
  string( 6 ) "京都"
  [ 15 ]=>
  string( 6 ) "大学"
  [ 16 ]=>
  string( 18 ) "日本京都大学"
  [ 17 ]=>
  string( 6 ) "深造"
}

Função 2): Adicione um dicionário personalizado

Os desenvolvedores podem especificar seu próprio dicionário personalizado para incluir palavras que não estão no vocabulário Jieba. Embora Jieba tenha a capacidade de reconhecer novas palavras, adicionar novas palavras por conta própria pode garantir maior precisão
Uso: Jieba :: loadUserdict (file_name) # file_name é o caminho absoluto para um dicionário personalizado
O formato do dicionário é o mesmo que o dict.txt, e uma palavra ocupa uma linha; Cada linha é dividida em três partes, uma parte da palavra, uma parte da palavra e uma parte da palavra, separada por espaços.
exemplo:
Computação em nuvem 5 n li xiaofu 2 n Office de inovação 3 n
Anteriormente: Li Xiaofu/Sim/Innovation/Office/Diretor/Yes/Yes/Cloud/Computação/Evidência/Após Carregar o Thesaurus Custom: Li Xiaofu/Sim/Innovation/Office/Diretor/Sim/Sim/Sim/Cloud/Evidência/

Descrição: "Aprimore a correção de erros de ambiguidade através do dicionário definido pelo usuário" --- fxsjy/jieba#14

Dicionário personalizado: https://github.com/fukuball/jieba-php/blob/master/src/dict/user_dict.txt

Função 3): Extração de palavras -chave

Jiebaanalyse :: ExtractTags ($ Content, $ top_k)
conteúdo é o texto a ser extraído
top_k retorna várias palavras -chave com o maior peso TF/IDF, com um valor padrão de 20
Você pode usar o SetStopWords para adicionar palavras de parada personalizadas

Exemplo de código (extração de palavras -chave)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
require_once " /path/to/your/class/JiebaAnalyse.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  JiebaAnalyse ;
Jieba:: init ( array ( ' mode ' => ' test ' , ' dict ' => ' small ' ));
Finalseg:: init ();
JiebaAnalyse:: init ();

$ top_k = 10 ;
$ content = file_get_contents ( " /path/to/your/dict/lyric.txt " , " r " );

$ tags = JiebaAnalyse:: extractTags ( $ content , $ top_k );

var_dump ( $ tags );

JiebaAnalyse:: setStopWords ( ' /path/to/your/dict/stop_words.txt ' );

$ tags = JiebaAnalyse:: extractTags ( $ content , $ top_k );

var_dump ( $ tags );

Saída:

 array ( 10 ) {
  '沒有' =>
  double( 1.0592831964595 )
  '所謂' =>
  double( 0.90795702553671 )
  '是否' =>
  double( 0.66385043195443 )
  '一般' =>
  double( 0.54607060161899 )
  '雖然' =>
  double( 0.30265234184557 )
  '來說' =>
  double( 0.30265234184557 )
  '肌迫' =>
  double( 0.30265234184557 )
  '退縮' =>
  double( 0.30265234184557 )
  '矯作' =>
  double( 0.30265234184557 )
  '怯懦' =>
  double( 0.24364586159392 )
}
array ( 10 ) {
  '所謂' =>
  double( 1.1569129841516 )
  '一般' =>
  double( 0.69579963754677 )
  '矯作' =>
  double( 0.38563766138387 )
  '來說' =>
  double( 0.38563766138387 )
  '退縮' =>
  double( 0.38563766138387 )
  '雖然' =>
  double( 0.38563766138387 )
  '肌迫' =>
  double( 0.38563766138387 )
  '怯懦' =>
  double( 0.31045198493419 )
  '隨便說說' =>
  double( 0.19281883069194 )
  '一場' =>
  double( 0.19281883069194 )
}

Função 4): Segmentação parcial de palavras

Parte do discurso Descrição: https://gist.github.com/luw2007/6016931

Exemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Posseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  Posseg ;
Jieba:: init ();
Finalseg:: init ();
Posseg:: init ();

$ seg_list = Posseg:: cut ( "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。 " );
var_dump ( $ seg_list );

Saída:

 array ( 21 ) {
  [ 0 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "这"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 1 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "是"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 2 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "一个"
    [ " tag " ]=>
    string( 1 ) " m "
  }
  [ 3 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 18 ) "伸手不见五指"
    [ " tag " ]=>
    string( 1 ) " i "
  }
  [ 4 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "的"
    [ " tag " ]=>
    string( 2 ) " uj "
  }
  [ 5 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "黑夜"
    [ " tag " ]=>
    string( 1 ) " n "
  }
  [ 6 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " x "
  }
  [ 7 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 8 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "叫"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 9 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 9 ) "孙悟空"
    [ " tag " ]=>
    string( 2 ) " nr "
  }
  [ 10 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " x "
  }
  [ 11 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 12 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 13 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "北京"
    [ " tag " ]=>
    string( 2 ) " ns "
  }
  [ 14 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " x "
  }
  [ 15 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 16 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 17 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) " Python "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 18 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "和"
    [ " tag " ]=>
    string( 1 ) " c "
  }
  [ 19 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " C++ "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 20 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " x "
  }
}

Função 5): Mude para o dicionário chinês tradicional

Exemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' default ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "憐香惜玉也得要看對象啊！ " );
var_dump ( $ seg_list );

Saída:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}
array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "憐香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "對象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Função 5): Mude para o dicionário chinês tradicional

Exemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' default ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "憐香惜玉也得要看對象啊！ " );
var_dump ( $ seg_list );

Saída:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}
array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "憐香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "對象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Função 6): Mantenha o texto japonês ou coreano original sem filtrar

Exemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' cjk ' => ' all ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( " 한국어 또는 조선말은 제주특별자치도를 제외한 한반도 및 그 부속 도서와 한민족 거주 지역에서 쓰이는 언어로 " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

// 加载日语词库可以对日语进行简单的分词
Jieba:: loadUserDict ( " /path/to/your/japanese/dict.txt " );
$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

Saída:

 array ( 15 ) {
  [ 0 ]=>
  string( 9 ) " 한국어 "
  [ 1 ]=>
  string( 6 ) " 또는 "
  [ 2 ]=>
  string( 12 ) " 조선말은 "
  [ 3 ]=>
  string( 24 ) " 제주특별자치도를 "
  [ 4 ]=>
  string( 9 ) " 제외한 "
  [ 5 ]=>
  string( 9 ) " 한반도 "
  [ 6 ]=>
  string( 3 ) " 및 "
  [ 7 ]=>
  string( 3 ) " 그 "
  [ 8 ]=>
  string( 6 ) " 부속 "
  [ 9 ]=>
  string( 9 ) " 도서와 "
  [ 10 ]=>
  string( 9 ) " 한민족 "
  [ 11 ]=>
  string( 6 ) " 거주 "
  [ 12 ]=>
  string( 12 ) " 지역에서 "
  [ 13 ]=>
  string( 9 ) " 쓰이는 "
  [ 14 ]=>
  string( 9 ) " 언어로 "
}
array ( 21 ) {
  [ 0 ]=>
  string( 6 ) "日本"
  [ 1 ]=>
  string( 3 ) "語"
  [ 2 ]=>
  string( 3 ) "は"
  [ 3 ]=>
  string( 3 ) "主"
  [ 4 ]=>
  string( 3 ) "に"
  [ 5 ]=>
  string( 6 ) "日本"
  [ 6 ]=>
  string( 6 ) "国内"
  [ 7 ]=>
  string( 3 ) "や"
  [ 8 ]=>
  string( 6 ) "日本"
  [ 9 ]=>
  string( 3 ) "人"
  [ 10 ]=>
  string( 6 ) "同士"
  [ 11 ]=>
  string( 3 ) "の"
  [ 12 ]=>
  string( 3 ) "間"
  [ 13 ]=>
  string( 3 ) "で"
  [ 14 ]=>
  string( 3 ) "使"
  [ 15 ]=>
  string( 3 ) "わ"
  [ 16 ]=>
  string( 6 ) "れて"
  [ 17 ]=>
  string( 6 ) "いる"
  [ 18 ]=>
  string( 6 ) "言語"
  [ 19 ]=>
  string( 3 ) "で"
  [ 20 ]=>
  string( 6 ) "ある"
}
array ( 17 ) {
  [ 0 ]=>
  string( 9 ) "日本語"
  [ 1 ]=>
  string( 3 ) "は"
  [ 2 ]=>
  string( 6 ) "主に"
  [ 3 ]=>
  string( 9 ) "日本国"
  [ 4 ]=>
  string( 3 ) "内"
  [ 5 ]=>
  string( 3 ) "や"
  [ 6 ]=>
  string( 9 ) "日本人"
  [ 7 ]=>
  string( 6 ) "同士"
  [ 8 ]=>
  string( 3 ) "の"
  [ 9 ]=>
  string( 3 ) "間"
  [ 10 ]=>
  string( 3 ) "で"
  [ 11 ]=>
  string( 3 ) "使"
  [ 12 ]=>
  string( 3 ) "わ"
  [ 13 ]=>
  string( 6 ) "れて"
  [ 14 ]=>
  string( 6 ) "いる"
  [ 15 ]=>
  string( 6 ) "言語"
  [ 16 ]=>
  string( 9 ) "である"
}

Função 7): Retorne a palavra no início e na posição final do texto original

Exemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' test ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: tokenize ( "永和服装饰品有限公司" );
var_dump ( $ seg_list );

Saída:

 array ( 4 ) {
  [ 0 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 6 ) "永和"
    ' start ' =>
    int( 0 )
    ' end ' =>
    int( 2 )
  }
  [ 1 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 6 ) "服装"
    ' start ' =>
    int( 2 )
    ' end ' =>
    int( 4 )
  }
  [ 2 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 6 ) "饰品"
    ' start ' =>
    int( 4 )
    ' end ' =>
    int( 6 )
  }
  [ 3 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 12 ) "有限公司"
    ' start ' =>
    int( 6 )
    ' end ' =>
    int( 10 )
  }
}

Outros dicionários

Dicionário com menor ocupação https://github.com/fukuball/jieba-php/blob/master/src/dict/dict.small.txt
Dicionário que suporta verbo tradicional do verbo chinês https://github.com/fukuball/jieba-php/blob/master/src/dict/dict.big.txt

Perguntas frequentes

Como os dados do modelo são gerados? FXSJY/JIEBA#7
Qual é a autorização para esta biblioteca? FXSJY/JIEBA#2

Documento em inglês jieba-php

Demonstração online

URL do site de demonstração: http://jieba-php.fukuball.com
Site de demonstração Repo: https://github.com/fukuball/jieba-php.fukuball.com

Recurso

Suportar três tipos de modo de segmentação:
1. Modo preciso, tente cortar a frase na segmentação mais precisa, que é adequada para análise de texto;
1. Modo completo, quebre as palavras da frase em palavras digitalizadas
1. Modo de mecanismo de pesquisa, com base no modo preciso, com uma tentativa de cortar as palavras longas em várias palavras curtas, o que pode melhorar a taxa de recall

Uso

Instalação: use o Composer para instalar o jieba-php e exija o arquivo automático para usar o jieba-php.

Algoritmo

Com base na estrutura da árvore da trie para obter uma digitalização eficiente de gráficos de palavras; As frases usando caracteres chinesas construem um gráfico aciclico direcionado (DAG).
Emprega pesquisa de memória para calcular o caminho máximo de probabilidade, a fim de identificar os pontos tangenciais máximos com base na combinação de frequência de palavras.
Para palavras desconhecidas, o modelo baseado em HMM é usado, usando o algoritmo Viterbi.
O significado de BEMS FXSJY/JIEBA#7.

Interface

O método cut aceita dois parâmetros: 1) O primeiro parâmetro é a sequência para segmentação 2) O segundo parâmetro cut_all para controlar o modo de segmentação.
A sequência para segmentação pode usar a string UTF-8.
cutForSearch acusa apenas no parâmetro: a string que requer segmentação e cortará a frase em palavras curtas
cut e cutForSearch Retornar uma matriz segmentada.

Função 1) segmentação

Exemplo (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ();
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

seg_list = jieba. cut ( "我来到北京清华大学" , true )
var_dump ( $ seg_list ); #全模式

seg_list = jieba. cut ( "我来到北京清华大学" , false )
var_dump ( $ seg_list ); #默認精確模式

seg_list = jieba. cut ( "他来到了网易杭研大厦" )
var_dump ( $ seg_list );

seg_list = jieba. cut_for_search ( "小明硕士毕业于中国科学院计算所，后在日本京都大学深造" ) #搜索引擎模式
var_dump ( $ seg_list );

Saída:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Full Mode:
array ( 15 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 3 ) "来"
  [ 2 ]=>
  string( 6 ) "来到"
  [ 3 ]=>
  string( 3 ) "到"
  [ 4 ]=>
  string( 3 ) "北"
  [ 5 ]=>
  string( 6 ) "北京"
  [ 6 ]=>
  string( 3 ) "京"
  [ 7 ]=>
  string( 3 ) "清"
  [ 8 ]=>
  string( 6 ) "清华"
  [ 9 ]=>
  string( 12 ) "清华大学"
  [ 10 ]=>
  string( 3 ) "华"
  [ 11 ]=>
  string( 6 ) "华大"
  [ 12 ]=>
  string( 3 ) "大"
  [ 13 ]=>
  string( 6 ) "大学"
  [ 14 ]=>
  string( 3 ) "学"
}

Default Mode:
array ( 4 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 6 ) "北京"
  [ 3 ]=>
  string( 12 ) "清华大学"
}
array ( 6 ) {
  [ 0 ]=>
  string( 3 ) "他"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 3 ) "了"
  [ 3 ]=>
  string( 6 ) "网易"
  [ 4 ]=>
  string( 6 ) "杭研"
  [ 5 ]=>
  string( 6 ) "大厦"
}
(此處，“杭研“並沒有在詞典中，但是也被 Viterbi 算法識別出來了)

Search Engine Mode:
array ( 18 ) {
  [ 0 ]=>
  string( 6 ) "小明"
  [ 1 ]=>
  string( 6 ) "硕士"
  [ 2 ]=>
  string( 6 ) "毕业"
  [ 3 ]=>
  string( 3 ) "于"
  [ 4 ]=>
  string( 6 ) "中国"
  [ 5 ]=>
  string( 6 ) "科学"
  [ 6 ]=>
  string( 6 ) "学院"
  [ 7 ]=>
  string( 9 ) "科学院"
  [ 8 ]=>
  string( 15 ) "中国科学院"
  [ 9 ]=>
  string( 6 ) "计算"
  [ 10 ]=>
  string( 9 ) "计算所"
  [ 11 ]=>
  string( 3 ) "后"
  [ 12 ]=>
  string( 3 ) "在"
  [ 13 ]=>
  string( 6 ) "日本"
  [ 14 ]=>
  string( 6 ) "京都"
  [ 15 ]=>
  string( 6 ) "大学"
  [ 16 ]=>
  string( 18 ) "日本京都大学"
  [ 17 ]=>
  string( 6 ) "深造"
}

Função 2) Adicione um dicionário personalizado

Os desenvolvedores podem especificar seu próprio dicionário personalizado para incluir no Jieba Thesaurus. Jieba tem a capacidade de identificar novas palavras, mas adicionar suas próprias novas palavras pode garantir uma taxa mais alta de segmentação correta.
Uso: Jieba::loadUserDict(file_name) # file_name é um caminho de dicionário personalizado.
O formato do dicionário é o mesmo que o de dict.txt : uma palavra por linha; Cada linha é dividida em duas partes, a primeira é a própria palavra, a outra é a palavra frequência, separada por um espaço.
Exemplo:
Computação em nuvem 5 Li Xiaofu 2 Office de Inovação 3
Anteriormente: Li Xiaofu/Sim/Innovation/Office/Diretor/Yes/Yes/Cloud/Computação/Evidência/Após Carregar o Thesaurus Custom: Li Xiaofu/Sim/Innovation/Office/Diretor/Sim/Sim/Sim/Cloud/Evidência/

Função 3) Extração de palavras -chave

Jiebaanalyse :: ExtractTags ($ Content, $ top_k)
Conteúdo: o texto a ser extraído
top_k: para retornar vários pesos TF/IDF para as maiores palavras -chave, o valor padrão é 20

Exemplo (extração de palavras -chave)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
require_once " /path/to/your/class/JiebaAnalyse.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  JiebaAnalyse ;
Jieba:: init ( array ( ' mode ' => ' test ' , ' dict ' => ' small ' ));
Finalseg:: init ();
JiebaAnalyse:: init ();

$ top_k = 10 ;
$ content = file_get_contents ( " /path/to/your/dict/lyric.txt " , " r " );

$ tags = JiebaAnalyse:: extractTags ( $ content , $ top_k );

var_dump ( $ tags );

Saída:

 array ( 10 ) {
  [ "是否" ]=>
  float( 1.2196321889395 )
  [ "一般" ]=>
  float( 1.0032459890209 )
  [ "肌迫" ]=>
  float( 0.64654314660465 )
  [ "怯懦" ]=>
  float( 0.44762844339349 )
  [ "藉口" ]=>
  float( 0.32327157330233 )
  [ "逼不得已" ]=>
  float( 0.32327157330233 )
  [ "不安全感" ]=>
  float( 0.26548304656279 )
  [ "同感" ]=>
  float( 0.23929673812326 )
  [ "有把握" ]=>
  float( 0.21043366018744 )
  [ "空洞" ]=>
  float( 0.20598261709442 )
}

Função 4) Segmentação e marcação de palavras

Word Tagging Significado: https://gist.github.com/luw2007/6016931

Exemplo (marcação de palavras)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Posseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  Posseg ;
Jieba:: init ();
Finalseg:: init ();
Posseg:: init ();

$ seg_list = Posseg:: cut ( "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。 " );
var_dump ( $ seg_list );

Saída:

 array ( 21 ) {
  [ 0 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "这"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 1 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "是"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 2 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "一个"
    [ " tag " ]=>
    string( 1 ) " m "
  }
  [ 3 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 18 ) "伸手不见五指"
    [ " tag " ]=>
    string( 1 ) " i "
  }
  [ 4 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "的"
    [ " tag " ]=>
    string( 2 ) " uj "
  }
  [ 5 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "黑夜"
    [ " tag " ]=>
    string( 1 ) " n "
  }
  [ 6 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " w "
  }
  [ 7 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 8 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "叫"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 9 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 9 ) "孙悟空"
    [ " tag " ]=>
    string( 2 ) " nr "
  }
  [ 10 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " w "
  }
  [ 11 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 12 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 13 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "北京"
    [ " tag " ]=>
    string( 2 ) " ns "
  }
  [ 14 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " w "
  }
  [ 15 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 16 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 17 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) " Python "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 18 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "和"
    [ " tag " ]=>
    string( 1 ) " c "
  }
  [ 19 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " C++ "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 20 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " w "
  }
}

Função 5): Use chinês tradicional

Exemplo (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' default ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "憐香惜玉也得要看對象啊！ " );
var_dump ( $ seg_list );

Saída:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}
array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "憐香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "對象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Função 6): Mantendo o texto original japonês ou coreano

Exemplo (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' cjk ' => ' all ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( " 한국어 또는 조선말은 제주특별자치도를 제외한 한반도 및 그 부속 도서와 한민족 거주 지역에서 쓰이는 언어로 " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

// Loading custom Japanese dictionary can do a simple word segmentation
Jieba:: loadUserDict ( " /path/to/your/japanese/dict.txt " );
$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

Saída:

 array ( 15 ) {
  [ 0 ]=>
  string( 9 ) " 한국어 "
  [ 1 ]=>
  string( 6 ) " 또는 "
  [ 2 ]=>
  string( 12 ) " 조선말은 "
  [ 3 ]=>
  string( 24 ) " 제주특별자치도를 "
  [ 4 ]=>
  string( 9 ) " 제외한 "
  [ 5 ]=>
  string( 9 ) " 한반도 "
  [ 6 ]=>
  string( 3 ) " 및 "
  [ 7 ]=>
  string( 3 ) " 그 "
  [ 8 ]=>
  string( 6 ) " 부속 "
  [ 9 ]=>
  string( 9 ) " 도서와 "
  [ 10 ]=>
  string( 9 ) " 한민족 "
  [ 11 ]=>
  string( 6 ) " 거주 "
  [ 12 ]=>
  string( 12 ) " 지역에서 "
  [ 13 ]=>
  string( 9 ) " 쓰이는 "
  [ 14 ]=>
  string( 9 ) " 언어로 "
}
array ( 21 ) {
  [ 0 ]=>
  string( 6 ) "日本"
  [ 1 ]=>
  string( 3 ) "語"
  [ 2 ]=>
  string( 3 ) "は"
  [ 3 ]=>
  string( 3 ) "主"
  [ 4 ]=>
  string( 3 ) "に"
  [ 5 ]=>
  string( 6 ) "日本"
  [ 6 ]=>
  string( 6 ) "国内"
  [ 7 ]=>
  string( 3 ) "や"
  [ 8 ]=>
  string( 6 ) "日本"
  [ 9 ]=>
  string( 3 ) "人"
  [ 10 ]=>
  string( 6 ) "同士"
  [ 11 ]=>
  string( 3 ) "の"
  [ 12 ]=>
  string( 3 ) "間"
  [ 13 ]=>
  string( 3 ) "で"
  [ 14 ]=>
  string( 3 ) "使"
  [ 15 ]=>
  string( 3 ) "わ"
  [ 16 ]=>
  string( 6 ) "れて"
  [ 17 ]=>
  string( 6 ) "いる"
  [ 18 ]=>
  string( 6 ) "言語"
  [ 19 ]=>
  string( 3 ) "で"
  [ 20 ]=>
  string( 6 ) "ある"
}
array ( 17 ) {
  [ 0 ]=>
  string( 9 ) "日本語"
  [ 1 ]=>
  string( 3 ) "は"
  [ 2 ]=>
  string( 6 ) "主に"
  [ 3 ]=>
  string( 9 ) "日本国"
  [ 4 ]=>
  string( 3 ) "内"
  [ 5 ]=>
  string( 3 ) "や"
  [ 6 ]=>
  string( 9 ) "日本人"
  [ 7 ]=>
  string( 6 ) "同士"
  [ 8 ]=>
  string( 3 ) "の"
  [ 9 ]=>
  string( 3 ) "間"
  [ 10 ]=>
  string( 3 ) "で"
  [ 11 ]=>
  string( 3 ) "使"
  [ 12 ]=>
  string( 3 ) "わ"
  [ 13 ]=>
  string( 6 ) "れて"
  [ 14 ]=>
  string( 6 ) "いる"
  [ 15 ]=>
  string( 6 ) "言語"
  [ 16 ]=>
  string( 9 ) "である"
}

Parte da descrição da fala

 a 形容词 (取英语形容词 adjective 的第 1 个字母。)
  ad 副形词 (直接作状语的形容词，形容词代码 a 和副词代码 d 并在一起。)
  ag 形容词性语素 (形容词性语素，形容词代码为 a，语素代码 ｇ 前面置以 a。)
  an 名形词 (具有名词功能的形容词，形容词代码 a 和名词代码 n 并在一起。)
b 区别词 (取汉字「别」的声母。)
c 连词 (取英语连词 conjunction 的第 1 个字母。)
d 副词 (取 adverb 的第 2 个字母，因其第 1 个字母已用于形容词。)
  df 副词*
  dg 副语素 (副词性语素，副词代码为 d，语素代码 ｇ 前面置以 d。)
e 叹词 (取英语叹词 exclamation 的第 1 个字母。)
eng 外语
f 方位词 (取汉字「方」的声母。)
g 语素 (绝大多数语素都能作为合成词的「词根」，取汉字「根」的声母。)
h 前接成分 (取英语 head 的第 1 个字母。)
i 成语 (取英语成语 idiom 的第 1 个字母。)
j 简称略语 (取汉字「简」的声母。)
k 后接成分
l 习用语 (习用语尚未成为成语，有点「临时性」，取「临」的声母。)
m 数词 (取英语 numeral 的第 3 个字母，n，u 已有他用。)
  mg 数语素
  mq 数词*
n 名词 (取英语名词 noun 的第 1 个字母。)
  ng 名语素 (名词性语素，名词代码为 n，语素代码 ｇ 前面置以 n。)
  nr 人名 (名词代码n和「人(ren)」的声母并在一起。)
  nrfg 名词*
  nrt 名词*
  ns 地名 (名词代码 n 和处所词代码 s 并在一起。)
  nt 机构团体 (「团」的声母为 t，名词代码 n 和 t 并在一起。)
  nz 其他专名 (「专」的声母的第 1 个字母为 z，名词代码 n 和 z 并在一起。)
o 拟声词 (取英语拟声词 onomatopoeia 的第 1 个字母。)
p 介词 (取英语介词 prepositional 的第 1 个字母。)
q 量词 (取英语 quantity 的第 1 个字母。)
r 代词 (取英语代词 pronoun的 第 2 个字母，因 p 已用于介词。)
  rg 代词语素
  rr 代词*
  rz 代词*
s 处所词 (取英语 space 的第 1 个字母。)
t 时间词 (取英语 time 的第 1 个字母。)
  tg 时语素 (时间词性语素，时间词代码为 t，在语素的代码 g 前面置以 t。)
u 助词 (取英语助词 auxiliary 的第 2 个字母，因 a 已用于形容词。)
  ud 助词*
  ug 助词*
  uj 助词*
  ul 助词*
  uv 助词*
  uz 助词*
v 动词 (取英语动词 verb 的第一个字母。)
  vd 副动词 (直接作状语的动词，动词和副词的代码并在一起。)
  vg 动语素
  vi 动词*
  vn 名动词 (指具有名词功能的动词，动词和名词的代码并在一起。)
  vq 动词*
w 标点符号
x 非语素字 (非语素字只是一个符号，字母 x 通常用于代表未知数、符号。)
y 语气词 (取汉字「语」的声母。)
z 状态词 (取汉字「状」的声母的前一个字母。)
  zg 状态词*

Doar

Se você achar útil Fuku-ML, considere uma doação. Obrigado!

Bitcoin: 1BBIHQU3CZSDYLSP9BVQQ7PI1Z1JTDAAQ9
ETH: 0x92DA3F837BF2F79D422BB8CEAC632208F94CDE33

Licença

A licença do MIT (MIT)

A permissão é concedida, gratuita, a qualquer pessoa que obtenha uma cópia deste software e arquivos de documentação associados (o "software"), para lidar com o software sem restrições, incluindo, sem limitação, os direitos de uso, copiar, modificar, mesclar, publicar, distribuir, mobilizar o software e/ou vender cópias do software e para permitir que as pertencem a quem

O aviso de direitos autorais acima e este aviso de permissão devem ser incluídos em todas as cópias ou em partes substanciais do software.

O software é fornecido "como está", sem garantia de qualquer tipo, expresso ou implícito, incluindo, entre outros, as garantias de comercialização, aptidão para uma finalidade específica e não innoculação. Em nenhum caso os autores ou detentores de direitos autorais serão responsáveis por qualquer reclamação, danos ou outro passivo, seja em uma ação de contrato, delito ou não, decorrente de, fora ou em conexão com o software ou o uso ou outras negociações no software.

Expandir