Descarga de jieba php - Descargar el código fuente de jieba php

jieba-php

Segmentación de palabras chinas "tartamude": sea el mejor componente de segmentación de palabras chino PHP y componente de segmentación de palabras chinas. La versión de traducción actual es la versión Jieba-0.33. En el futuro, se actualizará lentamente y el rendimiento debe mejorarse. ¡Se les pide a los desarrolladores interesados que se unan al desarrollo juntos! Si quieres usar la versión de Python, vaya a FXSJY/Jieba

¡Los chinos tradicionales ahora pueden ser apoyados! ¡Simplemente cambie el diccionario a Big Mode!

"Jieba" (chino para "tartamudear") segmentación de texto chino: construido para ser el mejor módulo de segmentación de palabras chinas PHP.

Desplácese hacia abajo para la documentación en inglés.

Exhibición en línea

URL del sitio web: http://jieba-php.fukuball.com
Código fuente del sitio web: https://github.com/fukuball/jieb-php.fukuball.com

Característica

Admite modos de participio de tres palabras:
1) Modo de precisión predeterminado, intentando reducir las oraciones con mayor precisión, adecuada para el análisis de texto;
2) Patrón completo, escanee todas las palabras en la oración que pueden estar basadas en palabras, pero no pueden resolver la ambigüedad. (Agregue suficiente diccionario)
1. El modo de motor de búsqueda, basado en el modo preciso, divide las palabras largas nuevamente para mejorar la velocidad de retiro, es adecuado para la segmentación de palabras del motor de búsqueda.
Apoyo verbo verbo tradicional
Admite el diccionario personalizado

Uso

Instalación automática: después de instalar con el compositor, referencia a través de AutOload

Ejemplo de código

composer require fukuball/jieba-php:dev-master

Ejemplo de código

 require_once " /path/to/your/vendor/autoload.php " ;

Instalación manual: después de colocar Jieba-PHP en el directorio apropiado, haga referencia a través de Request_once

Ejemplo de código

 require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;

Algoritmo

Basado en la estructura del árbol Trie, se logra un escaneo eficiente de gráficos de palabras para generar gráfico acíclico dirigido (DAG) compuesto por todas las posibles situaciones de formación de palabras en caracteres chinos en oraciones.
La programación dinámica se utiliza para encontrar la ruta de probabilidad máxima para encontrar la combinación de corte máxima basada en la frecuencia de las palabras
Para las palabras no renunciadas, se utilizó un modelo HMM basado en la capacidad de hacer palabras de los personajes chinos, y se utilizó el algoritmo Viterbi.
Bems Explicación FXSJY/Jieba#7

Interfaz

El componente solo proporciona el método jieba.cut para la segmentación de palabras
El método de corte acepta dos parámetros de entrada: 1) El primer parámetro es la cadena que requiere la segmentación de palabras 2) El parámetro CUT_ALL se usa para controlar el modo de segmentación de palabras
La cadena a participar puede ser una cadena UTF-8
La estructura devuelta por jieba.cut es una matriz iterable

Función 1): participio de palabras

El método cut acepta un parámetro de entrada: 1) El primer parámetro es la cadena que requiere la segmentación de palabras 2) El parámetro CUT_ALL se usa para controlar el patrón de segmentación de palabras
El método cutForSearch acepta un parámetro: una cadena que requiere segmentación de palabras. Este método es adecuado para que los motores de búsqueda creen segmentación de palabras indexada invertida, con una granularidad relativamente fina
Nota: La cadena a participar es la cadena UTF-8
La estructura devuelta por cut y cutForSearch es una matriz iterable

Ejemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ();
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "我来到北京清华大学" , true );
var_dump ( $ seg_list ); #全模式

$ seg_list = Jieba:: cut ( "我来到北京清华大学" , false );
var_dump ( $ seg_list ); #默認精確模式

$ seg_list = Jieba:: cut ( "他来到了网易杭研大厦" );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cutForSearch ( "小明硕士毕业于中国科学院计算所，后在日本京都大学深造" ); #搜索引擎模式
var_dump ( $ seg_list );

Producción:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Full Mode:
array ( 15 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 3 ) "来"
  [ 2 ]=>
  string( 6 ) "来到"
  [ 3 ]=>
  string( 3 ) "到"
  [ 4 ]=>
  string( 3 ) "北"
  [ 5 ]=>
  string( 6 ) "北京"
  [ 6 ]=>
  string( 3 ) "京"
  [ 7 ]=>
  string( 3 ) "清"
  [ 8 ]=>
  string( 6 ) "清华"
  [ 9 ]=>
  string( 12 ) "清华大学"
  [ 10 ]=>
  string( 3 ) "华"
  [ 11 ]=>
  string( 6 ) "华大"
  [ 12 ]=>
  string( 3 ) "大"
  [ 13 ]=>
  string( 6 ) "大学"
  [ 14 ]=>
  string( 3 ) "学"
}

Default Mode:
array ( 4 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 6 ) "北京"
  [ 3 ]=>
  string( 12 ) "清华大学"
}
array ( 6 ) {
  [ 0 ]=>
  string( 3 ) "他"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 3 ) "了"
  [ 3 ]=>
  string( 6 ) "网易"
  [ 4 ]=>
  string( 6 ) "杭研"
  [ 5 ]=>
  string( 6 ) "大厦"
}
(此處，“杭研“並沒有在詞典中，但是也被 Viterbi 算法識別出來了)

Search Engine Mode:
array ( 18 ) {
  [ 0 ]=>
  string( 6 ) "小明"
  [ 1 ]=>
  string( 6 ) "硕士"
  [ 2 ]=>
  string( 6 ) "毕业"
  [ 3 ]=>
  string( 3 ) "于"
  [ 4 ]=>
  string( 6 ) "中国"
  [ 5 ]=>
  string( 6 ) "科学"
  [ 6 ]=>
  string( 6 ) "学院"
  [ 7 ]=>
  string( 9 ) "科学院"
  [ 8 ]=>
  string( 15 ) "中国科学院"
  [ 9 ]=>
  string( 6 ) "计算"
  [ 10 ]=>
  string( 9 ) "计算所"
  [ 11 ]=>
  string( 3 ) "后"
  [ 12 ]=>
  string( 3 ) "在"
  [ 13 ]=>
  string( 6 ) "日本"
  [ 14 ]=>
  string( 6 ) "京都"
  [ 15 ]=>
  string( 6 ) "大学"
  [ 16 ]=>
  string( 18 ) "日本京都大学"
  [ 17 ]=>
  string( 6 ) "深造"
}

Función 2): Agregue un diccionario personalizado

Los desarrolladores pueden especificar su propio diccionario personalizado para incluir palabras que no están en el vocabulario de Jieba. Aunque Jieba tiene la capacidad de reconocer nuevas palabras, agregar nuevas palabras por su cuenta puede garantizar una mayor precisión
Uso: jieba :: loadUserDict (file_name) # file_name es la ruta absoluta a un diccionario personalizado
El formato del diccionario es el mismo que dict.txt, y una palabra ocupa una línea; Cada línea se divide en tres partes, una parte de la palabra, una parte de la palabra y una parte de la palabra, separada por espacios.
ejemplo:
Cloud Computing 5 N Li Xiaofu 2 N Innovation Office 3 N
Anteriormente: Li Xiaofu/Yes/Innovation/Office/Director/Yes/Yes/Cloud/Computing/Evidence/Después de cargar el tesauro personalizado: Li Xiaofu/Yes/Innovation/Office/Director/Yes/Yes/Yes/Cloud/Evidence/

Descripción: "Mejorar la corrección de errores de ambigüedad a través del diccionario definido por el usuario" --- FXSJY/Jieba#14

Diccionario personalizado: https://github.com/fukuball/jieba-php/blob/master/src/dict/user_dict.txt

Función 3): extracción de palabras clave

Jiebaanalyse :: extracttags ($ content, $ top_k)
El contenido es el texto que se extraerá
TOP_K devuelve varias palabras clave con el mayor peso de TF/IDF, con un valor predeterminado de 20
Puede usar SetStoPWords para agregar palabras de parada personalizadas

Ejemplo de código (extracción de palabras clave)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
require_once " /path/to/your/class/JiebaAnalyse.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  JiebaAnalyse ;
Jieba:: init ( array ( ' mode ' => ' test ' , ' dict ' => ' small ' ));
Finalseg:: init ();
JiebaAnalyse:: init ();

$ top_k = 10 ;
$ content = file_get_contents ( " /path/to/your/dict/lyric.txt " , " r " );

$ tags = JiebaAnalyse:: extractTags ( $ content , $ top_k );

var_dump ( $ tags );

JiebaAnalyse:: setStopWords ( ' /path/to/your/dict/stop_words.txt ' );

$ tags = JiebaAnalyse:: extractTags ( $ content , $ top_k );

var_dump ( $ tags );

Producción:

 array ( 10 ) {
  '沒有' =>
  double( 1.0592831964595 )
  '所謂' =>
  double( 0.90795702553671 )
  '是否' =>
  double( 0.66385043195443 )
  '一般' =>
  double( 0.54607060161899 )
  '雖然' =>
  double( 0.30265234184557 )
  '來說' =>
  double( 0.30265234184557 )
  '肌迫' =>
  double( 0.30265234184557 )
  '退縮' =>
  double( 0.30265234184557 )
  '矯作' =>
  double( 0.30265234184557 )
  '怯懦' =>
  double( 0.24364586159392 )
}
array ( 10 ) {
  '所謂' =>
  double( 1.1569129841516 )
  '一般' =>
  double( 0.69579963754677 )
  '矯作' =>
  double( 0.38563766138387 )
  '來說' =>
  double( 0.38563766138387 )
  '退縮' =>
  double( 0.38563766138387 )
  '雖然' =>
  double( 0.38563766138387 )
  '肌迫' =>
  double( 0.38563766138387 )
  '怯懦' =>
  double( 0.31045198493419 )
  '隨便說說' =>
  double( 0.19281883069194 )
  '一場' =>
  double( 0.19281883069194 )
}

Función 4): segmentación de palabras parcial

Parte del discurso Descripción: https://gist.github.com/luw2007/6016931

Ejemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Posseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  Posseg ;
Jieba:: init ();
Finalseg:: init ();
Posseg:: init ();

$ seg_list = Posseg:: cut ( "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。 " );
var_dump ( $ seg_list );

Producción:

 array ( 21 ) {
  [ 0 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "这"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 1 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "是"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 2 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "一个"
    [ " tag " ]=>
    string( 1 ) " m "
  }
  [ 3 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 18 ) "伸手不见五指"
    [ " tag " ]=>
    string( 1 ) " i "
  }
  [ 4 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "的"
    [ " tag " ]=>
    string( 2 ) " uj "
  }
  [ 5 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "黑夜"
    [ " tag " ]=>
    string( 1 ) " n "
  }
  [ 6 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " x "
  }
  [ 7 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 8 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "叫"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 9 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 9 ) "孙悟空"
    [ " tag " ]=>
    string( 2 ) " nr "
  }
  [ 10 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " x "
  }
  [ 11 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 12 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 13 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "北京"
    [ " tag " ]=>
    string( 2 ) " ns "
  }
  [ 14 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " x "
  }
  [ 15 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 16 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 17 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) " Python "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 18 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "和"
    [ " tag " ]=>
    string( 1 ) " c "
  }
  [ 19 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " C++ "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 20 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " x "
  }
}

Función 5): Cambie al diccionario tradicional chino

Ejemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' default ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "憐香惜玉也得要看對象啊！ " );
var_dump ( $ seg_list );

Producción:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}
array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "憐香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "對象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Función 5): Cambie al diccionario tradicional chino

Ejemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' default ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "憐香惜玉也得要看對象啊！ " );
var_dump ( $ seg_list );

Producción:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}
array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "憐香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "對象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Función 6): Mantenga el texto original japonés o coreano sin filtrarse

Ejemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' cjk ' => ' all ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( " 한국어 또는 조선말은 제주특별자치도를 제외한 한반도 및 그 부속 도서와 한민족 거주 지역에서 쓰이는 언어로 " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

// 加载日语词库可以对日语进行简单的分词
Jieba:: loadUserDict ( " /path/to/your/japanese/dict.txt " );
$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

Producción:

 array ( 15 ) {
  [ 0 ]=>
  string( 9 ) " 한국어 "
  [ 1 ]=>
  string( 6 ) " 또는 "
  [ 2 ]=>
  string( 12 ) " 조선말은 "
  [ 3 ]=>
  string( 24 ) " 제주특별자치도를 "
  [ 4 ]=>
  string( 9 ) " 제외한 "
  [ 5 ]=>
  string( 9 ) " 한반도 "
  [ 6 ]=>
  string( 3 ) " 및 "
  [ 7 ]=>
  string( 3 ) " 그 "
  [ 8 ]=>
  string( 6 ) " 부속 "
  [ 9 ]=>
  string( 9 ) " 도서와 "
  [ 10 ]=>
  string( 9 ) " 한민족 "
  [ 11 ]=>
  string( 6 ) " 거주 "
  [ 12 ]=>
  string( 12 ) " 지역에서 "
  [ 13 ]=>
  string( 9 ) " 쓰이는 "
  [ 14 ]=>
  string( 9 ) " 언어로 "
}
array ( 21 ) {
  [ 0 ]=>
  string( 6 ) "日本"
  [ 1 ]=>
  string( 3 ) "語"
  [ 2 ]=>
  string( 3 ) "は"
  [ 3 ]=>
  string( 3 ) "主"
  [ 4 ]=>
  string( 3 ) "に"
  [ 5 ]=>
  string( 6 ) "日本"
  [ 6 ]=>
  string( 6 ) "国内"
  [ 7 ]=>
  string( 3 ) "や"
  [ 8 ]=>
  string( 6 ) "日本"
  [ 9 ]=>
  string( 3 ) "人"
  [ 10 ]=>
  string( 6 ) "同士"
  [ 11 ]=>
  string( 3 ) "の"
  [ 12 ]=>
  string( 3 ) "間"
  [ 13 ]=>
  string( 3 ) "で"
  [ 14 ]=>
  string( 3 ) "使"
  [ 15 ]=>
  string( 3 ) "わ"
  [ 16 ]=>
  string( 6 ) "れて"
  [ 17 ]=>
  string( 6 ) "いる"
  [ 18 ]=>
  string( 6 ) "言語"
  [ 19 ]=>
  string( 3 ) "で"
  [ 20 ]=>
  string( 6 ) "ある"
}
array ( 17 ) {
  [ 0 ]=>
  string( 9 ) "日本語"
  [ 1 ]=>
  string( 3 ) "は"
  [ 2 ]=>
  string( 6 ) "主に"
  [ 3 ]=>
  string( 9 ) "日本国"
  [ 4 ]=>
  string( 3 ) "内"
  [ 5 ]=>
  string( 3 ) "や"
  [ 6 ]=>
  string( 9 ) "日本人"
  [ 7 ]=>
  string( 6 ) "同士"
  [ 8 ]=>
  string( 3 ) "の"
  [ 9 ]=>
  string( 3 ) "間"
  [ 10 ]=>
  string( 3 ) "で"
  [ 11 ]=>
  string( 3 ) "使"
  [ 12 ]=>
  string( 3 ) "わ"
  [ 13 ]=>
  string( 6 ) "れて"
  [ 14 ]=>
  string( 6 ) "いる"
  [ 15 ]=>
  string( 6 ) "言語"
  [ 16 ]=>
  string( 9 ) "である"
}

Función 7): Devuelva la palabra al principio y la posición final del texto original

Ejemplo de código (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' test ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: tokenize ( "永和服装饰品有限公司" );
var_dump ( $ seg_list );

Producción:

 array ( 4 ) {
  [ 0 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 6 ) "永和"
    ' start ' =>
    int( 0 )
    ' end ' =>
    int( 2 )
  }
  [ 1 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 6 ) "服装"
    ' start ' =>
    int( 2 )
    ' end ' =>
    int( 4 )
  }
  [ 2 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 6 ) "饰品"
    ' start ' =>
    int( 4 )
    ' end ' =>
    int( 6 )
  }
  [ 3 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 12 ) "有限公司"
    ' start ' =>
    int( 6 )
    ' end ' =>
    int( 10 )
  }
}

Otros diccionarios

Diccionario con ocupación más pequeña https://github.com/fukuball/jieba-php/blob/master/src/dict/dict.small.txt
Diccionario que admite verbos tradicionales verbos chinos https://github.com/fukuball/jieba-php/blob/master/src/dict/dict.big.txt

Preguntas frecuentes

¿Cómo se generan los datos del modelo? FXSJY/Jieba#7
¿Cuál es la autorización para esta biblioteca? FXSJY/Jieba#2

Documento de inglés de Jieba-Php

Demostración en línea

URL del sitio de demostración: http://jieba-php.fukuball.com
Repo del sitio de demostración: https://github.com/fukuball/jieba-php.fukuball.com

Característica

Admite tres tipos de modo de segmentación:
1. Modo preciso, intente cortar la oración en la segmentación más precisa, que es adecuada para el análisis de texto;
1. Modo completo, rompa las palabras de la oración en palabras escaneadas
1. Modo de motor de búsqueda, basado en el modo preciso, con un intento de cortar las palabras largas en varias palabras cortas, lo que puede mejorar la tasa de recuperación

Uso

Instalación: use el compositor para instalar Jieba-Php, luego requiere que el archivo AutOload use JiebA-PHP.

Algoritmo

Basado en la estructura del árbol trie para lograr un escaneo eficiente de gráficos de palabras; Las oraciones que usan caracteres chinos construyen un gráfico acíclico dirigido (DAG).
Emplea la búsqueda de memoria para calcular la ruta de probabilidad máxima, para identificar los puntos tangenciales máximos basados en la combinación de frecuencia de palabras.
Para palabras desconocidas, se utiliza el modelo basado en la posición del personaje, utilizando el algoritmo Viterbi.
El significado de BEMS FXSJY/Jieba#7.

Interfaz

El método cut acepta dos parámetros: 1) El primer parámetro es la cadena a la segmentación 2) el segundo parámetro cut_all para controlar el modo de segmentación.
La cadena a la segmentación puede usar la cadena UTF-8.
cutForSearch Accpets solo en el parámetro: la cadena que requiere segmentación y cortará la oración en palabras cortas
cut y cutForSearch Devuelve una matriz segmentada.

Función 1) segmentación

Ejemplo (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ();
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

seg_list = jieba. cut ( "我来到北京清华大学" , true )
var_dump ( $ seg_list ); #全模式

seg_list = jieba. cut ( "我来到北京清华大学" , false )
var_dump ( $ seg_list ); #默認精確模式

seg_list = jieba. cut ( "他来到了网易杭研大厦" )
var_dump ( $ seg_list );

seg_list = jieba. cut_for_search ( "小明硕士毕业于中国科学院计算所，后在日本京都大学深造" ) #搜索引擎模式
var_dump ( $ seg_list );

Producción:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Full Mode:
array ( 15 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 3 ) "来"
  [ 2 ]=>
  string( 6 ) "来到"
  [ 3 ]=>
  string( 3 ) "到"
  [ 4 ]=>
  string( 3 ) "北"
  [ 5 ]=>
  string( 6 ) "北京"
  [ 6 ]=>
  string( 3 ) "京"
  [ 7 ]=>
  string( 3 ) "清"
  [ 8 ]=>
  string( 6 ) "清华"
  [ 9 ]=>
  string( 12 ) "清华大学"
  [ 10 ]=>
  string( 3 ) "华"
  [ 11 ]=>
  string( 6 ) "华大"
  [ 12 ]=>
  string( 3 ) "大"
  [ 13 ]=>
  string( 6 ) "大学"
  [ 14 ]=>
  string( 3 ) "学"
}

Default Mode:
array ( 4 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 6 ) "北京"
  [ 3 ]=>
  string( 12 ) "清华大学"
}
array ( 6 ) {
  [ 0 ]=>
  string( 3 ) "他"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 3 ) "了"
  [ 3 ]=>
  string( 6 ) "网易"
  [ 4 ]=>
  string( 6 ) "杭研"
  [ 5 ]=>
  string( 6 ) "大厦"
}
(此處，“杭研“並沒有在詞典中，但是也被 Viterbi 算法識別出來了)

Search Engine Mode:
array ( 18 ) {
  [ 0 ]=>
  string( 6 ) "小明"
  [ 1 ]=>
  string( 6 ) "硕士"
  [ 2 ]=>
  string( 6 ) "毕业"
  [ 3 ]=>
  string( 3 ) "于"
  [ 4 ]=>
  string( 6 ) "中国"
  [ 5 ]=>
  string( 6 ) "科学"
  [ 6 ]=>
  string( 6 ) "学院"
  [ 7 ]=>
  string( 9 ) "科学院"
  [ 8 ]=>
  string( 15 ) "中国科学院"
  [ 9 ]=>
  string( 6 ) "计算"
  [ 10 ]=>
  string( 9 ) "计算所"
  [ 11 ]=>
  string( 3 ) "后"
  [ 12 ]=>
  string( 3 ) "在"
  [ 13 ]=>
  string( 6 ) "日本"
  [ 14 ]=>
  string( 6 ) "京都"
  [ 15 ]=>
  string( 6 ) "大学"
  [ 16 ]=>
  string( 18 ) "日本京都大学"
  [ 17 ]=>
  string( 6 ) "深造"
}

Función 2) Agregar un diccionario personalizado

Los desarrolladores pueden especificar su propio diccionario personalizado para incluir en el Jieba Thesaurus. Jieba tiene la capacidad de identificar nuevas palabras, pero agregar sus propias palabras nuevas puede garantizar una tasa más alta de segmentación correcta.
Uso: Jieba::loadUserDict(file_name) # file_name es una ruta de diccionario personalizado.
El formato del diccionario es el mismo que el de dict.txt : una palabra por línea; Cada línea se divide en dos partes, la primera es la palabra misma, la otra es la frecuencia de la palabra, separada por un espacio.
Ejemplo:
Cloud Computing 5 Li Xiaofu 2 Oficina de innovación 3
Anteriormente: Li Xiaofu/Yes/Innovation/Office/Director/Yes/Yes/Cloud/Computing/Evidence/Después de cargar el tesauro personalizado: Li Xiaofu/Yes/Innovation/Office/Director/Yes/Yes/Yes/Cloud/Evidence/

Función 3) extracción de palabras clave

Jiebaanalyse :: extracttags ($ content, $ top_k)
Contenido: el texto a extraer
TOP_K: para devolver varios pesos de TF/IDF para las palabras clave más importantes, el valor predeterminado es 20

Ejemplo (extracción de palabras clave)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
require_once " /path/to/your/class/JiebaAnalyse.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  JiebaAnalyse ;
Jieba:: init ( array ( ' mode ' => ' test ' , ' dict ' => ' small ' ));
Finalseg:: init ();
JiebaAnalyse:: init ();

$ top_k = 10 ;
$ content = file_get_contents ( " /path/to/your/dict/lyric.txt " , " r " );

$ tags = JiebaAnalyse:: extractTags ( $ content , $ top_k );

var_dump ( $ tags );

Producción:

 array ( 10 ) {
  [ "是否" ]=>
  float( 1.2196321889395 )
  [ "一般" ]=>
  float( 1.0032459890209 )
  [ "肌迫" ]=>
  float( 0.64654314660465 )
  [ "怯懦" ]=>
  float( 0.44762844339349 )
  [ "藉口" ]=>
  float( 0.32327157330233 )
  [ "逼不得已" ]=>
  float( 0.32327157330233 )
  [ "不安全感" ]=>
  float( 0.26548304656279 )
  [ "同感" ]=>
  float( 0.23929673812326 )
  [ "有把握" ]=>
  float( 0.21043366018744 )
  [ "空洞" ]=>
  float( 0.20598261709442 )
}

Función 4) segmentación de palabras y etiquetado

Etiquetado de palabras Significado: https://gist.github.com/luw2007/6016931

Ejemplo (etiquetado de palabras)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Posseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  Posseg ;
Jieba:: init ();
Finalseg:: init ();
Posseg:: init ();

$ seg_list = Posseg:: cut ( "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。 " );
var_dump ( $ seg_list );

Producción:

 array ( 21 ) {
  [ 0 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "这"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 1 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "是"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 2 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "一个"
    [ " tag " ]=>
    string( 1 ) " m "
  }
  [ 3 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 18 ) "伸手不见五指"
    [ " tag " ]=>
    string( 1 ) " i "
  }
  [ 4 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "的"
    [ " tag " ]=>
    string( 2 ) " uj "
  }
  [ 5 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "黑夜"
    [ " tag " ]=>
    string( 1 ) " n "
  }
  [ 6 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " w "
  }
  [ 7 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 8 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "叫"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 9 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 9 ) "孙悟空"
    [ " tag " ]=>
    string( 2 ) " nr "
  }
  [ 10 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " w "
  }
  [ 11 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 12 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 13 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "北京"
    [ " tag " ]=>
    string( 2 ) " ns "
  }
  [ 14 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " w "
  }
  [ 15 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 16 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 17 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) " Python "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 18 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "和"
    [ " tag " ]=>
    string( 1 ) " c "
  }
  [ 19 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " C++ "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 20 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " w "
  }
}

Función 5): Use chino tradicional

Ejemplo (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' default ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "憐香惜玉也得要看對象啊！ " );
var_dump ( $ seg_list );

Producción:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}
array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "憐香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "對象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Función 6): Mantener texto original japonés o coreano

Ejemplo (tutorial)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' cjk ' => ' all ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( " 한국어 또는 조선말은 제주특별자치도를 제외한 한반도 및 그 부속 도서와 한민족 거주 지역에서 쓰이는 언어로 " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

// Loading custom Japanese dictionary can do a simple word segmentation
Jieba:: loadUserDict ( " /path/to/your/japanese/dict.txt " );
$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

Producción:

 array ( 15 ) {
  [ 0 ]=>
  string( 9 ) " 한국어 "
  [ 1 ]=>
  string( 6 ) " 또는 "
  [ 2 ]=>
  string( 12 ) " 조선말은 "
  [ 3 ]=>
  string( 24 ) " 제주특별자치도를 "
  [ 4 ]=>
  string( 9 ) " 제외한 "
  [ 5 ]=>
  string( 9 ) " 한반도 "
  [ 6 ]=>
  string( 3 ) " 및 "
  [ 7 ]=>
  string( 3 ) " 그 "
  [ 8 ]=>
  string( 6 ) " 부속 "
  [ 9 ]=>
  string( 9 ) " 도서와 "
  [ 10 ]=>
  string( 9 ) " 한민족 "
  [ 11 ]=>
  string( 6 ) " 거주 "
  [ 12 ]=>
  string( 12 ) " 지역에서 "
  [ 13 ]=>
  string( 9 ) " 쓰이는 "
  [ 14 ]=>
  string( 9 ) " 언어로 "
}
array ( 21 ) {
  [ 0 ]=>
  string( 6 ) "日本"
  [ 1 ]=>
  string( 3 ) "語"
  [ 2 ]=>
  string( 3 ) "は"
  [ 3 ]=>
  string( 3 ) "主"
  [ 4 ]=>
  string( 3 ) "に"
  [ 5 ]=>
  string( 6 ) "日本"
  [ 6 ]=>
  string( 6 ) "国内"
  [ 7 ]=>
  string( 3 ) "や"
  [ 8 ]=>
  string( 6 ) "日本"
  [ 9 ]=>
  string( 3 ) "人"
  [ 10 ]=>
  string( 6 ) "同士"
  [ 11 ]=>
  string( 3 ) "の"
  [ 12 ]=>
  string( 3 ) "間"
  [ 13 ]=>
  string( 3 ) "で"
  [ 14 ]=>
  string( 3 ) "使"
  [ 15 ]=>
  string( 3 ) "わ"
  [ 16 ]=>
  string( 6 ) "れて"
  [ 17 ]=>
  string( 6 ) "いる"
  [ 18 ]=>
  string( 6 ) "言語"
  [ 19 ]=>
  string( 3 ) "で"
  [ 20 ]=>
  string( 6 ) "ある"
}
array ( 17 ) {
  [ 0 ]=>
  string( 9 ) "日本語"
  [ 1 ]=>
  string( 3 ) "は"
  [ 2 ]=>
  string( 6 ) "主に"
  [ 3 ]=>
  string( 9 ) "日本国"
  [ 4 ]=>
  string( 3 ) "内"
  [ 5 ]=>
  string( 3 ) "や"
  [ 6 ]=>
  string( 9 ) "日本人"
  [ 7 ]=>
  string( 6 ) "同士"
  [ 8 ]=>
  string( 3 ) "の"
  [ 9 ]=>
  string( 3 ) "間"
  [ 10 ]=>
  string( 3 ) "で"
  [ 11 ]=>
  string( 3 ) "使"
  [ 12 ]=>
  string( 3 ) "わ"
  [ 13 ]=>
  string( 6 ) "れて"
  [ 14 ]=>
  string( 6 ) "いる"
  [ 15 ]=>
  string( 6 ) "言語"
  [ 16 ]=>
  string( 9 ) "である"
}

Parte de la descripción del habla

 a 形容词 (取英语形容词 adjective 的第 1 个字母。)
  ad 副形词 (直接作状语的形容词，形容词代码 a 和副词代码 d 并在一起。)
  ag 形容词性语素 (形容词性语素，形容词代码为 a，语素代码 ｇ 前面置以 a。)
  an 名形词 (具有名词功能的形容词，形容词代码 a 和名词代码 n 并在一起。)
b 区别词 (取汉字「别」的声母。)
c 连词 (取英语连词 conjunction 的第 1 个字母。)
d 副词 (取 adverb 的第 2 个字母，因其第 1 个字母已用于形容词。)
  df 副词*
  dg 副语素 (副词性语素，副词代码为 d，语素代码 ｇ 前面置以 d。)
e 叹词 (取英语叹词 exclamation 的第 1 个字母。)
eng 外语
f 方位词 (取汉字「方」的声母。)
g 语素 (绝大多数语素都能作为合成词的「词根」，取汉字「根」的声母。)
h 前接成分 (取英语 head 的第 1 个字母。)
i 成语 (取英语成语 idiom 的第 1 个字母。)
j 简称略语 (取汉字「简」的声母。)
k 后接成分
l 习用语 (习用语尚未成为成语，有点「临时性」，取「临」的声母。)
m 数词 (取英语 numeral 的第 3 个字母，n，u 已有他用。)
  mg 数语素
  mq 数词*
n 名词 (取英语名词 noun 的第 1 个字母。)
  ng 名语素 (名词性语素，名词代码为 n，语素代码 ｇ 前面置以 n。)
  nr 人名 (名词代码n和「人(ren)」的声母并在一起。)
  nrfg 名词*
  nrt 名词*
  ns 地名 (名词代码 n 和处所词代码 s 并在一起。)
  nt 机构团体 (「团」的声母为 t，名词代码 n 和 t 并在一起。)
  nz 其他专名 (「专」的声母的第 1 个字母为 z，名词代码 n 和 z 并在一起。)
o 拟声词 (取英语拟声词 onomatopoeia 的第 1 个字母。)
p 介词 (取英语介词 prepositional 的第 1 个字母。)
q 量词 (取英语 quantity 的第 1 个字母。)
r 代词 (取英语代词 pronoun的 第 2 个字母，因 p 已用于介词。)
  rg 代词语素
  rr 代词*
  rz 代词*
s 处所词 (取英语 space 的第 1 个字母。)
t 时间词 (取英语 time 的第 1 个字母。)
  tg 时语素 (时间词性语素，时间词代码为 t，在语素的代码 g 前面置以 t。)
u 助词 (取英语助词 auxiliary 的第 2 个字母，因 a 已用于形容词。)
  ud 助词*
  ug 助词*
  uj 助词*
  ul 助词*
  uv 助词*
  uz 助词*
v 动词 (取英语动词 verb 的第一个字母。)
  vd 副动词 (直接作状语的动词，动词和副词的代码并在一起。)
  vg 动语素
  vi 动词*
  vn 名动词 (指具有名词功能的动词，动词和名词的代码并在一起。)
  vq 动词*
w 标点符号
x 非语素字 (非语素字只是一个符号，字母 x 通常用于代表未知数、符号。)
y 语气词 (取汉字「语」的声母。)
z 状态词 (取汉字「状」的声母的前一个字母。)
  zg 状态词*

Donar

Si encuentra útil Fuku-ML, considere una donación. ¡Gracias!

Bitcoin: 1BBIHQU3CZSDYLSP9BVQQ7PI1Z1JTDAAQ9
ETH: 0X92DA3F837BF2F79D422BB8CEAC632208F94CDE33

Licencia

La licencia del MIT (MIT)

El permiso se otorga, de forma gratuita, a cualquier persona que obtenga una copia de este software y los archivos de documentación asociados (el "software"), para tratar el software sin restricciones, incluidos los derechos de los derechos de usar, copiar, modificar, fusionar, publicar, distribuir, sublicense y/o vender copias del software, y para permitir que las personas a quienes se les proporciona el software para hacerlo, sujeto a las siguientes condiciones: las siguientes condiciones: las siguientes condiciones: las siguientes condiciones:

El aviso de derechos de autor anterior y este aviso de permiso se incluirán en todas las copias o porciones sustanciales del software.

El software se proporciona "tal cual", sin garantía de ningún tipo, expresa o implícita, incluidas, entre otros, las garantías de comerciabilidad, idoneidad para un propósito particular y no infracción. En ningún caso los autores o titulares de derechos de autor serán responsables de cualquier reclamo, daños u otra responsabilidad, ya sea en una acción de contrato, agravio o de otra manera, que surge, de o en relación con el software o el uso u otros tratos en el software.

Expandir