jieba php 다운로드 jieba php 소스 코드 다운로드

Jieba-php

"말더듬"중국어 단어 세분화 : 최고의 PHP 중국어 단어 세분화 및 중국어 단어 세분화 구성 요소가 되십시오. 현재 번역 버전은 jieba-0.33 버전입니다. 앞으로 천천히 업그레이드되고 성능을 향상시켜야합니다. 관심있는 개발자는 개발에 참여해야합니다! Python 버전을 사용하려면 fxsjy/jieba로 이동하십시오.

이제 전통적인 중국인이 지원 될 수 있습니다! 사전을 큰 모드로 전환하십시오!

"Jieba"( "Stutter to Stutter"의 중국어) 중국어 텍스트 세분화 : 최고의 PHP 중국어 단어 세분화 모듈로 만들어졌습니다.

영어 문서를 위해 아래로 스크롤하십시오.

온라인 디스플레이

웹 사이트 URL : http://jieba-php.fukuball.com
웹 사이트 소스 코드 : https://github.com/fukuball/jieba-php.fukuball.com

특징

3 개의 단어 분사 모드를 지원합니다.
1) 텍스트 분석에 적합한 문장을 가장 정확하게 자르는 기본 정밀 모드;
2) 전체 패턴, 단어 기반이 될 수 있지만 모호성을 해결할 수없는 문장의 모든 단어를 스캔하십시오. (충분한 사전 추가가 필요합니다)
1. 정확한 모드를 기반으로 검색 엔진 모드는 긴 단어를 다시 나누어 리콜 속도를 향상시키고 검색 엔진 단어 세분화에 적합합니다.
전통적인 동사 동사를 지원하십시오
사용자 정의 사전을 지원합니다

용법

자동 설치 : Composer를 사용하여 설치 한 후 AutoLoad를 통해 참조하십시오

코드 예제

composer require fukuball/jieba-php:dev-master

코드 예제

 require_once " /path/to/your/vendor/autoload.php " ;

수동 설치 : 적절한 디렉토리에 jieba-php를 배치 한 후 require_once를 통해 참조하십시오.

코드 예제

 require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;

연산

트리 트리 구조에 기초하여, 효율적인 단어 그래프 스캔은 문장으로 한자의 모든 가능한 단어 형성 상황으로 구성된 지시 된 acyclic 그래프 (DAG)를 생성하기 위해 달성됩니다.
동적 프로그래밍은 단어 주파수에 따라 최대 슬라이싱 조합을 찾기 위해 최대 확률 경로를 찾는 데 사용됩니다.
무제한 단어의 경우, 중국어 단어 제작 능력을 기반으로 한 HMM 모델이 사용되었으며 Viterbi 알고리즘이 사용되었습니다.
BEMS 설명 fxsjy/jieba#7

인터페이스

구성 요소는 단어 세분화를위한 jieba.cut 메소드 만 제공합니다.
컷 메소드는 두 가지 입력 매개 변수를 허용합니다. 1) 첫 번째 매개 변수는 단어 세분화가 필요한 문자열입니다.
참여할 문자열은 UTF-8 문자열 일 수 있습니다.
jieba.cut에 의해 반환 된 구조는 반복 가능한 배열입니다

함수 1) : 단어 분사

cut 메소드는 입력 매개 변수를 허용합니다. 1) 첫 번째 매개 변수는 단어 분할이 필요한 문자열입니다.
cutForSearch 메소드는 단어 분할이 필요한 매개 변수를 수락합니다. 이 방법은 검색 엔진이 비교적 미세한 세분성으로 거꾸로 인덱싱 된 인덱스 워드 세분화를 구축하는 데 적합합니다.
참고 : 참여할 문자열은 UTF-8 문자열입니다.
cut and cutForSearch 반환 한 구조는 반복 가능한 배열입니다.

코드 예제 (튜토리얼)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ();
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "我来到北京清华大学" , true );
var_dump ( $ seg_list ); #全模式

$ seg_list = Jieba:: cut ( "我来到北京清华大学" , false );
var_dump ( $ seg_list ); #默認精確模式

$ seg_list = Jieba:: cut ( "他来到了网易杭研大厦" );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cutForSearch ( "小明硕士毕业于中国科学院计算所，后在日本京都大学深造" ); #搜索引擎模式
var_dump ( $ seg_list );

산출:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Full Mode:
array ( 15 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 3 ) "来"
  [ 2 ]=>
  string( 6 ) "来到"
  [ 3 ]=>
  string( 3 ) "到"
  [ 4 ]=>
  string( 3 ) "北"
  [ 5 ]=>
  string( 6 ) "北京"
  [ 6 ]=>
  string( 3 ) "京"
  [ 7 ]=>
  string( 3 ) "清"
  [ 8 ]=>
  string( 6 ) "清华"
  [ 9 ]=>
  string( 12 ) "清华大学"
  [ 10 ]=>
  string( 3 ) "华"
  [ 11 ]=>
  string( 6 ) "华大"
  [ 12 ]=>
  string( 3 ) "大"
  [ 13 ]=>
  string( 6 ) "大学"
  [ 14 ]=>
  string( 3 ) "学"
}

Default Mode:
array ( 4 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 6 ) "北京"
  [ 3 ]=>
  string( 12 ) "清华大学"
}
array ( 6 ) {
  [ 0 ]=>
  string( 3 ) "他"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 3 ) "了"
  [ 3 ]=>
  string( 6 ) "网易"
  [ 4 ]=>
  string( 6 ) "杭研"
  [ 5 ]=>
  string( 6 ) "大厦"
}
(此處，“杭研“並沒有在詞典中，但是也被 Viterbi 算法識別出來了)

Search Engine Mode:
array ( 18 ) {
  [ 0 ]=>
  string( 6 ) "小明"
  [ 1 ]=>
  string( 6 ) "硕士"
  [ 2 ]=>
  string( 6 ) "毕业"
  [ 3 ]=>
  string( 3 ) "于"
  [ 4 ]=>
  string( 6 ) "中国"
  [ 5 ]=>
  string( 6 ) "科学"
  [ 6 ]=>
  string( 6 ) "学院"
  [ 7 ]=>
  string( 9 ) "科学院"
  [ 8 ]=>
  string( 15 ) "中国科学院"
  [ 9 ]=>
  string( 6 ) "计算"
  [ 10 ]=>
  string( 9 ) "计算所"
  [ 11 ]=>
  string( 3 ) "后"
  [ 12 ]=>
  string( 3 ) "在"
  [ 13 ]=>
  string( 6 ) "日本"
  [ 14 ]=>
  string( 6 ) "京都"
  [ 15 ]=>
  string( 6 ) "大学"
  [ 16 ]=>
  string( 18 ) "日本京都大学"
  [ 17 ]=>
  string( 6 ) "深造"
}

함수 2) : 사용자 정의 사전을 추가하십시오

개발자는 Jieba 어휘에없는 단어를 포함하도록 자체 사용자 정의 사전을 지정할 수 있습니다. Jieba는 새로운 단어를 인식 할 수있는 능력이 있지만, 스스로 새로운 단어를 추가하면 더 높은 정확도를 보장 할 수 있습니다.
사용법 : jieba :: loaduserDict (file_name) # file_name은 사용자 정의 사전의 절대 경로입니다.
사전 형식은 dict.txt와 동일하며 단어는 한 줄을 차지합니다. 각 줄은 단어의 한 부분, 단어의 한 부분, 단어의 한 부분, 단어의 한 부분으로 나뉘어져 있습니다.
예:
클라우드 컴퓨팅 5 N Li Xiaofu 2 N Innovation Office 3 N
이전 : Li Xiaofu/YES/혁신/사무실/디렉터/예/예/클라우드/컴퓨팅/증거/적절한 시소러스를로드 한 후 : Li XiaoFu/예/혁신/사무실/감독/예/예/Cloud/증거/

설명 : "사용자 정의 사전을 통한 모호성 오류 수정 향상"--- fxsjy/jieba#14

맞춤 사전 : https://github.com/fukuball/jieba-php/blob/master/src/dict/user_dict.txt

기능 3) : 키워드 추출

jiebaanalyse :: extracttags ($ content, $ top_k)
내용은 추출 할 텍스트입니다
TOP_K는 기본값이 20 인 TF/IDF 중량이 가장 큰 여러 키워드를 반환합니다.
setStopword를 사용하여 사용자 정지 단어를 추가 할 수 있습니다

코드 예제 (키워드 추출)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
require_once " /path/to/your/class/JiebaAnalyse.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  JiebaAnalyse ;
Jieba:: init ( array ( ' mode ' => ' test ' , ' dict ' => ' small ' ));
Finalseg:: init ();
JiebaAnalyse:: init ();

$ top_k = 10 ;
$ content = file_get_contents ( " /path/to/your/dict/lyric.txt " , " r " );

$ tags = JiebaAnalyse:: extractTags ( $ content , $ top_k );

var_dump ( $ tags );

JiebaAnalyse:: setStopWords ( ' /path/to/your/dict/stop_words.txt ' );

$ tags = JiebaAnalyse:: extractTags ( $ content , $ top_k );

var_dump ( $ tags );

산출:

 array ( 10 ) {
  '沒有' =>
  double( 1.0592831964595 )
  '所謂' =>
  double( 0.90795702553671 )
  '是否' =>
  double( 0.66385043195443 )
  '一般' =>
  double( 0.54607060161899 )
  '雖然' =>
  double( 0.30265234184557 )
  '來說' =>
  double( 0.30265234184557 )
  '肌迫' =>
  double( 0.30265234184557 )
  '退縮' =>
  double( 0.30265234184557 )
  '矯作' =>
  double( 0.30265234184557 )
  '怯懦' =>
  double( 0.24364586159392 )
}
array ( 10 ) {
  '所謂' =>
  double( 1.1569129841516 )
  '一般' =>
  double( 0.69579963754677 )
  '矯作' =>
  double( 0.38563766138387 )
  '來說' =>
  double( 0.38563766138387 )
  '退縮' =>
  double( 0.38563766138387 )
  '雖然' =>
  double( 0.38563766138387 )
  '肌迫' =>
  double( 0.38563766138387 )
  '怯懦' =>
  double( 0.31045198493419 )
  '隨便說說' =>
  double( 0.19281883069194 )
  '一場' =>
  double( 0.19281883069194 )
}

함수 4) : 부분 단어 분할

언어 설명의 일부 : https://gist.github.com/luw2007/6016931

코드 예제 (튜토리얼)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Posseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  Posseg ;
Jieba:: init ();
Finalseg:: init ();
Posseg:: init ();

$ seg_list = Posseg:: cut ( "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。 " );
var_dump ( $ seg_list );

산출:

 array ( 21 ) {
  [ 0 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "这"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 1 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "是"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 2 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "一个"
    [ " tag " ]=>
    string( 1 ) " m "
  }
  [ 3 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 18 ) "伸手不见五指"
    [ " tag " ]=>
    string( 1 ) " i "
  }
  [ 4 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "的"
    [ " tag " ]=>
    string( 2 ) " uj "
  }
  [ 5 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "黑夜"
    [ " tag " ]=>
    string( 1 ) " n "
  }
  [ 6 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " x "
  }
  [ 7 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 8 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "叫"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 9 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 9 ) "孙悟空"
    [ " tag " ]=>
    string( 2 ) " nr "
  }
  [ 10 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " x "
  }
  [ 11 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 12 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 13 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "北京"
    [ " tag " ]=>
    string( 2 ) " ns "
  }
  [ 14 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " x "
  }
  [ 15 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 16 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 17 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) " Python "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 18 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "和"
    [ " tag " ]=>
    string( 1 ) " c "
  }
  [ 19 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " C++ "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 20 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " x "
  }
}

기능 5) : 전통적인 중국 사전으로 전환하십시오

코드 예제 (튜토리얼)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' default ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "憐香惜玉也得要看對象啊！ " );
var_dump ( $ seg_list );

산출:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}
array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "憐香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "對象"
  [ 6 ]=>
  string( 3 ) "啊"
}

기능 5) : 전통적인 중국 사전으로 전환하십시오

코드 예제 (튜토리얼)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' default ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "憐香惜玉也得要看對象啊！ " );
var_dump ( $ seg_list );

산출:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}
array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "憐香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "對象"
  [ 6 ]=>
  string( 3 ) "啊"
}

기능 6) : 필터링없이 원래 일본어 또는 한국어 텍스트를 유지하십시오.

코드 예제 (튜토리얼)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' cjk ' => ' all ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( " 한국어 또는 조선말은 제주특별자치도를 제외한 한반도 및 그 부속 도서와 한민족 거주 지역에서 쓰이는 언어로 " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

// 加载日语词库可以对日语进行简单的分词
Jieba:: loadUserDict ( " /path/to/your/japanese/dict.txt " );
$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

산출:

 array ( 15 ) {
  [ 0 ]=>
  string( 9 ) " 한국어 "
  [ 1 ]=>
  string( 6 ) " 또는 "
  [ 2 ]=>
  string( 12 ) " 조선말은 "
  [ 3 ]=>
  string( 24 ) " 제주특별자치도를 "
  [ 4 ]=>
  string( 9 ) " 제외한 "
  [ 5 ]=>
  string( 9 ) " 한반도 "
  [ 6 ]=>
  string( 3 ) " 및 "
  [ 7 ]=>
  string( 3 ) " 그 "
  [ 8 ]=>
  string( 6 ) " 부속 "
  [ 9 ]=>
  string( 9 ) " 도서와 "
  [ 10 ]=>
  string( 9 ) " 한민족 "
  [ 11 ]=>
  string( 6 ) " 거주 "
  [ 12 ]=>
  string( 12 ) " 지역에서 "
  [ 13 ]=>
  string( 9 ) " 쓰이는 "
  [ 14 ]=>
  string( 9 ) " 언어로 "
}
array ( 21 ) {
  [ 0 ]=>
  string( 6 ) "日本"
  [ 1 ]=>
  string( 3 ) "語"
  [ 2 ]=>
  string( 3 ) "は"
  [ 3 ]=>
  string( 3 ) "主"
  [ 4 ]=>
  string( 3 ) "に"
  [ 5 ]=>
  string( 6 ) "日本"
  [ 6 ]=>
  string( 6 ) "国内"
  [ 7 ]=>
  string( 3 ) "や"
  [ 8 ]=>
  string( 6 ) "日本"
  [ 9 ]=>
  string( 3 ) "人"
  [ 10 ]=>
  string( 6 ) "同士"
  [ 11 ]=>
  string( 3 ) "の"
  [ 12 ]=>
  string( 3 ) "間"
  [ 13 ]=>
  string( 3 ) "で"
  [ 14 ]=>
  string( 3 ) "使"
  [ 15 ]=>
  string( 3 ) "わ"
  [ 16 ]=>
  string( 6 ) "れて"
  [ 17 ]=>
  string( 6 ) "いる"
  [ 18 ]=>
  string( 6 ) "言語"
  [ 19 ]=>
  string( 3 ) "で"
  [ 20 ]=>
  string( 6 ) "ある"
}
array ( 17 ) {
  [ 0 ]=>
  string( 9 ) "日本語"
  [ 1 ]=>
  string( 3 ) "は"
  [ 2 ]=>
  string( 6 ) "主に"
  [ 3 ]=>
  string( 9 ) "日本国"
  [ 4 ]=>
  string( 3 ) "内"
  [ 5 ]=>
  string( 3 ) "や"
  [ 6 ]=>
  string( 9 ) "日本人"
  [ 7 ]=>
  string( 6 ) "同士"
  [ 8 ]=>
  string( 3 ) "の"
  [ 9 ]=>
  string( 3 ) "間"
  [ 10 ]=>
  string( 3 ) "で"
  [ 11 ]=>
  string( 3 ) "使"
  [ 12 ]=>
  string( 3 ) "わ"
  [ 13 ]=>
  string( 6 ) "れて"
  [ 14 ]=>
  string( 6 ) "いる"
  [ 15 ]=>
  string( 6 ) "言語"
  [ 16 ]=>
  string( 9 ) "である"
}

함수 7) : 원본 텍스트의 시작 및 끝 위치에서 단어를 반환합니다.

코드 예제 (튜토리얼)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' test ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: tokenize ( "永和服装饰品有限公司" );
var_dump ( $ seg_list );

산출:

 array ( 4 ) {
  [ 0 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 6 ) "永和"
    ' start ' =>
    int( 0 )
    ' end ' =>
    int( 2 )
  }
  [ 1 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 6 ) "服装"
    ' start ' =>
    int( 2 )
    ' end ' =>
    int( 4 )
  }
  [ 2 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 6 ) "饰品"
    ' start ' =>
    int( 4 )
    ' end ' =>
    int( 6 )
  }
  [ 3 ] =>
  array ( 3 ) {
    ' word ' =>
    string( 12 ) "有限公司"
    ' start ' =>
    int( 6 )
    ' end ' =>
    int( 10 )
  }
}

다른 사전

https://github.com/fukuball/jieba-php/blob/master/src/dict/dict.txt
전통적인 중국 동사 동사 https://github.com/fukuball/jieba-php/blob/master/src/dict/dict.big.txt를 지원하는 사전

자주 묻는 질문

모델의 데이터는 어떻게 생성됩니까? fxsjy/jieba#7
이 도서관의 승인은 무엇입니까? fxsjy/jieba#2

Jieba-PHP 영어 문서

온라인 데모

데모 사이트 URL : http://jieba-php.fukuball.com
데모 사이트 리포 : https://github.com/fukuball/jieba-php.fukuball.com

특징

세 가지 분할 모드의 세 가지 유형을 지원합니다.
1. 정확한 모드, 문장을 가장 정확한 세분화로 잘라 내려고 시도하며, 이는 텍스트 분석에 적합합니다.
1. 전체 모드, 문장의 단어를 스캔 한 단어로 나눕니다.
1. 정확한 모드에 따라 검색 엔진 모드는 긴 단어를 몇 개의 짧은 단어로 자르려고 시도하여 리콜 속도를 향상시킬 수 있습니다.

용법

설치 : Composer를 사용하여 Jieba-PHP를 설치 한 다음 Autoload 파일에 Jieba-PHP를 사용해야합니다.

연산

효율적인 단어 그래프 스캔을 달성하기 위해 트리 트리 구조를 기반으로합니다. 한자를 사용한 문장은 지시 된 acyclic 그래프 (DAG)를 구성합니다.
단어 주파수 조합에 기초하여 최대 접선 지점을 식별하기 위해 최대 확률 경로를 계산하기 위해 메모리 검색을 사용합니다.
알 수없는 단어의 경우 Viterbi 알고리즘을 사용하여 문자 위치 hmm 기반 모델이 사용됩니다.
bems fxsjy/jieba#7의 의미.

인터페이스

cut 메소드는 두 가지 매개 변수를 허용합니다. 1) 첫 번째 매개 변수는 문자열에서 cut_all 입니다.
세그먼트로 문자열은 UTF-8 문자열을 사용할 수 있습니다.
cutForSearch 매개 변수에만 accpet을 accpet : 세분화가 필요한 문자열이 있으면 문장을 짧은 단어로 자릅니다.
cut 및 cutForSearch 세그먼트 배열을 반환합니다.

함수 1) 분할

예제 (튜토리얼)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ();
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

seg_list = jieba. cut ( "我来到北京清华大学" , true )
var_dump ( $ seg_list ); #全模式

seg_list = jieba. cut ( "我来到北京清华大学" , false )
var_dump ( $ seg_list ); #默認精確模式

seg_list = jieba. cut ( "他来到了网易杭研大厦" )
var_dump ( $ seg_list );

seg_list = jieba. cut_for_search ( "小明硕士毕业于中国科学院计算所，后在日本京都大学深造" ) #搜索引擎模式
var_dump ( $ seg_list );

산출:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}

Full Mode:
array ( 15 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 3 ) "来"
  [ 2 ]=>
  string( 6 ) "来到"
  [ 3 ]=>
  string( 3 ) "到"
  [ 4 ]=>
  string( 3 ) "北"
  [ 5 ]=>
  string( 6 ) "北京"
  [ 6 ]=>
  string( 3 ) "京"
  [ 7 ]=>
  string( 3 ) "清"
  [ 8 ]=>
  string( 6 ) "清华"
  [ 9 ]=>
  string( 12 ) "清华大学"
  [ 10 ]=>
  string( 3 ) "华"
  [ 11 ]=>
  string( 6 ) "华大"
  [ 12 ]=>
  string( 3 ) "大"
  [ 13 ]=>
  string( 6 ) "大学"
  [ 14 ]=>
  string( 3 ) "学"
}

Default Mode:
array ( 4 ) {
  [ 0 ]=>
  string( 3 ) "我"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 6 ) "北京"
  [ 3 ]=>
  string( 12 ) "清华大学"
}
array ( 6 ) {
  [ 0 ]=>
  string( 3 ) "他"
  [ 1 ]=>
  string( 6 ) "来到"
  [ 2 ]=>
  string( 3 ) "了"
  [ 3 ]=>
  string( 6 ) "网易"
  [ 4 ]=>
  string( 6 ) "杭研"
  [ 5 ]=>
  string( 6 ) "大厦"
}
(此處，“杭研“並沒有在詞典中，但是也被 Viterbi 算法識別出來了)

Search Engine Mode:
array ( 18 ) {
  [ 0 ]=>
  string( 6 ) "小明"
  [ 1 ]=>
  string( 6 ) "硕士"
  [ 2 ]=>
  string( 6 ) "毕业"
  [ 3 ]=>
  string( 3 ) "于"
  [ 4 ]=>
  string( 6 ) "中国"
  [ 5 ]=>
  string( 6 ) "科学"
  [ 6 ]=>
  string( 6 ) "学院"
  [ 7 ]=>
  string( 9 ) "科学院"
  [ 8 ]=>
  string( 15 ) "中国科学院"
  [ 9 ]=>
  string( 6 ) "计算"
  [ 10 ]=>
  string( 9 ) "计算所"
  [ 11 ]=>
  string( 3 ) "后"
  [ 12 ]=>
  string( 3 ) "在"
  [ 13 ]=>
  string( 6 ) "日本"
  [ 14 ]=>
  string( 6 ) "京都"
  [ 15 ]=>
  string( 6 ) "大学"
  [ 16 ]=>
  string( 18 ) "日本京都大学"
  [ 17 ]=>
  string( 6 ) "深造"
}

기능 2) 사용자 정의 사전을 추가하십시오

개발자는 Jieba 시소러스에 포함 할 고유 한 사용자 정의 사전을 지정할 수 있습니다. Jieba는 새로운 단어를 식별 할 수 있지만 자신의 새로운 단어를 추가하면 올바른 세분화 속도가 높아질 수 있습니다.
사용법 : Jieba::loadUserDict(file_name) # file_name은 사용자 정의 사전 경로입니다.
사전 형식은 dict.txt 의 형식과 동일합니다. 줄 당 한 단어; 각 선은 두 부분으로 나뉩니다. 첫 번째는 단어 자체이고 다른 하나는 공간으로 분리 된 단어 주파수입니다.
예:
클라우드 컴퓨팅 5 Li Xiaofu 2 Innovation Office 3
이전 : Li Xiaofu/YES/혁신/사무실/디렉터/예/예/클라우드/컴퓨팅/증거/적절한 시소러스를로드 한 후 : Li XiaoFu/예/혁신/사무실/감독/예/예/Cloud/증거/

기능 3) 키워드 추출

jiebaanalyse :: extracttags ($ content, $ top_k)
내용 : 추출 할 텍스트
TOP_K : 가장 큰 키워드에 대해 여러 tf/idf 가중치를 반환하려면 기본값은 20입니다.

예제 (키워드 추출)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once " /path/to/your/vendor/multi-array/MultiArray.php " ;
require_once " /path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once " /path/to/your/class/Jieba.php " ;
require_once " /path/to/your/class/Finalseg.php " ;
require_once " /path/to/your/class/JiebaAnalyse.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  JiebaAnalyse ;
Jieba:: init ( array ( ' mode ' => ' test ' , ' dict ' => ' small ' ));
Finalseg:: init ();
JiebaAnalyse:: init ();

$ top_k = 10 ;
$ content = file_get_contents ( " /path/to/your/dict/lyric.txt " , " r " );

$ tags = JiebaAnalyse:: extractTags ( $ content , $ top_k );

var_dump ( $ tags );

산출:

 array ( 10 ) {
  [ "是否" ]=>
  float( 1.2196321889395 )
  [ "一般" ]=>
  float( 1.0032459890209 )
  [ "肌迫" ]=>
  float( 0.64654314660465 )
  [ "怯懦" ]=>
  float( 0.44762844339349 )
  [ "藉口" ]=>
  float( 0.32327157330233 )
  [ "逼不得已" ]=>
  float( 0.32327157330233 )
  [ "不安全感" ]=>
  float( 0.26548304656279 )
  [ "同感" ]=>
  float( 0.23929673812326 )
  [ "有把握" ]=>
  float( 0.21043366018744 )
  [ "空洞" ]=>
  float( 0.20598261709442 )
}

함수 4) 단어 세분화 및 태깅

단어 태깅 의미 : https://gist.github.com/luw2007/6016931

예제 (단어 태깅)

 ini_set ( ' memory_limit ' , ' 600M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Posseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
use Fukuball  Jieba  Posseg ;
Jieba:: init ();
Finalseg:: init ();
Posseg:: init ();

$ seg_list = Posseg:: cut ( "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。 " );
var_dump ( $ seg_list );

산출:

 array ( 21 ) {
  [ 0 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "这"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 1 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "是"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 2 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "一个"
    [ " tag " ]=>
    string( 1 ) " m "
  }
  [ 3 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 18 ) "伸手不见五指"
    [ " tag " ]=>
    string( 1 ) " i "
  }
  [ 4 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "的"
    [ " tag " ]=>
    string( 2 ) " uj "
  }
  [ 5 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "黑夜"
    [ " tag " ]=>
    string( 1 ) " n "
  }
  [ 6 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " w "
  }
  [ 7 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 8 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "叫"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 9 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 9 ) "孙悟空"
    [ " tag " ]=>
    string( 2 ) " nr "
  }
  [ 10 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " w "
  }
  [ 11 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 12 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 13 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) "北京"
    [ " tag " ]=>
    string( 2 ) " ns "
  }
  [ 14 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " ， "
    [ " tag " ]=>
    string( 1 ) " w "
  }
  [ 15 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "我"
    [ " tag " ]=>
    string( 1 ) " r "
  }
  [ 16 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "爱"
    [ " tag " ]=>
    string( 1 ) " v "
  }
  [ 17 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 6 ) " Python "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 18 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) "和"
    [ " tag " ]=>
    string( 1 ) " c "
  }
  [ 19 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " C++ "
    [ " tag " ]=>
    string( 3 ) " eng "
  }
  [ 20 ]=>
  array ( 2 ) {
    [ " word " ]=>
    string( 3 ) " 。 "
    [ " tag " ]=>
    string( 1 ) " w "
  }
}

기능 5) : 전통적인 중국어를 사용하십시오

예제 (튜토리얼)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' mode ' => ' default ' , ' dict ' => ' big ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( "怜香惜玉也得要看对象啊！ " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "憐香惜玉也得要看對象啊！ " );
var_dump ( $ seg_list );

산출:

 array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "怜香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "对象"
  [ 6 ]=>
  string( 3 ) "啊"
}
array ( 7 ) {
  [ 0 ]=>
  string( 12 ) "憐香惜玉"
  [ 1 ]=>
  string( 3 ) "也"
  [ 2 ]=>
  string( 3 ) "得"
  [ 3 ]=>
  string( 3 ) "要"
  [ 4 ]=>
  string( 3 ) "看"
  [ 5 ]=>
  string( 6 ) "對象"
  [ 6 ]=>
  string( 3 ) "啊"
}

기능 6) : 일본어 또는 한국 원본 텍스트를 유지합니다

예제 (튜토리얼)

 ini_set ( ' memory_limit ' , ' 1024M ' );

require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/MultiArray.php " ;
require_once dirname ( dirname ( __FILE__ )). " /vendor/multi-array/Factory/MultiArrayFactory.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Jieba.php " ;
require_once dirname ( dirname ( __FILE__ )). " /class/Finalseg.php " ;
use Fukuball  Jieba  Jieba ;
use Fukuball  Jieba  Finalseg ;
Jieba:: init ( array ( ' cjk ' => ' all ' ));
Finalseg:: init ();

$ seg_list = Jieba:: cut ( " 한국어 또는 조선말은 제주특별자치도를 제외한 한반도 및 그 부속 도서와 한민족 거주 지역에서 쓰이는 언어로 " );
var_dump ( $ seg_list );

$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

// Loading custom Japanese dictionary can do a simple word segmentation
Jieba:: loadUserDict ( " /path/to/your/japanese/dict.txt " );
$ seg_list = Jieba:: cut ( "日本語は、主に日本国内や日本人同士の間で使われている言語である。 " );
var_dump ( $ seg_list );

산출:

 array ( 15 ) {
  [ 0 ]=>
  string( 9 ) " 한국어 "
  [ 1 ]=>
  string( 6 ) " 또는 "
  [ 2 ]=>
  string( 12 ) " 조선말은 "
  [ 3 ]=>
  string( 24 ) " 제주특별자치도를 "
  [ 4 ]=>
  string( 9 ) " 제외한 "
  [ 5 ]=>
  string( 9 ) " 한반도 "
  [ 6 ]=>
  string( 3 ) " 및 "
  [ 7 ]=>
  string( 3 ) " 그 "
  [ 8 ]=>
  string( 6 ) " 부속 "
  [ 9 ]=>
  string( 9 ) " 도서와 "
  [ 10 ]=>
  string( 9 ) " 한민족 "
  [ 11 ]=>
  string( 6 ) " 거주 "
  [ 12 ]=>
  string( 12 ) " 지역에서 "
  [ 13 ]=>
  string( 9 ) " 쓰이는 "
  [ 14 ]=>
  string( 9 ) " 언어로 "
}
array ( 21 ) {
  [ 0 ]=>
  string( 6 ) "日本"
  [ 1 ]=>
  string( 3 ) "語"
  [ 2 ]=>
  string( 3 ) "は"
  [ 3 ]=>
  string( 3 ) "主"
  [ 4 ]=>
  string( 3 ) "に"
  [ 5 ]=>
  string( 6 ) "日本"
  [ 6 ]=>
  string( 6 ) "国内"
  [ 7 ]=>
  string( 3 ) "や"
  [ 8 ]=>
  string( 6 ) "日本"
  [ 9 ]=>
  string( 3 ) "人"
  [ 10 ]=>
  string( 6 ) "同士"
  [ 11 ]=>
  string( 3 ) "の"
  [ 12 ]=>
  string( 3 ) "間"
  [ 13 ]=>
  string( 3 ) "で"
  [ 14 ]=>
  string( 3 ) "使"
  [ 15 ]=>
  string( 3 ) "わ"
  [ 16 ]=>
  string( 6 ) "れて"
  [ 17 ]=>
  string( 6 ) "いる"
  [ 18 ]=>
  string( 6 ) "言語"
  [ 19 ]=>
  string( 3 ) "で"
  [ 20 ]=>
  string( 6 ) "ある"
}
array ( 17 ) {
  [ 0 ]=>
  string( 9 ) "日本語"
  [ 1 ]=>
  string( 3 ) "は"
  [ 2 ]=>
  string( 6 ) "主に"
  [ 3 ]=>
  string( 9 ) "日本国"
  [ 4 ]=>
  string( 3 ) "内"
  [ 5 ]=>
  string( 3 ) "や"
  [ 6 ]=>
  string( 9 ) "日本人"
  [ 7 ]=>
  string( 6 ) "同士"
  [ 8 ]=>
  string( 3 ) "の"
  [ 9 ]=>
  string( 3 ) "間"
  [ 10 ]=>
  string( 3 ) "で"
  [ 11 ]=>
  string( 3 ) "使"
  [ 12 ]=>
  string( 3 ) "わ"
  [ 13 ]=>
  string( 6 ) "れて"
  [ 14 ]=>
  string( 6 ) "いる"
  [ 15 ]=>
  string( 6 ) "言語"
  [ 16 ]=>
  string( 9 ) "である"
}

연설 설명의 일부

 a 形容词 (取英语形容词 adjective 的第 1 个字母。)
  ad 副形词 (直接作状语的形容词，形容词代码 a 和副词代码 d 并在一起。)
  ag 形容词性语素 (形容词性语素，形容词代码为 a，语素代码 ｇ 前面置以 a。)
  an 名形词 (具有名词功能的形容词，形容词代码 a 和名词代码 n 并在一起。)
b 区别词 (取汉字「别」的声母。)
c 连词 (取英语连词 conjunction 的第 1 个字母。)
d 副词 (取 adverb 的第 2 个字母，因其第 1 个字母已用于形容词。)
  df 副词*
  dg 副语素 (副词性语素，副词代码为 d，语素代码 ｇ 前面置以 d。)
e 叹词 (取英语叹词 exclamation 的第 1 个字母。)
eng 外语
f 方位词 (取汉字「方」的声母。)
g 语素 (绝大多数语素都能作为合成词的「词根」，取汉字「根」的声母。)
h 前接成分 (取英语 head 的第 1 个字母。)
i 成语 (取英语成语 idiom 的第 1 个字母。)
j 简称略语 (取汉字「简」的声母。)
k 后接成分
l 习用语 (习用语尚未成为成语，有点「临时性」，取「临」的声母。)
m 数词 (取英语 numeral 的第 3 个字母，n，u 已有他用。)
  mg 数语素
  mq 数词*
n 名词 (取英语名词 noun 的第 1 个字母。)
  ng 名语素 (名词性语素，名词代码为 n，语素代码 ｇ 前面置以 n。)
  nr 人名 (名词代码n和「人(ren)」的声母并在一起。)
  nrfg 名词*
  nrt 名词*
  ns 地名 (名词代码 n 和处所词代码 s 并在一起。)
  nt 机构团体 (「团」的声母为 t，名词代码 n 和 t 并在一起。)
  nz 其他专名 (「专」的声母的第 1 个字母为 z，名词代码 n 和 z 并在一起。)
o 拟声词 (取英语拟声词 onomatopoeia 的第 1 个字母。)
p 介词 (取英语介词 prepositional 的第 1 个字母。)
q 量词 (取英语 quantity 的第 1 个字母。)
r 代词 (取英语代词 pronoun的 第 2 个字母，因 p 已用于介词。)
  rg 代词语素
  rr 代词*
  rz 代词*
s 处所词 (取英语 space 的第 1 个字母。)
t 时间词 (取英语 time 的第 1 个字母。)
  tg 时语素 (时间词性语素，时间词代码为 t，在语素的代码 g 前面置以 t。)
u 助词 (取英语助词 auxiliary 的第 2 个字母，因 a 已用于形容词。)
  ud 助词*
  ug 助词*
  uj 助词*
  ul 助词*
  uv 助词*
  uz 助词*
v 动词 (取英语动词 verb 的第一个字母。)
  vd 副动词 (直接作状语的动词，动词和副词的代码并在一起。)
  vg 动语素
  vi 动词*
  vn 名动词 (指具有名词功能的动词，动词和名词的代码并在一起。)
  vq 动词*
w 标点符号
x 非语素字 (非语素字只是一个符号，字母 x 通常用于代表未知数、符号。)
y 语气词 (取汉字「语」的声母。)
z 状态词 (取汉字「状」的声母的前一个字母。)
  zg 状态词*

기부

Fuku-ML이 유용하다고 생각되면 기부금을 고려하십시오. 감사합니다!

비트 코인 : 1BBIHQU3CZSDYLSP9BVQQ7PI1Z1JTDAAQ9
ETH : 0x92DA3F837BF2F79D422BB8CEAC632208F94CDE33

특허

MIT 라이센스 (MIT)

이에 따라이 소프트웨어 및 관련 문서 파일 ( "소프트웨어")의 사본을 얻는 사람에게는 허가가 부여되어 소프트웨어의 사용, 복사, 수정, 합병, 배포, 배포, 하위성 및/또는 소프트웨어가 소프트웨어를 판매 할 수있는 권한을 포함하여 제한없이 소프트웨어를 처리 할 수있는 사람에게 다음 조건을 적용 할 수 있습니다.

이 소프트웨어는 상업성, 특정 목적에 대한 적합성 및 비 침해에 대한 보증을 포함하여 명시 적 또는 묵시적 보증없이 "그대로"제공됩니다. 어떠한 경우에도 저자 또는 저작권 보유자는 계약, 불법 행위 또는 기타, 소프트웨어 또는 소프트웨어의 사용 또는 기타 거래에서 발생하는 계약, 불법 행위 또는 기타의 행동에 관계없이 청구, 손해 또는 기타 책임에 대해 책임을지지 않습니다.

확장하다