hanlp lucene plugin Download - hanlp lucene plugin Quellcode Download

hanlp lucene plugin

Anderer Quellcode

v1.1.6 常规维护

Herunterladen

Hanlp-Lucen-Plugin

HANLP Chinese Wort Partizip Lucene Plug-In

Basierend auf HANLP wird jedes Lucene (7.x) -basierte System einschließlich Solr (7.x) unterstützt.

Maven

    < dependency >
      < groupId >com.hankcs.nlp</ groupId >
      < artifactId >hanlp-lucene-plugin</ artifactId >
      < version >1.1.7</ version >
    </ dependency >

Solr fangen schnell an

Setzen Sie hanlp-portable.jar und hanlp-lucene-plugin.jar in ${webapp}/WEB-INF/lib . (Oder verwenden Sie mvn package , um den Quellcode zu verpacken und target/hanlp-lucene-plugin-xxxjar auf ${webapp}/WEB-INF/lib ) zu kopieren.
Ändern Sie die Konfigurationsdatei ${core}/conf/schema.xml von Solr Core:

  < fieldType name = " text_cn " class = " solr.TextField " >
      < analyzer type = " index " >
          < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " true " />
      </ analyzer >
      < analyzer type = " query " >
          <!-- 切记不要在query中开启index模式 -->
          < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " false " />
      </ analyzer >
  </ fieldType >
  <!-- 业务系统中需要分词的字段都需要指定type为text_cn -->
  < field name = " my_field1 " type = " text_cn " indexed = " true " stored = " true " />
  < field name = " my_field2 " type = " text_cn " indexed = " true " stored = " true " />

Wenn Sie andere Felder in Ihrem Geschäftssystem haben, z. B. Standort, Zusammenfassung usw., müssen Sie auch nacheinander die type = "text_cn" angeben. Denken Sie daran, ansonsten sind diese Felder immer noch der Solr -Standard -Wortsegmentierer.
Denken Sie auch daran, IndexModes in der Abfrage nicht zu aktivieren, andernfalls wirkt sich dies auf die Phase aus. IndexMode muss nur einmal im Index aktiviert werden.

Erweiterte Konfiguration

Derzeit unterstützt dieses Plug-In die folgenden Konfigurationen basierend auf schema.xml :

Konfigurationselementname	Funktion	Standardwert
Algorithmus	Wortpartizipalgorithmus	Viterbi
aktivierenIndexMode	Setzen Sie den Indexmodus (in der Abfrage nicht einschalten).	WAHR
EnsableCustomDictionary	Ob das Benutzerwörterbuch aktiviert werden soll	WAHR
CustomDictionaryPath	Benutzer -Wörterbuchpfad (Absolutes Pfad oder relativer Pfad, der durch das Programm gelesen werden kann, durch mehrere Wörterbücher durch Leerzeichen getrennt werden)	NULL
EnableCustomDictionaryCorcing	User Dictionary hohe Priorität	FALSCH
StopwordDictionaryPath	Stoppen Sie den Wortwörterbuchpfad	NULL
EnderalNumberquantifierRecognize	Ob die numerische und quantitative Worterkennung aktiviert werden soll	WAHR
Enablenamerecogize	Schalten Sie die Erkennung von Personnamen ein	WAHR
EnableTranslatedNamerecogizize	Ob die Erkennung von transliterierten Personennamen aktiviert werden soll	FALSCH
Aktivieren Sie Japanien	Ob die japanische Namenserkennung aktiviert werden soll	FALSCH
Enableorganization Recognize	Schalten Sie die Anerkennung der Organisation Name ein	FALSCH
aktivieren	Legen Sie den Ortsnamenerkennung ab	FALSCH
Erlöschung	Ob Sie die Regularisierung von Zeichen durchführen (traditionell-> vereinfacht, Vollbreite-> Halbbreite, obere Kasse)	FALSCH
EnabletradeSeMode	Schalten Sie präzise traditionelle chinesische Wortsegmentierung ein	FALSCH
EnableDebug	Schalten Sie den Debug -Modus ein	FALSCH

Erweiterte Konfigurationen werden hauptsächlich über hanlp.properties unter dem Klassenpfad konfiguriert. Bitte lesen Sie die HANLP -Dokumentation für natürliche Sprachverarbeitungspakete für mehr verwandte Konfigurationen, wie z. B.:

Benutzerwörterbuch
Teil der Sprachanmerkung
Vereinfachte und traditionelle chinesische Konvertierung
...

Stoppen Sie Wörter und Synonyme

Es wird empfohlen, die Filterimplementierung von Lucene oder Solr zu verwenden. Dieses Plug-In stört nicht. Eine Beispielkonfiguration ist wie folgt:

    <!-- text_cn字段类型: 指定使用HanLP分词器，同时开启索引模式。通过solr自带的停用词过滤器，使用"stopwords.txt"（默认空白）过滤。
	 在搜索的时候，还支持solr自带的同义词词典。 -->
    < fieldType name = " text_cn " class = " solr.TextField " positionIncrementGap = " 100 " >
      < analyzer type = " index " >
        < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " true " />
        < filter class = " solr.StopFilterFactory " ignoreCase = " true " words = " stopwords.txt " />
        <!-- 取消注释可以启用索引期间的同义词词典
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        < filter class = " solr.LowerCaseFilterFactory " />
      </ analyzer >
      < analyzer type = " query " >
        < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " false " />
        < filter class = " solr.StopFilterFactory " ignoreCase = " true " words = " stopwords.txt " />
        < filter class = " solr.SynonymFilterFactory " synonyms = " synonyms.txt " ignoreCase = " true " expand = " true " />
        < filter class = " solr.LowerCaseFilterFactory " />
      </ analyzer >
    </ fieldType >
    <!-- 业务系统中需要分词的字段都需要指定type为text_cn -->
    < field name = " my_field1 " type = " text_cn " indexed = " true " stored = " true " />
    < field name = " my_field2 " type = " text_cn " indexed = " true " stored = " true " />

Aufrufen von Methoden

Wenn Sie die Abfrage neu schreiben

 String text = "中华人民共和国很辽阔" ;
for ( int i = 0 ; i < text . length (); ++ i )
{
    System . out . print ( text . charAt ( i ) + "" + i + " " );
}
System . out . println ();
Analyzer analyzer = new HanLPAnalyzer ();
TokenStream tokenStream = analyzer . tokenStream ( "field" , text );
tokenStream . reset ();
while ( tokenStream . incrementToken ())
{
    CharTermAttribute attribute = tokenStream . getAttribute ( CharTermAttribute . class );
    // 偏移量
    OffsetAttribute offsetAtt = tokenStream . getAttribute ( OffsetAttribute . class );
    // 距离
    PositionIncrementAttribute positionAttr = tokenStream . getAttribute ( PositionIncrementAttribute . class );
    // 词性
    TypeAttribute typeAttr = tokenStream . getAttribute ( TypeAttribute . class );
    System . out . printf ( "[%d:%d %d] %s/%s n " , offsetAtt . startOffset (), offsetAtt . endOffset (), positionAttr . getPositionIncrement (), attribute , typeAttr . type ());
}

In anderen Szenarien wird Hanlptokenizer durch benutzerdefinierte Wortsegmentierung (z. B. Word -Segmentierung, die benannte Entitätserkennung, traditionelle chinesische Wortsegmentierung, CRF -Wortsegmentierung usw. ermöglicht) unterstützt:

 tokenizer = new HanLPTokenizer ( HanLP . newSegment ()
                                    . enableJapaneseNameRecognize ( true )
                                    . enableIndexMode ( true ), null , false );
tokenizer . setReader ( new StringReader ( "林志玲亮相网友:确定不是波多野结衣？" ));