hanlp lucene plugin Download - hanlp lucene plugin

hanlp lucene plugin

Другой исходный код

v1.1.6 常规维护

Скачать

HANLP-LUCENE-PLUGIN

HANLP Китайское слово причастие Lucene Plugin

На основе HANLP поддерживается любая система на основе Lucene (7.x), включая Solr (7.x).

Мавен

    < dependency >
      < groupId >com.hankcs.nlp</ groupId >
      < artifactId >hanlp-lucene-plugin</ artifactId >
      < version >1.1.7</ version >
    </ dependency >

Solr начинается быстро

Поместите hanlp-portable.jar и hanlp-lucene-plugin.jar в ${webapp}/WEB-INF/lib . (Или используйте mvn package для упаковки исходного кода и копирования target/hanlp-lucene-plugin-xxxjar в ${webapp}/WEB-INF/lib )
Измените файл конфигурации ${core}/conf/schema.xml of solr core:

  < fieldType name = " text_cn " class = " solr.TextField " >
      < analyzer type = " index " >
          < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " true " />
      </ analyzer >
      < analyzer type = " query " >
          <!-- 切记不要在query中开启index模式 -->
          < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " false " />
      </ analyzer >
  </ fieldType >
  <!-- 业务系统中需要分词的字段都需要指定type为text_cn -->
  < field name = " my_field1 " type = " text_cn " indexed = " true " stored = " true " />
  < field name = " my_field2 " type = " text_cn " indexed = " true " stored = " true " />

Если у вас есть другие поля в вашей бизнес -системе, такие как местоположение, сводка и т. Д., Вам также необходимо указать его тип = "text_cn" один за другим. Помните, что в противном случае эти поля все еще будут сегментером слов Solr.
Кроме того, помните, чтобы не включать IndexMode в запросе, в противном случае это повлияет на PhaseQuery. IndexMode должен быть включен только в индексе один раз.

Расширенная конфигурация

В настоящее время этот плагин поддерживает следующие конфигурации на основе schema.xml :

Название элемента конфигурации	Функция	значение по умолчанию
алгоритм	Слово алгоритм причастия	Витерби
inableIndExmode	Установить в режим индекса (не включайте в запросе)	истинный
EnableCustomdictionary	Сообщите ли пользовательский словарь	истинный
CustomDictionaryPath	Путь пользовательского словаря (абсолютный путь или относительный путь, который может быть прочитал программой, разделенную несколькими словарями по пространствам)	нулевой
eNableCustomDictionAring	Пользовательский словарь высокий приоритет	ЛОЖЬ
StopWordDictionaryPath	Остановить путь словесного словаря	нулевой
eNablenumberQuantifierRecognize	Сообщить ли числовое и количественное распознавание слов	истинный
EnablenAmereCognize	Включите признание имени человека	истинный
EnableTransLatedNamereCognize	Сообщить ли транзитерированное распознавание имени человека	ЛОЖЬ
Включить JapanesEnamereCognize	Допустить ли японское распознавание имени	ЛОЖЬ
EnableorganizationRecognize	Включите признание имени организации	ЛОЖЬ
Включить Placerecognize	Включите распознавание названия места	ЛОЖЬ
включенная	Будь то регуляризация символов (традиционная-> упрощенная, полная ширина-> полугодная, верхняя-> нижняя часть)	ЛОЖЬ
EnableTraditionalChineseMode	Включите точную традиционную сегментацию китайского слова	ЛОЖЬ
Enablebebug	Включите режим отладки	ЛОЖЬ

Более расширенные конфигурации в основном настроены через hanlp.properties под пути класса. Пожалуйста, прочитайте документацию HANLP Natural Language Package Package для получения более связанных конфигураций, таких как:

Пользовательский словарь
Часть речевой аннотации
Упрощенное и традиционное китайское обращение
...

Остановить слова и синонимы

Рекомендуется использовать собственную реализацию фильтра Lucene или Solr, этот плагин не будет мешать. Пример конфигурации заключается в следующем:

    <!-- text_cn字段类型: 指定使用HanLP分词器，同时开启索引模式。通过solr自带的停用词过滤器，使用"stopwords.txt"（默认空白）过滤。
	 在搜索的时候，还支持solr自带的同义词词典。 -->
    < fieldType name = " text_cn " class = " solr.TextField " positionIncrementGap = " 100 " >
      < analyzer type = " index " >
        < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " true " />
        < filter class = " solr.StopFilterFactory " ignoreCase = " true " words = " stopwords.txt " />
        <!-- 取消注释可以启用索引期间的同义词词典
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        < filter class = " solr.LowerCaseFilterFactory " />
      </ analyzer >
      < analyzer type = " query " >
        < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " false " />
        < filter class = " solr.StopFilterFactory " ignoreCase = " true " words = " stopwords.txt " />
        < filter class = " solr.SynonymFilterFactory " synonyms = " synonyms.txt " ignoreCase = " true " expand = " true " />
        < filter class = " solr.LowerCaseFilterFactory " />
      </ analyzer >
    </ fieldType >
    <!-- 业务系统中需要分词的字段都需要指定type为text_cn -->
    < field name = " my_field1 " type = " text_cn " indexed = " true " stored = " true " />
    < field name = " my_field2 " type = " text_cn " indexed = " true " stored = " true " />

Вызов методов

При переписывании запроса вы можете использовать роль речи и других атрибутов в результате причастию Hanlpanalyzer, например, как

 String text = "中华人民共和国很辽阔" ;
for ( int i = 0 ; i < text . length (); ++ i )
{
    System . out . print ( text . charAt ( i ) + "" + i + " " );
}
System . out . println ();
Analyzer analyzer = new HanLPAnalyzer ();
TokenStream tokenStream = analyzer . tokenStream ( "field" , text );
tokenStream . reset ();
while ( tokenStream . incrementToken ())
{
    CharTermAttribute attribute = tokenStream . getAttribute ( CharTermAttribute . class );
    // 偏移量
    OffsetAttribute offsetAtt = tokenStream . getAttribute ( OffsetAttribute . class );
    // 距离
    PositionIncrementAttribute positionAttr = tokenStream . getAttribute ( PositionIncrementAttribute . class );
    // 词性
    TypeAttribute typeAttr = tokenStream . getAttribute ( TypeAttribute . class );
    System . out . printf ( "[%d:%d %d] %s/%s n " , offsetAtt . startOffset (), offsetAtt . endOffset (), positionAttr . getPositionIncrement (), attribute , typeAttr . type ());
}

В других сценариях HanlptOkenizer поддерживается пользовательской сегментацией слов (например, сегментация слов, которая позволяет распознавать названные объекты, традиционная сегментация китайских слов, сегментация слов CRF и т. Д.), Такие, как:

 tokenizer = new HanLPTokenizer ( HanLP . newSegment ()
                                    . enableJapaneseNameRecognize ( true )
                                    . enableIndexMode ( true ), null , false );
tokenizer . setReader ( new StringReader ( "林志玲亮相网友:确定不是波多野结衣？" ));