Unduh hanlp lucene plugin - Unduh Kode Sumber hanlp lucene plugin

hanlp lucene plugin

Kode sumber lainnya

v1.1.6 常规维护

Unduh

HANLP-LUCENE-PLUGIN

Hanlp Chinese Word participle lucene plug-in

Berdasarkan HANLP, sistem berbasis Lucene (7.x) termasuk Solr (7.x) didukung.

Maven

    < dependency >
      < groupId >com.hankcs.nlp</ groupId >
      < artifactId >hanlp-lucene-plugin</ artifactId >
      < version >1.1.7</ version >
    </ dependency >

Solr memulai dengan cepat

Masukkan hanlp-portable.jar dan hanlp-lucene-plugin.jar ke dalam ${webapp}/WEB-INF/lib . (Atau gunakan mvn package untuk mengemas kode sumber dan salin target/hanlp-lucene-plugin-xxxjar ke ${webapp}/WEB-INF/lib )
Ubah file konfigurasi ${core}/conf/schema.xml dari solr core:

  < fieldType name = " text_cn " class = " solr.TextField " >
      < analyzer type = " index " >
          < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " true " />
      </ analyzer >
      < analyzer type = " query " >
          <!-- 切记不要在query中开启index模式 -->
          < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " false " />
      </ analyzer >
  </ fieldType >
  <!-- 业务系统中需要分词的字段都需要指定type为text_cn -->
  < field name = " my_field1 " type = " text_cn " indexed = " true " stored = " true " />
  < field name = " my_field2 " type = " text_cn " indexed = " true " stored = " true " />

Jika Anda memiliki bidang lain dalam sistem bisnis Anda, seperti lokasi, ringkasan, dll., Anda juga perlu menentukan tipe = "text_cn" satu per satu. Ingat, jika tidak bidang ini masih akan menjadi Solr Default Word Segmenter.
Juga, ingatlah untuk tidak mengaktifkan IndexMode dalam kueri, jika tidak, ia akan memengaruhi FaseQuery. IndexMode hanya perlu diaktifkan dalam indeks sekali.

Konfigurasi lanjutan

Saat ini, plug-in ini mendukung konfigurasi berikut berdasarkan schema.xml :

Nama Item Konfigurasi	Fungsi	nilai default
algoritma	Algoritma participle kata	Viterbi
EnableIndexMode	Setel ke Mode Indeks (JANGAN Nyalakan dalam Kueri)	BENAR
enableCustomDictionary	Apakah akan mengaktifkan kamus pengguna	BENAR
CustomDictionaryPath	Jalur Kamus Pengguna (jalur absolut atau jalur relatif yang dapat dibaca oleh program, dipisahkan oleh beberapa kamus berdasarkan ruang)	batal
enableCustomDictionary menguntungkan	Kamus Pengguna Prioritas Tinggi	PALSU
stopworddictionarypath	Hentikan Jalur Kamus Kata	batal
enablenumberquantifierrecognize	Apakah akan mengaktifkan pengenalan kata numerik dan kuantitatif	BENAR
enablenamerCognize	Nyalakan Pengenalan Nama Orang	BENAR
enabletranslatednamerCognize	Apakah akan mengaktifkan pengenalan nama orang transliterasi	PALSU
Aktifkan JapaneSenamerCognize	Apakah akan mengaktifkan pengakuan nama Jepang	PALSU
EnableOrganization berkenalan	Nyalakan Pengakuan Nama Organisasi	PALSU
aktifkanPlacerCognize	Nyalakan Pengenalan Nama Tempat	PALSU
Enablenormalisasi	Apakah akan melakukan regularisasi karakter (tradisional-> disederhanakan, lebar penuh-> setengah lebar, atas-> kasus bawah)	PALSU
enableTrAditionalChineseMode	Nyalakan Segmentasi Kata Tiongkok Tradisional yang Tepat	PALSU
Enabledebug	Nyalakan mode debug	PALSU

Konfigurasi yang lebih canggih terutama dikonfigurasi melalui hanlp.properties di bawah jalur kelas. Harap baca dokumentasi paket pemrosesan bahasa alami HANLP untuk konfigurasi yang lebih terkait, seperti:

Kamus Pengguna
Bagian dari anotasi ucapan
Konversi Cina yang disederhanakan dan tradisional
...

Hentikan kata -kata dan sinonim

Dianjurkan untuk menggunakan implementasi filter Lucene atau Solr sendiri, plug-in ini tidak akan mengganggu. Contoh konfigurasi adalah sebagai berikut:

    <!-- text_cn字段类型: 指定使用HanLP分词器，同时开启索引模式。通过solr自带的停用词过滤器，使用"stopwords.txt"（默认空白）过滤。
	 在搜索的时候，还支持solr自带的同义词词典。 -->
    < fieldType name = " text_cn " class = " solr.TextField " positionIncrementGap = " 100 " >
      < analyzer type = " index " >
        < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " true " />
        < filter class = " solr.StopFilterFactory " ignoreCase = " true " words = " stopwords.txt " />
        <!-- 取消注释可以启用索引期间的同义词词典
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        < filter class = " solr.LowerCaseFilterFactory " />
      </ analyzer >
      < analyzer type = " query " >
        < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " false " />
        < filter class = " solr.StopFilterFactory " ignoreCase = " true " words = " stopwords.txt " />
        < filter class = " solr.SynonymFilterFactory " synonyms = " synonyms.txt " ignoreCase = " true " expand = " true " />
        < filter class = " solr.LowerCaseFilterFactory " />
      </ analyzer >
    </ fieldType >
    <!-- 业务系统中需要分词的字段都需要指定type为text_cn -->
    < field name = " my_field1 " type = " text_cn " indexed = " true " stored = " true " />
    < field name = " my_field2 " type = " text_cn " indexed = " true " stored = " true " />

Metode panggilan

Saat menulis ulang kueri, Anda dapat menggunakan bagian dari pidato dan atribut lainnya dalam hasil participle Hanlpanalyzer, seperti

 String text = "中华人民共和国很辽阔" ;
for ( int i = 0 ; i < text . length (); ++ i )
{
    System . out . print ( text . charAt ( i ) + "" + i + " " );
}
System . out . println ();
Analyzer analyzer = new HanLPAnalyzer ();
TokenStream tokenStream = analyzer . tokenStream ( "field" , text );
tokenStream . reset ();
while ( tokenStream . incrementToken ())
{
    CharTermAttribute attribute = tokenStream . getAttribute ( CharTermAttribute . class );
    // 偏移量
    OffsetAttribute offsetAtt = tokenStream . getAttribute ( OffsetAttribute . class );
    // 距离
    PositionIncrementAttribute positionAttr = tokenStream . getAttribute ( PositionIncrementAttribute . class );
    // 词性
    TypeAttribute typeAttr = tokenStream . getAttribute ( TypeAttribute . class );
    System . out . printf ( "[%d:%d %d] %s/%s n " , offsetAtt . startOffset (), offsetAtt . endOffset (), positionAttr . getPositionIncrement (), attribute , typeAttr . type ());
}

Dalam skenario lain, Hanlptokenizer didukung oleh segmentasi kata khusus (seperti segmentasi kata yang memungkinkan pengakuan entitas bernama, segmentasi kata Cina tradisional, segmentasi kata CRF, dll.), Seperti:

 tokenizer = new HanLPTokenizer ( HanLP . newSegment ()
                                    . enableJapaneseNameRecognize ( true )
                                    . enableIndexMode ( true ), null , false );
tokenizer . setReader ( new StringReader ( "林志玲亮相网友:确定不是波多野结衣？" ));

hak cipta

Apache Lisensi Versi 2.0

Memperluas

Informasi Tambahan

Versi v1.1.6 常规维护
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-19
ukuran 32.23KB
Berasal dari Github

Aplikasi Terkait

intellij platform gradle plugin

2024-11-09
scite zotero plugin

2024-11-08
BaseElements Plugin

2024-11-07
index cli plugin

2024-11-06
napari plugin manager

2024-11-04
Plugin Gambar Super

2009-04-18

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua