تنزيل hanlp lucene plugin - تنزيل رمز المصدر hanlp lucene plugin

hanlp lucene plugin

شفرة المصدر الأخرى

v1.1.6 常规维护

تنزيل

hanlp-lucene-plugin

HANLP الصينية كلمة النعت Lucene المكون الإضافي

استنادًا إلى HANLP ، يتم دعم أي نظام قائم على Lucene (7.x) بما في ذلك SOLR (7.x).

مافن

    < dependency >
      < groupId >com.hankcs.nlp</ groupId >
      < artifactId >hanlp-lucene-plugin</ artifactId >
      < version >1.1.7</ version >
    </ dependency >

بدأ Solr بسرعة

ضع hanlp-portable.jar و hanlp-lucene-plugin.jar إلى ${webapp}/WEB-INF/lib . (أو استخدم mvn package لحزم الكود المصدر ونسخ target/hanlp-lucene-plugin-xxxjar إلى ${webapp}/WEB-INF/lib )
قم بتعديل ملف التكوين ${core}/conf/schema.xml of solr core:

  < fieldType name = " text_cn " class = " solr.TextField " >
      < analyzer type = " index " >
          < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " true " />
      </ analyzer >
      < analyzer type = " query " >
          <!-- 切记不要在query中开启index模式 -->
          < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " false " />
      </ analyzer >
  </ fieldType >
  <!-- 业务系统中需要分词的字段都需要指定type为text_cn -->
  < field name = " my_field1 " type = " text_cn " indexed = " true " stored = " true " />
  < field name = " my_field2 " type = " text_cn " indexed = " true " stored = " true " />

إذا كان لديك حقول أخرى في نظام عملك ، مثل الموقع ، والملخص ، وما إلى ذلك ، فأنت بحاجة أيضًا إلى تحديد نوعه = "text_cn" واحدًا تلو الآخر. تذكر ، وإلا فإن هذه الحقول ستظل مقطع الكلمات الافتراضي SOLR.
أيضًا ، تذكر عدم تمكين INDEXMODE في الاستعلام ، وإلا فإنه سيؤثر على PhaseQuery. يجب تمكين indexMode فقط في الفهرس مرة واحدة.

التكوين المتقدم

حاليًا ، يدعم هذا المكون الإضافي التكوينات التالية بناءً على schema.xml :

اسم عنصر التكوين	وظيفة	القيمة الافتراضية
خوارزمية	كلمة النعت خوارزمية	Viterbi
EnableIndexMode	تعيين إلى وضع الفهرس (لا تقم بتشغيل الاستعلام)	حقيقي
تمكين enableCustomDictionary	سواء لتمكين قاموس المستخدم	حقيقي
CustomDictionaryPath	مسار قاموس المستخدم (المسار المطلق أو المسار النسبي الذي يمكن قراءته بواسطة البرنامج ، مفصولة بقواميس متعددة بواسطة المساحات)	باطل
enableCustomDictionaryforcing	أولوية قاموس المستخدم الأولوية	خطأ شنيع
stopworddictionarypath	توقف عن مسار القاموس	باطل
enablenumberquantifierRecothize	سواء لتمكين التعرف على الكلمات الرقمية والكمية	حقيقي
EnablenAmerEctinize	قم بتشغيل التعرف على اسم الشخص	حقيقي
enabletranslatednamereCognize	ما إذا كان لتمكين التعرف على اسم الشخص المترجم	خطأ شنيع
تمكين JapanesenamerEcognize	سواء لتمكين التعرف على الأسماء اليابانية	خطأ شنيع
enableorganizationRectinize	قم بتشغيل التعرف على اسم المنظمة	خطأ شنيع
EnablePlacerEctinize	قم بتشغيل التعرف على اسم المكان	خطأ شنيع
التمكين	ما إذا كنت تريد تنظيم الشخصيات (التقليدية-> مبسطة ، عرض كامل-> نصف عرض ، أعلى-> الحالة السفلية)	خطأ شنيع
EnableTraditionalChinesEmode	قم بتشغيل تجزئة الكلمات الصينية التقليدية الدقيقة	خطأ شنيع
enabledebug	قم بتشغيل وضع التصحيح	خطأ شنيع

يتم تكوين تكوينات أكثر تقدمًا بشكل أساسي من خلال hanlp.properties ضمن مسار الفصل. يرجى قراءة وثائق حزمة معالجة اللغة الطبيعية HANLP لمزيد من التكوينات ذات الصلة ، مثل:

قاموس المستخدم
جزء من شرح الكلام
التحويل الصيني المبسط والتقليدي
...

توقف عن الكلمات والمرادفات

يوصى باستخدام تطبيق Lucene أو Solr الخاص بالمرشح ، لن يتداخل هذا المكون الإضافي. مثال على ذلك على النحو التالي:

    <!-- text_cn字段类型: 指定使用HanLP分词器，同时开启索引模式。通过solr自带的停用词过滤器，使用"stopwords.txt"（默认空白）过滤。
	 在搜索的时候，还支持solr自带的同义词词典。 -->
    < fieldType name = " text_cn " class = " solr.TextField " positionIncrementGap = " 100 " >
      < analyzer type = " index " >
        < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " true " />
        < filter class = " solr.StopFilterFactory " ignoreCase = " true " words = " stopwords.txt " />
        <!-- 取消注释可以启用索引期间的同义词词典
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        < filter class = " solr.LowerCaseFilterFactory " />
      </ analyzer >
      < analyzer type = " query " >
        < tokenizer class = " com.hankcs.lucene.HanLPTokenizerFactory " enableIndexMode = " false " />
        < filter class = " solr.StopFilterFactory " ignoreCase = " true " words = " stopwords.txt " />
        < filter class = " solr.SynonymFilterFactory " synonyms = " synonyms.txt " ignoreCase = " true " expand = " true " />
        < filter class = " solr.LowerCaseFilterFactory " />
      </ analyzer >
    </ fieldType >
    <!-- 业务系统中需要分词的字段都需要指定type为text_cn -->
    < field name = " my_field1 " type = " text_cn " indexed = " true " stored = " true " />
    < field name = " my_field2 " type = " text_cn " indexed = " true " stored = " true " />

طرق الاتصال

عند إعادة كتابة الاستعلام ، يمكنك استخدام جزء الكلام والسمات الأخرى في نتيجة النعت Hanlpanalyzer ، مثل

 String text = "中华人民共和国很辽阔" ;
for ( int i = 0 ; i < text . length (); ++ i )
{
    System . out . print ( text . charAt ( i ) + "" + i + " " );
}
System . out . println ();
Analyzer analyzer = new HanLPAnalyzer ();
TokenStream tokenStream = analyzer . tokenStream ( "field" , text );
tokenStream . reset ();
while ( tokenStream . incrementToken ())
{
    CharTermAttribute attribute = tokenStream . getAttribute ( CharTermAttribute . class );
    // 偏移量
    OffsetAttribute offsetAtt = tokenStream . getAttribute ( OffsetAttribute . class );
    // 距离
    PositionIncrementAttribute positionAttr = tokenStream . getAttribute ( PositionIncrementAttribute . class );
    // 词性
    TypeAttribute typeAttr = tokenStream . getAttribute ( TypeAttribute . class );
    System . out . printf ( "[%d:%d %d] %s/%s n " , offsetAtt . startOffset (), offsetAtt . endOffset (), positionAttr . getPositionIncrement (), attribute , typeAttr . type ());
}

في سيناريوهات أخرى ، يتم دعم Hanlptokenizer بواسطة تجزئة الكلمات المخصصة (مثل تجزئة الكلمات التي تتيح التعرف على الكيان المسماة ، تجزئة الكلمات الصينية التقليدية ، تجزئة كلمات CRF ، إلخ) ، مثل:

 tokenizer = new HanLPTokenizer ( HanLP . newSegment ()
                                    . enableJapaneseNameRecognize ( true )
                                    . enableIndexMode ( true ), null , false );
tokenizer . setReader ( new StringReader ( "林志玲亮相网友:确定不是波多野结衣？" ));

حقوق الطبع والنشر

إصدار ترخيص Apache 2.0

يوسع

معلومات إضافية

الإصدار v1.1.6 常规维护
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-19
الحجم 32.23KB
من Github

تطبيقات ذات صلة

intellij platform gradle plugin

2024-11-09
scite zotero plugin

2024-11-08
BaseElements Plugin

2024-11-07
index cli plugin

2024-11-06
napari plugin manager

2024-11-04
سوبر صورة البرنامج المساعد

2009-04-18

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل