الرموز والشركات للورق "الحل العصبي الفعال لتجزئة الكلمات متعددة المعايير" (مقبولة والوضع في SCI-2018).
قم بتشغيل الأمر التالي لإعداد Corpora ، وتقسيمها إلى مجموعات Train/Dev/Test.
python3 convert_corpus.py ثم قم بتحويل $dataset إلى ملف Pickle:
./script/make.sh $dataset$dataset واحدة من الشركات التالية: pku ، msr ، as ، cityu ، sxu ، ctb ، zx ، cnc ، udc و wtb .$dataset أيضًا مجموعة مشتركة مثل joint-sighan2005 أو joint-10in1 .joint-sighan2008 كمجموعة $dataset الخاصة بك.أخيرًا ، يقوم أمر واحد بتدريب واختبار على الطيران:
./script/train.sh $dataset نظرًا لأن مجموعات بيانات Sighan Bakeoff 2008 مملوكة ويصعب الحصول عليها ، فقد قررنا إجراء تجارب إضافية على مجموعات البيانات المتاحة بحرية أكثر ، للجمهور لاختبار والتحقق من كفاءة طريقتنا. قمنا بتطبيق حلنا على 6 مجموعات بيانات إضافية متوفرة بحرية مع مجموعات بيانات 4 Sighan2005.
في هذا القسم ، سنقدم بإيجاز تلك الشركات المستخدمة في هذه الورقة.
هذه الشركات العشرة هي إما من موقع Sighan2005 الرسمي ، أو تم جمعها من مشروع مفتوح المصدر ، أو من الصفحة الرئيسية للباحثين. يتم سرد التراخيص في الجدول التالي.
نظرًا لأن Sighan2008 Corpora ملكية ، فإننا غير قادرين على توزيعها. إذا كان لديك نسخة قانونية ، فيمكنك تكرار نتائجنا بعد هذه التعليمات.
أولاً ، ربط مجلد Sighan2008 إلى مجلد البيانات في هذا المشروع.
ln -s /path/to/your/sighan2008/data data/sighan2008
بعد ذلك ، استخدم HANLP للصينية التقليدية لتبسيط التحويل الصيني ، كما هو موضح في مقتطفات رمز Java التالية:
BufferedReader br = new BufferedReader ( new InputStreamReader ( new FileInputStream (
"data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf16.seg"
), "UTF-16" ));
String line ;
BufferedWriter bw = IOUtil . newBufferedWriter (
"data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf8.seg" );
while (( line = br . readLine ()) != null )
{
for ( String word : line . split ( " \ s" ))
{
if ( word . length () == 0 ) continue ;
bw . write ( HanLP . convertToSimplifiedChinese ( word ));
bw . write ( " " );
}
bw . newLine ();
}
br . close ();
bw . close (); تحتاج إلى تكرار هذا للملفات 4 التالية:
ثم ، عدم الرموز التالية في convert_corpus.py :
# For researchers who have access to sighan2008 corpus, use official corpora please.
print ( 'Converting sighan2008 Simplified Chinese corpus' )
datasets = 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
convert_all_sighan2008 ( datasets )
print ( 'Combining those 8 sighan corpora to one joint corpus' )
datasets = 'pku' , 'msr' , 'as' , 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
make_joint_corpus ( datasets , 'joint-sighan2008' )
make_bmes ( 'joint-sighan2008' )أخيرًا ، أنت مستعد للذهاب:
python3 convert_corpus.py
./script/make.sh joint-sighan2008
./script/train.sh joint-sighan2008