multi criteria cws Download - multi criteria cws Sumber Code Unduh

multi criteria cws

Kode sumber lainnya

1.0.0

Unduh

multi-kriteria-cws

Kode dan korpora untuk kertas "Solusi saraf yang efektif untuk segmentasi kata multi-kriteria" (diterima & akan datang di SCI-2018).

Ketergantungan

Python3
dynet

Awal yang cepat

Jalankan perintah berikut untuk mempersiapkan korpora, membaginya menjadi set/dev/test set dll.:

python3 convert_corpus.py

Kemudian konversi $dataset menjadi file acar:

./script/make.sh $dataset

$dataset dapat menjadi salah satu dari korpora berikut: pku , msr , as , cityu , sxu , ctb , zx , cnc , udc dan wtb .
$dataset juga bisa menjadi korpus gabungan seperti joint-sighan2005 atau joint-10in1 .
Jika Anda memiliki akses ke Sighan2008 Corpora, Anda juga dapat menjadikan joint-sighan2008 sebagai $dataset Anda.

Akhirnya, satu perintah melakukan pelatihan dan tes dengan cepat:

./script/train.sh $dataset

Pertunjukan

Sighan2005

Sighan2008

10-in-1

Karena dataset Sighan Bakeoff 2008 adalah hak milik dan sulit diperoleh, kami memutuskan untuk melakukan eksperimen tambahan pada dataset yang lebih bebas yang tersedia, bagi publik untuk menguji dan memverifikasi efisiensi metode kami. Kami menerapkan solusi kami pada 6 set data tambahan yang tersedia secara bebas bersama dengan dataset 4 Sighan2005.

Korpora

Di bagian ini, kami akan memperkenalkan korpora yang digunakan secara singkat dalam makalah ini.

10 korpora dalam repo ini

10 korpora itu berasal dari situs web resmi Sighan2005, atau dikumpulkan dari proyek open-source, atau dari beranda peneliti. Lisensi tercantum dalam tabel berikut.

Sighan2008

Karena Sighan2008 Corpora adalah milik, kami tidak dapat mendistribusikannya. Jika Anda memiliki salinan hukum, Anda dapat meniru skor kami mengikuti instruksi ini.

Pertama, tautkan folder Sighan2008 ke data dalam proyek ini.

 ln -s /path/to/your/sighan2008/data data/sighan2008

Kemudian, gunakan Hanlp untuk bahasa Cina tradisional untuk konversi Cina yang disederhanakan, seperti yang ditunjukkan dalam cuplikan kode Java berikut:

        BufferedReader br = new BufferedReader ( new InputStreamReader ( new FileInputStream (
            "data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf16.seg"
        ), "UTF-16" ));
        String line ;
        BufferedWriter bw = IOUtil . newBufferedWriter (
            "data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf8.seg" );
        while (( line = br . readLine ()) != null )
        {
            for ( String word : line . split ( " \ s" ))
            {
                if ( word . length () == 0 ) continue ;
                bw . write ( HanLP . convertToSimplifiedChinese ( word ));
                bw . write ( " " );
            }
            bw . newLine ();
        }
        br . close ();
        bw . close ();

Anda perlu mengulangi ini untuk 4 file berikut:

ckip_train_utf16.seg
ckip_truth_utf16.seg
cityu_train_utf16.seg
cityu_truth_utf16.seg

Kemudian, uncomment kode berikut di convert_corpus.py :

    # For researchers who have access to sighan2008 corpus, use official corpora please.
    print ( 'Converting sighan2008 Simplified Chinese corpus' )
    datasets = 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
    convert_all_sighan2008 ( datasets )
    print ( 'Combining those 8 sighan corpora to one joint corpus' )
    datasets = 'pku' , 'msr' , 'as' , 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
    make_joint_corpus ( datasets , 'joint-sighan2008' )
    make_bmes ( 'joint-sighan2008' )

Akhirnya, Anda siap untuk pergi:

 python3 convert_corpus.py
./script/make.sh joint-sighan2008
./script/train.sh joint-sighan2008

Ucapan Terima Kasih

Terima kasih untuk teman -teman yang membantu kami dengan eksperimen.
Kredit juga harus diberikan kepada para peneliti yang murah hati yang berbagi korpora mereka dengan publik, sebagaimana tercantum dalam tabel lisensi. Kumpulan data Anda memang membantu kelompok -kelompok kecil itu (seperti kami) tanpa dana.
Implementasi model dimodifikasi dari versi Dynet-1.x oleh RGuthrie3.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-18
ukuran 50.99MB
Berasal dari Github

Aplikasi Terkait

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
Proyek Dragon Ball Multi versi Cina

2024-08-23
Family Guy: Kembali ke Multi

2022-08-29
Sistem Situs Web Perusahaan (CWS) weenCompany yang terkenal

2009-09-22
Sistem Situs Web Perusahaan (CWS) weenCompany yang terkenal

2009-09-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua