multi criteria cws Download - multi criteria cws Source Source Download

multi criteria cws

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

หลายเกณฑ์ CWS

รหัสและ corpora สำหรับกระดาษ "โซลูชันระบบประสาทที่มีประสิทธิภาพสำหรับการแบ่งส่วนคำหลายเกณฑ์" (ยอมรับและเตรียมพร้อมที่ SCI-2018)

การพึ่งพาอาศัยกัน

Python3
dynet

เริ่มต้นอย่างรวดเร็ว

เรียกใช้คำสั่งต่อไปนี้เพื่อเตรียม corpora ให้แบ่งออกเป็นชุดรถไฟ/dev/ทดสอบ ฯลฯ :

python3 convert_corpus.py

จากนั้นแปลง $dataset เป็นไฟล์ Pickle:

./script/make.sh $dataset

$dataset สามารถเป็นหนึ่งใน corpora ต่อไปนี้: pku , msr , as , cityu , sxu , ctb , zx , cnc , udc และ wtb
$dataset ยังสามารถเป็นคลังข้อมูลร่วมเช่น joint-sighan2005 หรือ joint-10in1
หากคุณมีสิทธิ์เข้าถึง Sighan2008 Corpora คุณสามารถสร้าง joint-sighan2008 เป็น $dataset ของคุณ

ในที่สุดคำสั่งหนึ่งดำเนินการทั้งการฝึกอบรมและทดสอบได้ทันที:

./script/train.sh $dataset

ผลงาน

Sighan2005

Sighan2008

10-in-1

เนื่องจากชุดข้อมูล Sighan Bakeoff 2008 เป็นกรรมสิทธิ์และยากที่จะได้รับเราจึงตัดสินใจที่จะทำการทดลองเพิ่มเติมเกี่ยวกับชุดข้อมูลที่มีอยู่ได้อย่างอิสระมากขึ้นเพื่อให้ประชาชนทดสอบและตรวจสอบประสิทธิภาพของวิธีการของเรา เราใช้โซลูชันของเราในชุดข้อมูลเพิ่มเติม 6 ชุดพร้อมกับชุดข้อมูล 4 Sighan2005

บริษัท

ในส่วนนี้เราจะแนะนำ corpora เหล่านั้นที่ใช้ในบทความนี้สั้น ๆ

10 corpora ใน repo นี้

10 Corpora เหล่านั้นมาจากเว็บไซต์ Sighan2005 อย่างเป็นทางการหรือรวบรวมจากโครงการโอเพ่นซอร์สหรือจากหน้าแรกของนักวิจัย ใบอนุญาตมีการระบุไว้ในตารางต่อไปนี้

Sighan2008

ในฐานะที่เป็น Sighan2008 Corpora เป็นกรรมสิทธิ์เราไม่สามารถแจกจ่ายได้ หากคุณมีสำเนาทางกฎหมายคุณสามารถทำซ้ำคะแนนของเราตามคำแนะนำเหล่านี้

ประการแรกเชื่อมโยงโฟลเดอร์ Data Sighan2008 ในโครงการนี้

 ln -s /path/to/your/sighan2008/data data/sighan2008

จากนั้นใช้ HANLP สำหรับการแปลงภาษาจีนแบบดั้งเดิมเพื่อการแปลงภาษาจีนที่ง่ายขึ้นดังแสดงในตัวอย่างรหัส Java ต่อไปนี้:

        BufferedReader br = new BufferedReader ( new InputStreamReader ( new FileInputStream (
            "data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf16.seg"
        ), "UTF-16" ));
        String line ;
        BufferedWriter bw = IOUtil . newBufferedWriter (
            "data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf8.seg" );
        while (( line = br . readLine ()) != null )
        {
            for ( String word : line . split ( " \ s" ))
            {
                if ( word . length () == 0 ) continue ;
                bw . write ( HanLP . convertToSimplifiedChinese ( word ));
                bw . write ( " " );
            }
            bw . newLine ();
        }
        br . close ();
        bw . close ();

คุณต้องทำซ้ำสำหรับ 4 ไฟล์ต่อไปนี้:

ckip_train_utf16.seg
ckip_truth_utf16.seg
cityu_train_utf16.seg
cityu_truth_utf16.seg

จากนั้นไม่มีการเขียนบทต่อไปนี้รหัสใน convert_corpus.py :

    # For researchers who have access to sighan2008 corpus, use official corpora please.
    print ( 'Converting sighan2008 Simplified Chinese corpus' )
    datasets = 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
    convert_all_sighan2008 ( datasets )
    print ( 'Combining those 8 sighan corpora to one joint corpus' )
    datasets = 'pku' , 'msr' , 'as' , 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
    make_joint_corpus ( datasets , 'joint-sighan2008' )
    make_bmes ( 'joint-sighan2008' )

ในที่สุดคุณก็พร้อมที่จะไป:

 python3 convert_corpus.py
./script/make.sh joint-sighan2008
./script/train.sh joint-sighan2008

กิตติกรรมประกาศ

ขอบคุณสำหรับเพื่อนที่ช่วยเราในการทดลอง
ควรมอบเครดิตให้กับนักวิจัยที่ใจกว้างที่แบ่งปัน Corpora กับประชาชนตามที่ระบุไว้ในตารางใบอนุญาต ชุดข้อมูลของคุณช่วยกลุ่มเล็ก ๆ เหล่านั้น (เช่นเรา) โดยไม่ต้องระดมทุน
การใช้งานแบบจำลองแก้ไขจากรุ่น Dynet-1.x โดย Rguthrie3

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 50.99MB
มาจาก Github

แอปที่เกี่ยวข้อง

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
Dragon Ball Project เวอร์ชั่นภาษาจีนหลายภาษา

2024-08-23
Family Guy: กลับสู่ Multi

2022-08-29
ระบบเว็บไซต์องค์กร weenCompany ที่มีชื่อเสียง (CWS)

2009-09-22
ระบบเว็บไซต์องค์กร weenCompany ที่มีชื่อเสียง (CWS)

2009-09-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด