Téléchargement multi criteria cws - Téléchargement du code source multi criteria cws

multi criteria cws

Autre code source

1.0.0

Télécharger

multi-critères-cws

Codes et corpus pour papier "Solution neuronale efficace pour la segmentation des mots multi-critères" (acceptée et à paraître à SCI-2018).

Dépendance

Python3
dynet

Démarrage rapide

Exécutez la commande suivante pour préparer les corpus, divisez-les en ensembles de train / dev / test, etc.:

python3 convert_corpus.py

Convertissez ensuite un $dataset en fichier de cornichon:

./script/make.sh $dataset

$dataset peut être l'un des corpus suivants: pku , msr , as , cityu , sxu , ctb , zx , cnc , udc et wtb .
$dataset peut également être un corpus conjoint comme joint-sighan2005 ou joint-10in1 .
Si vous avez accès aux corpus SIGHAN2008, vous pouvez également faire joint-sighan2008 comme $dataset .

Enfin, une commande effectue à la fois une formation et un test à la volée:

./script/train.sh $dataset

Performance

SIGHAN2005

sighan2008

10 en 1

Étant donné que les ensembles de données Sighan Bakeoff 2008 sont propriétaires et difficiles à obtenir, nous décidons de mener des expériences supplémentaires sur des ensembles de données plus disponibles, pour que le public teste et vérifie l'efficacité de notre méthode. Nous avons appliqué notre solution sur 6 ensembles de données supplémentaires disponibles avec les 4 ensembles de données SIGHAN2005.

Corpus

Dans cette section, nous présenterons brièvement les corpus utilisés dans cet article.

10 corpus dans ce repo

Ces 10 corpus proviennent soit du site officiel de SIGHAN2005, soit collectés auprès du projet open-source, soit de la page d'accueil des chercheurs. Les licences sont répertoriées dans le tableau suivant.

sighan2008

Comme les corpus SIGHAN2008 sont propriétaires, nous ne pouvons pas les distribuer. Si vous en avez une copie légale, vous pouvez reproduire nos scores après ces instructions.

Tout d'abord, liez le SIGHAN2008 au dossier de données de ce projet.

 ln -s /path/to/your/sighan2008/data data/sighan2008

Ensuite, utilisez HANLP pour la conversion chinoise traditionnelle pour simplifier la conversion chinoise, comme indiqué dans les extraits de code Java suivants:

        BufferedReader br = new BufferedReader ( new InputStreamReader ( new FileInputStream (
            "data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf16.seg"
        ), "UTF-16" ));
        String line ;
        BufferedWriter bw = IOUtil . newBufferedWriter (
            "data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf8.seg" );
        while (( line = br . readLine ()) != null )
        {
            for ( String word : line . split ( " \ s" ))
            {
                if ( word . length () == 0 ) continue ;
                bw . write ( HanLP . convertToSimplifiedChinese ( word ));
                bw . write ( " " );
            }
            bw . newLine ();
        }
        br . close ();
        bw . close ();

Vous devez répéter cela pour les 4 fichiers suivants:

ckip_train_utf16.seg
ckip_truth_utf16.seg
CityU_TRAIN_UTF16.seg
CityU_TRUTH_UTF16.seg

Ensuite, les codes suivants de l'intervalle dans convert_corpus.py :

    # For researchers who have access to sighan2008 corpus, use official corpora please.
    print ( 'Converting sighan2008 Simplified Chinese corpus' )
    datasets = 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
    convert_all_sighan2008 ( datasets )
    print ( 'Combining those 8 sighan corpora to one joint corpus' )
    datasets = 'pku' , 'msr' , 'as' , 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
    make_joint_corpus ( datasets , 'joint-sighan2008' )
    make_bmes ( 'joint-sighan2008' )

Enfin, vous êtes prêt à partir:

 python3 convert_corpus.py
./script/make.sh joint-sighan2008
./script/train.sh joint-sighan2008

Remerciements

Merci pour les amis qui nous ont aidés avec les expériences.
Des crédits doivent également être accordés aux généreux chercheurs qui ont partagé leurs corpus avec le public, comme indiqué dans la table de licence. Vos ensembles de données ont en effet aidé ces petits groupes (comme nous) sans aucun financement.
Implémentation du modèle modifié à partir d'une version dynet-1.x par Rguthrie3.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-18
taille 50.99MB
Provenant de Github

Applications connexes

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
Dragon Ball Project Multi version chinoise

2024-08-23
Family Guy : Retour au Multi

2022-08-29
Le célèbre système de site Web d'entreprise weenCompany (CWS)

2009-09-22
Le célèbre système de site Web d'entreprise weenCompany (CWS)

2009-09-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout