Download de multi criteria cws - multi criteria cws Download de código -fonte

multi criteria cws

Outro código-fonte

1.0.0

Baixar

Multi-critérios-CWs

Códigos e corpora para papel "Solução neural eficaz para segmentação de palavras com vários critérios" (aceita e a seguir no SCI-2018).

Dependência

Python3
Dynet

Início rápido

Execute o seguinte comando para preparar corpora, dividi -los em conjuntos de trem/dev/testes etc.:

python3 convert_corpus.py

Em seguida, converta um $dataset em arquivo de picles:

./script/make.sh $dataset

O $dataset pode ser um dos seguintes corpora: pku , msr , as , cityu , sxu , ctb , zx , cnc , udc e wtb .
$dataset também pode ser um corpus conjunto, como joint-sighan2005 ou joint-10in1 .
Se você tiver acesso ao Sighan2008 Corpora, também poderá fazer joint-sighan2008 como seu $dataset .

Finalmente, um comando executa o treinamento e o teste em tempo real:

./script/train.sh $dataset

Desempenho

SIGAN2005

Sighan2008

10 em 1

Como os conjuntos de dados Sighan Bakeoff 2008 são proprietários e difíceis de obter, decidimos realizar experimentos adicionais sobre conjuntos de dados mais disponíveis gratuitamente, para o público testar e verificar a eficiência de nosso método. Aplicamos nossa solução em 6 conjuntos de dados adicionais disponíveis gratuitamente, juntamente com os 4 conjuntos de dados SIGHAN2005.

Corpora

Nesta seção, apresentaremos brevemente os corpora usados neste artigo.

10 corpora neste repo

Esses 10 corpora são do site oficial do Sighan2005, ou coletados do projeto de código aberto ou da página inicial dos pesquisadores. As licenças estão listadas na tabela a seguir.

Sighan2008

Como os corpora Sighan2008 são proprietários, não podemos distribuí -los. Se você tiver uma cópia legal, pode replicar nossas pontuações seguindo estas instruções.

Em primeiro lugar, vincule o Sighan2008 à pasta de dados neste projeto.

 ln -s /path/to/your/sighan2008/data data/sighan2008

Em seguida, use o HANLP para a conversão chinesa tradicional para o chinês, como mostrado nos seguintes trechos de código Java:

        BufferedReader br = new BufferedReader ( new InputStreamReader ( new FileInputStream (
            "data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf16.seg"
        ), "UTF-16" ));
        String line ;
        BufferedWriter bw = IOUtil . newBufferedWriter (
            "data/sighan2008/ckip_seg_truth&resource/ckip_truth_utf8.seg" );
        while (( line = br . readLine ()) != null )
        {
            for ( String word : line . split ( " \ s" ))
            {
                if ( word . length () == 0 ) continue ;
                bw . write ( HanLP . convertToSimplifiedChinese ( word ));
                bw . write ( " " );
            }
            bw . newLine ();
        }
        br . close ();
        bw . close ();

Você precisa repetir isso para os 4 arquivos a seguir:

ckip_train_utf16.seg
ckip_truth_utf16.seg
cityu_train_utf16.seg
cityu_truth_utf16.seg

Então, descommentando os códigos em convert_corpus.py :

    # For researchers who have access to sighan2008 corpus, use official corpora please.
    print ( 'Converting sighan2008 Simplified Chinese corpus' )
    datasets = 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
    convert_all_sighan2008 ( datasets )
    print ( 'Combining those 8 sighan corpora to one joint corpus' )
    datasets = 'pku' , 'msr' , 'as' , 'ctb' , 'ckip' , 'cityu' , 'ncc' , 'sxu'
    make_joint_corpus ( datasets , 'joint-sighan2008' )
    make_bmes ( 'joint-sighan2008' )

Finalmente, você está pronto para ir:

 python3 convert_corpus.py
./script/make.sh joint-sighan2008
./script/train.sh joint-sighan2008

Agradecimentos

Obrigado pelos amigos que nos ajudaram com os experimentos.
Os créditos também devem ser dados aos pesquisadores generosos que compartilharam seus corpora com o público, conforme listado na tabela de licenças. Seus conjuntos de dados realmente ajudaram esses pequenos grupos (como nós) sem nenhum financiamento.
Modelo Implementação modificada a partir de uma versão Dynet-1.x por RGuthrie3.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-18
tamanho 50.99MB
Vindo de Github

Aplicativos Relacionados

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
Versão multi-chinesa do projeto Dragon Ball

2024-08-23
Uma Família da Pesada: De volta ao Multi

2022-08-29
O famoso weenCompany Enterprise Website System (CWS)

2009-09-22
O famoso weenCompany Enterprise Website System (CWS)

2009-09-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos