Download de nagisa - Download de código fonte de nagisa

nagisa

Outro código-fonte

v0.2.11

Baixar

Nagisa é um módulo Python para segmentação de palavras japonesa/margem de POS. Ele foi projetado para ser uma ferramenta simples e fácil de usar.

Esta ferramenta possui os seguintes recursos.

Com base em redes neurais recorrentes.
O modelo de segmentação de palavras usa recursos de nível de caractere e palavras [池田+].
O modelo de marcação de POS usa informações de dicionário de tag [inoue+].

Para mais detalhes, consulte os links a seguir.

As palavras de parada para Nagisa estão disponíveis aqui.
O slide de apresentação no Pycon JP (2022) está disponível aqui.
O artigo em japonês está disponível aqui.
A documentação está disponível aqui.

Instalação

Para usar o NAGISA, você precisa ter as versões Python 3.6 a 3.12 no Linux, ou versões Python 3.9 a 3.12 no macOS (Intel ou M1/M2). Você pode instalar Nagisa com o seguinte comando.

pip install nagisa

Para usuários do Windows, execute -o com o Python 3.6, 3,7 ou 3,8 (64 bits). Também é compatível com o subsistema Windows para Linux (WSL).

Uso básico

Amostra de segmentação de palavras e marque de POS para japonês.

 import nagisa

text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞

# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']

# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']

Funções de pós-processamento

Filtre e exalte as palavras pelas tags POS específicas.

 # Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞

# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞

# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']

Adicione o dicionário de usuário de maneira fácil.

 # default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号

# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号

Treine um modelo

O NAGISA (v0.2.0+) fornece um método de trem simples para um modelo de segmentação de palavras e marcação de sequência de palavras juntas (por exemplo, margem de posse, NER).

O formato dos arquivos de trem/dev/teste é TSV. Cada linha é word e tag e uma linha é representada pela tag word t (tab). Observe que você coloca EOS entre frases. Consulte os conjuntos de dados de amostra e tutorial (treine um modelo para dependências universais).

 $ cat sample.train
唯一	NOUN
の	ADP
趣味	NOU
は	ADP
料理	NOUN
EOS
とても	ADV
おいしかっ	ADJ
た	AUX
です	AUX
。	PUNCT
EOS
ドル	NOUN
は	ADP
主要	ADJ
通貨	NOUN
EOS

 # After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )

# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )

text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN

Expandir

Informações adicionais

Versão v0.2.11
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 20.31MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos