Descarga nagisa - Descargar el código fuente nagisa

nagisa

Otro código fuente

v0.2.11

Descargar

Nagisa es un módulo de Python para la segmentación de palabras japonesas/etiqueta POS. Está diseñado para ser una herramienta simple y fácil de usar.

Esta herramienta tiene las siguientes características.

Basado en redes neuronales recurrentes.
El modelo de segmentación de palabras utiliza características de nivel de caracteres y palabras [池田+].
El modelo de etiqueta POS utiliza información de diccionario de etiquetas [Inoue+].

Para obtener más detalles, consulte los siguientes enlaces.

Las palabras de parada para Nagisa están disponibles aquí.
La diapositiva de presentación en Pycon JP (2022) está disponible aquí.
El artículo en japonés está disponible aquí.
La documentación está disponible aquí.

Instalación

Para usar Nagisa, debe tener las versiones de Python 3.6 a 3.12 en Linux, o las versiones de Python 3.9 a 3.12 en MacOS (Intel o M1/M2). Puede instalar Nagisa con el siguiente comando.

pip install nagisa

Para los usuarios de Windows, ejecutarlo con Python 3.6, 3.7 o 3.8 (64 bits). También es compatible con el subsistema de Windows para Linux (WSL).

Uso básico

Muestra de segmentación de palabras y etiqueta POS para japonés.

 import nagisa

text = 'Pythonで簡単に使えるツールです'
words = nagisa . tagging ( text )
print ( words )
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞

# Get a list of words
print ( words . words )
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']

# Get a list of POS-tags
print ( words . postags )
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']

Funciones de postprocesamiento

Filtrar y extender las palabras mediante las etiquetas POS específicas.

 # Filter the words of the specific POS tags.
words = nagisa . filter ( text , filter_postags = [ '助詞' , '助動詞' ])
print ( words )
#=> Python/名詞 簡単/形状詞 使える/動詞 ツール/名詞

# Extarct only nouns.
words = nagisa . extract ( text , extract_postags = [ '名詞' ])
print ( words )
#=> Python/名詞 ツール/名詞

# This is a list of available POS-tags in nagisa.
print ( nagisa . tagger . postags )
#=> ['補助記号', '名詞', ... , 'URL']

Agregue el diccionario de usuario de manera fácil.

 # default
text = "3月に見た「3月のライオン」"
print ( nagisa . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3/名詞 月/名詞 の/助詞 ライオン/名詞 」/補助記号

# If a word ("3月のライオン") is included in the single_word_list, it is recognized as a single word.
new_tagger = nagisa . Tagger ( single_word_list = [ '3月のライオン' ])
print ( new_tagger . tagging ( text ))
#=> 3/名詞 月/名詞 に/助詞 見/動詞 た/助動詞 「/補助記号 3月のライオン/名詞 」/補助記号

Entrenar a un modelo

Nagisa (V0.2.0+) proporciona un método de tren simple para una segmentación de palabras conjuntas y etiquetado de secuencia (p. Ej., POS-Tagging, NER).

El formato de los archivos de trenes/dev/test es TSV. Cada línea es word y tag y una línea está representada por tag word t (TAB). Tenga en cuenta que coloca EOS entre oraciones. Consulte los conjuntos de datos de muestra y el tutorial (capacite a un modelo para dependencias universales).

 $ cat sample.train
唯一	NOUN
の	ADP
趣味	NOU
は	ADP
料理	NOUN
EOS
とても	ADV
おいしかっ	ADJ
た	AUX
です	AUX
。	PUNCT
EOS
ドル	NOUN
は	ADP
主要	ADJ
通貨	NOUN
EOS

 # After finish training, save the three model files (*.vocabs, *.params, *.hp).
nagisa . fit ( train_file = "sample.train" , dev_file = "sample.dev" , test_file = "sample.test" , model_name = "sample" )

# Build the tagger by loading the trained model files.
sample_tagger = nagisa . Tagger ( vocabs = 'sample.vocabs' , params = 'sample.params' , hp = 'sample.hp' )

text = "福岡・博多の観光情報"
words = sample_tagger . tagging ( text )
print ( words )
#> 福岡/PROPN ・/SYM 博多/PROPN の/ADP 観光/NOUN 情報/NOUN

Expandir

Información adicional

Versión v0.2.11
Tipo Otro código fuente
Fecha de actualización 2025-04-16
tamaño 20.31MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo