Descarga ChineseNER - Descargar el código fuente de ChineseNER

ChineseNER

Pitón

1.0.0

Descargar

Chinínero

Este proyecto usa

Python 2.7
TensorFlow 1.7.0
Pytorch 0.4.0

Si no comprende el reconocimiento de entidad nombrado, primero puede leer este artículo. Por cierto, por favor estelar ~

Esta es la forma más fácil de identificar un modelo BILSTM+CRF para una entidad nombrada.

datos

Hay tres conjuntos de datos de código abierto disponibles en la carpeta de datos, datos de bosones (https://bosonnlp.com), datos etiquetados diarios de la gente de 1998 y datos de código abierto del Instituto de Investigación de Asia MSRA Microsoft Asia. Entre ellos, hay 6 tipos de entidades en el conjunto de datos del bosón. People's Daily Corpus y MSRA generalmente solo extraen tres tipos de entidad: nombre de la persona, nombre del lugar y nombre de la organización.

Primero ejecute el archivo Python en los datos para procesar los datos para que el modelo use.

versión de tensorflow

Comience el entrenamiento

Comience a entrenar con python train.py , y el modelo entrenado se guardará en la carpeta del modelo.

Use vectores de palabras previamente capacitados

El uso de python train.py pretrained comenzará a entrenar utilizando vectores de palabras previos a la aparición. vec.txt es un vector de palabras previamente previo al estado de petróleo que se encuentra en línea. Puede consultar mi código para modificarlo para usar otros vectores de palabras mejores previos a la pretrada.

Prueba el modelo entrenado

Use python train.py test para pruebas, y el último modelo en la carpeta del modelo se leerá e ingresará automáticamente el chino para probar. La calidad de los resultados de la prueba depende de la precisión del modelo.

Extracción de entidad a nivel de archivo

Use python train.py input_file output_file para la extracción de entidad a nivel de archivo.

Puede leer automáticamente el último modelo en la carpeta del modelo, extraer las entidades en input_file y escribirlas en output_file . Primero está la oración original, luego el tipo de entidad y la entidad (se pueden modificar según sea necesario).

Por ejemplo, python train.py test1.txt res.txt , res.txt El contenido es el siguiente:

Se agregan modificaciones adicionales de vez en cuando. .

versión de pytorch

Use el modelo BILSTM+CRF en el tutorial Pytorch directamente.

Simplemente ejecute el entrenamiento de Train.py. Como usamos CPU y no usamos lotes, la velocidad de entrenamiento es súper lenta. Si simplemente desea ejecutar el código, se recomienda usar solo algunos datos para ejecutarlo. Pytorch no se actualizará por el momento.

Exactitud

Los parámetros no se ajustaron con demasiada cuidado. El valor F del conjunto de datos del bosón fue de alrededor del 70%~ 75%, y el valor F de los conjuntos de datos diarios de las personas y MSRA fue de alrededor del 85%~ 90%. (Después de todo, Boson tiene 6 tipos de entidad, y los otros dos solo tienen 3 tipos)

Registro de actualizaciones

2018-9-15 Se agregó la versión TensorFlow.

2018-9-17 agregó el conjunto de datos diarios de las personas en 1998 y el conjunto de datos del Instituto de Investigación de Asia MSRA Microsoft.

2018-9-19 El estilo del código se modificó simplemente y el modelo se extrajo para una futura expansión.

2018-9-22 agregó la función python train.py test .

2018-10-6 Agregue los parámetros de uso para determinar si se debe usar vectores de palabras previamente capacitados para el entrenamiento.

2018-10-11 Función agregada: puede extraer entidades de un archivo de texto y escribirlas en otro archivo.

Expandir

Información adicional

Versión 1.0.0
Tipo Pitón
Fecha de actualización 2025-07-13
tamaño 13.52MB
Proviene de Github

Aplicaciones relacionadas

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Herramienta de gráficos de datos de código abierto Redash v24.10.0

2024-11-27
datamule python

2024-11-08
plataforma de visualización de datos smartchart v6.9

2024-11-27
Herramienta de prueba de carga de langosta v2.32.0

2024-11-27

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ToDo Co

Pitón

1.0.0
Python Portfolio

Pitón
datamule python

Pitón
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo