Descarga de JioNLP - Descargar el código fuente de JioNLP

JioNLP

Otro código fuente

1.0.0

Descargar

Jionlp: preprocesamiento de PNL chino y análisis de análisis de análisis Python para preprocesamiento y análisis chino de PNL NLP

Instalar: `pip install jionlp`

JionLP es un conjunto de herramientas para los desarrolladores de PNL , que proporciona funciones de preprocesamiento y análisis de tareas de PNL, con un umbral de uso preciso, eficiente y cero. Despeje esta página, verifique la información de la función específica y presione CTRL+F para buscar. La edición en línea de JIONLP puede probar rápidamente algunas características. Siga la cuenta oficial de WeChat del mismo nombre, JIONLP , y obtenga los últimos recursos de información y datos de IA.
- Dirección de desarrollo de IA, desde la tubería hasta la finalización de las
- ¿Por qué no cree en la revisión del modelo de LLM?: Revisión en profundidad de las interfaces LLM
- Ai parece estar corriendo en una dirección extraña
- ¿Chatgpt será tan fuerte afectar el entorno de empleo de NLPER?
- Comprender los principios del modelo de chatgpt en un artículo
- Después de tres semanas, actualicé otra versión del software de código abierto ffio => enlace FFIO

2023-12-12 Agregar mellm

Mellm , abreviatura de evaluación mutua de modelos de lenguaje grande , es un algoritmo de evaluación automática de LLM sin supervisión humana. MELLM se ha probado de manera efectiva en varios resultados y análisis de pruebas de conjuntos de datos. Puede usar el código de ejemplo a continuación para probar.
Antes de ejecutar este código, debe descargar norm_score.json y max_score.json a partir de datos de prueba con contraseña jmbo .
Si encuentra algún error, lea el test_mellm.py para descargar *.json archivo.

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py

2023-06-22 Agregue un conjunto de datos de evaluación LLM modelo LLM

JIONLP proporciona un conjunto de conjuntos de datos de prueba LLM y evalúa automáticamente utilizando el algoritmo MELLM.
Para obtener los resultados de la evaluación, siga la cuenta oficial JIONLP y verifique las capturas de pantalla de revisión específicas de cada compañía.

 >>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])

Instalar instalación

Python> = 3.6 La versión de GitHub está ligeramente por delante de Pip

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .

Instalación de PIP

 $ pip install jionlp

Uso de características

Importar el kit de herramientas y ver las funciones principales y los comentarios de funciones del kit de herramientas

 >>> import jionlp as jio
>>> print(jio.__version__)  # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)

La calificación estrella representa características especiales de alta calidad

1. Gadgets

Función	función	describir
Encontrar ayuda	ayuda	Si no sabe qué funciona JionLP, puede escribir varias palabras clave de acuerdo con las indicaciones de la línea de comando para buscar
Análisis de números de matrícula	parse_motor_vehicle_licence_plate	Dado un número de matrícula, analícelo
Análisis semántico de tiempo	parse_time	Dado un texto de tiempo, analice su semántica de tiempo (marca de tiempo, duración), etc.
Extracción de frase clave	Extract_keyphrase	Dado un texto, extraiga sus frases clave correspondientes
Resumen de texto extraído	Extract_summary	Dado un texto, extraiga su diccionario correspondiente
Detener el filtrado de palabras	remover_stopwords	Dada una lista de palabras después de participar un texto, elimine las palabras de detención
Oración	split_sentence	Texto de puntuación
Resolución de dirección	parse_location	Dada una cadena que contiene dirección doméstica, información de identificación como provincia, ciudad, condado, municipio, calle, pueblo, etc.
Lugar de número de teléfono, Análisis del operador	phone_location Cell_phone_location Landline_phone_location	Dado un número de teléfono (número de teléfono móvil, número de fijación fija), identifique la provincia, la ciudad y el operador.
Reconocimiento del nombre del lugar de noticias	reconocer_location	Dado un texto de noticias, identificar provincias nacionales, ciudades, condados, países extranjeros, ciudades y otra información.
Fechas del calendario gregoriano	lunar2solar solar2 lunar	Dada una determinada fecha del calendario, conviértalo en un calendario regional
Análisis de números de tarjeta de identidad	parse_id_card	Dado un número de identificación, identifique la provincia correspondiente, la ciudad, el condado, la fecha de nacimiento, Género, código de verificación y otra información
Moderno	Idiom_solitaire	El idioma es el mismo que el último carácter del idioma anterior y el primer carácter del próximo idioma (pronunciación)
Filtrado de datos pornográficos	-	-
Filtrado de datos reaccional	-	-
Chino tradicional a chino simplificado	TRA2SIM	Chino tradicional a chino simplificado, que respaldan dos modos de literatura y máxima coincidencia
Chino simplificado a chino tradicional	sim2tra	Chino simplificado a chino tradicional, que respaldan dos modos de letrina y máxima coincidencia
Caracteres chinos a Pinyin	pinyin	Descubra el pinyin chino correspondiente al texto chino y devuelva las iniciales , finales y tono
Caracteres chinos a radicales y personajes	charnical	Descubra la información de la estructura del personaje chino correspondiente al texto chino, Incluyendo radicales ("él" bombilla), estructura de fuentes ("él" estructura izquierda y derecha), Cuatro código de esquina ("él" 31120), desmontaje del personaje chino ("él" puede), Código Wubi (ISKG "River")
Cantidad número de caracteres chinos	dinero_num2char	Dada una cantidad numérica, devuelva el resultado de su capitalización de carácter chino
Nuevo descubrimiento de palabras	new_word_discovery	Dado un archivo de texto de corpus, la alta probabilidad de ser una palabra

2. Mejora de datos

Descripción de varios métodos para la mejora de los datos de texto

Función	función	describir
Responder a la traducción	Retradicación	Dado un texto, use la interfaz de traducción automática de las plataformas en la nube de los principales fabricantes. Implementar la mejora de los datos
Transposición de caracteres casi chinos	swap_char_position	Intercambie al azar las posiciones de caracteres similares para lograr la mejora de los datos
Reemplazo de homófono	homófono_substitución	El mismo reemplazo de vocabulario de pronunciación para lograr la mejora de los datos
Adición y eliminación de personajes aleatorios	random_add_delete	Agregar o eliminar un carácter al azar en el texto, que no tiene ningún efecto sobre la semántica
Reemplazo de entidad ner	reemplazar_Entity	Según el diccionario de entidad, el reemplazo aleatorio de una entidad en el texto no afectará la semántica, y también se usa ampliamente en la anotación de secuencia y la clasificación de texto

3. Extracción y análisis regulares

Función	función	describir
Texto limpio	Clean_text	Eliminar caracteres de excepción, caracteres redundantes, etiquetas HTML, información sobre el soporte en texto, URL, correo electrónico, número de teléfono, conversión alfanumérica de ancho completo en medio ancho
Extraer correo electrónico	Extract_email	Extraiga el correo electrónico en el texto, devuelva la ubicación y el nombre de dominio
Análisis de la cantidad monetaria	Extract_money	Poner la cadena de monto de la moneda
Extraer señales de WeChat	Extract_wechat_id	Dibuje la identificación de Wechat y regrese a la ubicación
Dibuja un número de teléfono	Extract_phone_number	Extraiga el número de teléfono (incluido el número de teléfono móvil y el número fijo ), y devuelva el nombre de dominio , el tipo y la ubicación
Extraiga la ID de tarjeta de identificación china	Extract_id_card	Extraiga la identificación de identificación y coopere con Jio.Parse_id_Card para devolver la información detallada de la tarjeta de identificación ( provincia, ciudad , fecha de nacimiento , género , código de verificación )
Dibujar el número QQ	Extract_qq	Dibujar números de QQ, divididos en reglas estrictas y reglas sueltas
Extraer url	Extract_url	Extraer hipervínculo de URL
Extraer dirección IP	Extract_ip_address	Extraer dirección IP
Extraer el contenido entre paréntesis	Extract_parentesis	Extraiga el contenido de los soportes, incluyendo {} "[] [] () () <>"
Dibuje el número de matrícula	Extract_motor_vehicle_licence_plate	Extraer información sobre el número de matrícula continental
Eliminar correo electrónico	remover_email	Eliminar el mensaje de correo electrónico en el texto
Eliminar URL	remover_url	Eliminar información de URL en texto
Eliminar el número de teléfono	remove_phone_number	Eliminar el número de teléfono en el texto
Eliminar la dirección IP	remove_ip_address	Eliminar la dirección IP en el texto
Eliminar el número de identificación	remover_id_card	Eliminar la información de la tarjeta de identificación en el texto
Eliminar QQ	remover_qq	Eliminar el número QQ en el texto
Eliminar etiquetas html	remove_html_tag	Eliminar las etiquetas HTML restantes en el texto
Eliminar el contenido entre paréntesis	eliminar_parenteses	Elimine el contenido de los soportes, incluyendo {} "[] [] () () <>"
Eliminar personajes de excepción	remove_exception_char	Elimine los caracteres de excepción en el texto, conservando principalmente caracteres chinos y puntuación comúnmente utilizada. Símbolos de cálculo de la unidad, alfanuméricos, etc.
Eliminar personajes redundantes	remove_redundant_char	Eliminar caracteres duplicados redundantes en el texto
Correo electrónico normalizado	reemplazar_email	El mensaje de correo electrónico en el texto normalizado es <Elo.>
URL normalizada	reemplazar_url	La información de la URL en el texto normalizado es <URL>
Número de teléfono normalizado	reemplazar_phone_number	El número de teléfono en el texto normalizado es <Lel>
Dirección IP normalizada	reemplazar_ip_address	La dirección IP en el texto normalizado es <p>
Número de identificación normalizado	reemplazar_id_card	La información de la tarjeta de identificación en el texto normalizado es <d>
QQ normalizado	reemplazar_qq	El número QQ en el texto normalizado es <QQ>
Determinar si el texto contiene caracteres chinos	check_any_chinese_char	Compruebe si el texto contiene caracteres chinos. Si se incluye al menos uno, devolverá verdadero.
Determinar si el texto son todos los caracteres chinos	check_all_chinese_char	Compruebe si todos los caracteres chinos están en el texto. Si todos lo son, devuelve verdadero
Determinar si el texto contiene números árabes	check_any_arabic_num	Compruebe si el texto contiene números árabes. Si se incluye al menos uno, devuelve verdadero
Determinar si todos los textos son números árabes	check_all_arabic_num	Compruebe si todos los números de árabe en el texto son. Si todos lo son, devuelve verdadero

4. Lectura de lectura y escritura de archivos

Función	función	describir
Leer archivos por línea	read_file_by_iter	Es fácil leer archivos por línea en forma de iterador, guardando la memoria. Admite el número especificado de filas , omita las filas vacías
Leer archivos por línea	read_file_by_line	Leer archivos por línea, admitir el número especificado de líneas , omitir líneas vacías
Escribir elementos en la lista para archivar por línea	write_file_by_line	Escribir elementos en la lista para archivar por línea
Herramienta de tiempo	Tiempo	Calcule el tiempo dedicado a un determinado segmento de código
Herramientas de registro	set_logger	Ajuste el formulario de salida del registro del kit de herramientas

5. Carga y uso del diccionario

Función	función	describir
Modelo de lenguaje grande LLM Evaluación de datos de datos	jio.llm_test_dataset_loader	Conjunto de datos de evaluación de LLM
BPE a nivel de byte	jio.bpe.byte_level_bpe	Algoritmo de byte-nivel-bpe
Diccionario de parada de palabras	jio.stopwords_loader ()	Diccionario de palabras de parada integral de Baidu, Jieba, Iflytek, etc.
Diccionario	chino_idiom_loader	Carga de diccionario de idiomas
Diccionario de modismos	xiehouyu_loader	Carga de diccionario de idiomas
Diccionario chino de sustantivos de lugar	China_Location_Loader	Cargue el diccionario de tres niveles del provincial, municipal y del condado de China
Diccionario chino del ajuste de la división	China_Location_Change_Loader	Carga de registros de cambio de nombre y cambio de nombre del nivel del condado y por encima de la zonificación en China desde 2018
Diccionario de sustantivos de World Place	world_location_loader	Cargue el continente mundial, el país, el diccionario de la ciudad
Diccionario Xinhua	chino_char_dictionary_loader	Cargando el diccionario Xinhua
Diccionario Xinhua	chino_word_dictionary_loader	Cargando el diccionario Xinhua

6. Conjunto de herramientas auxiliares de algoritmo de reconocimiento de entidad (NER)

Descripción de la especificación de datos del kit de herramientas

Función	función	describir
Extraer entidad de cantidad de moneda	Extract_money	Extraiga la cantidad monetaria del texto
Extraer entidad de tiempo	Extract_time	Extraer entidades de tiempo del texto
Basado en el diccionario ner	Léxico	Avanzar la entidad de correspondencia máxima basada en el diccionario de entidad especificado
entidad para etiquetar	entidad2tag	Convertir la entidad del formato JSON en una secuencia de etiqueta procesada por el modelo
Etiqueta a entidad	TAG2Entidad	Convierta la secuencia de etiqueta procesada por el modelo a una entidad de formato JSON
Token de transposición de token de palabras	palabra char2	Convertir el token a nivel de personaje a token a nivel de vocabulario
Palabra Token Transformar Token de palabra	word2char	Convertir el token de nivel de vocabulario a la token a nivel de personaje
Comparación de las diferencias de entidad entre etiquetas y predicciones del modelo	entity_compare	Compare diferencialmente con los resultados de la entidad predichos por el modelo para la anotación manual.
Aceleración de predicción del modelo NER	Tokensplitsentence Tokenbreaklongsentence Tokenbatchbucket	Métodos para predecir la aceleración paralela para los modelos NER
División de datos	analizar_dataset	El corpus de anotación NER se divide en el conjunto de entrenamiento, el conjunto de verificación y el conjunto de pruebas, y se dan las estadísticas de distribución del tipo de entidad de cada subconjunto.
Colección de entidades	coleccionar_dataset_entities	Recoge las entidades en el corpus anotado para formar un diccionario

7. Clasificación de texto

Función	función	describir	Calificación estrella
Vocabulario de categoría de análisis bayesiano ingenuo	analze_freq_words	Para el corpus anotado de la clasificación de texto, realice un análisis de frecuencia de palabras bayesianas ingenuas y devuelva el vocabulario probabilístico de alta condición para varios textos
División de datos	analizar_dataset	El corpus de anotación para la clasificación de texto se divide en un conjunto de entrenamiento, conjunto de verificación y conjunto de pruebas. Y dar las estadísticas de distribución de clasificación de cada subconjunto

8. Análisis de sentimientos

Función	función	describir	Calificación estrella
Análisis de sentimientos basado en diccionario	Lexonsentiment	Basado en el diccionario emocional construido artificialmente, se calcula el valor emocional del texto, que varía de 0 a 1

9. participio

Función	función	describir
Palabra a etiqueta	cws.word2tag	Convertir la secuencia de segmentación de palabras de formato JSON a secuencia de etiqueta procesada por modelo
Etiqueta a palabra	cws.tag2word	Convierta la secuencia de etiqueta procesada por el modelo a la segmentación de palabras de formato JSON
Estadísticas de valor F1	CWS.F1	Comparación del valor F1 de la etiqueta de la etiqueta de la palabra participio en la etiqueta de predicción del modelo
Diccionario estándar de corrección de datos del participio de Word	cws.cwsdcwithstandardwords	Corrija y repare datos de anotación de palabras de palabras utilizando el diccionario estándar

Citas de la literatura

Si se debe citar el documento, se pueden copiar las siguientes citas:

Chengyu Cui, Jionlp, (2020), repositorio de Github, https://github.com/dongrixinyu/jionlp

Intención original

El preprocesamiento y el análisis de PNL son críticos y requieren mucho tiempo. Esta lib puede ayudar rápidamente a completar varias operaciones de análisis y análisis triviales, acelerar el progreso del desarrollo y dedicar la energía limitada al pensamiento en lugar del código.
Si hay alguna sugerencia o error funcional, puede enviarlos de acuerdo con la plantilla a través del problema.
Los desarrolladores e investigadores de PNL pueden trabajar juntos para mejorar este kit de herramientas y agregar nuevas características .

Si esta herramienta es útil para usted, haga clic en la estrella en la esquina superior derecha

O escanee el código para pedirle al autor que tome una taza de café (● '◡' ●), el proyecto de código abierto está completamente alimentado por AI, ¡gracias! Uso de prioridad recomendado [Alipay] ~~

Gracias a los patrocinadores en la lista de gracias. Tus recompensas me han hecho más motivado

No es fácil hacer PNL. Bienvenido a unirse al grupo de comunicación WeChat de procesamiento del lenguaje natural WeChat

Escanee el siguiente código o busque la cuenta oficial JionLP por WX, siga y responda [Ingrese el grupo]

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-15
tamaño 17.57MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo

JioNLP

Jionlp: preprocesamiento de PNL chino y análisis de análisis de análisis Python para preprocesamiento y análisis chino de PNL NLP

Instalar: pip install jionlp

2023-12-12 Agregar mellm

2023-06-22 Agregue un conjunto de datos de evaluación LLM modelo LLM

Instalar instalación

Uso de características

1. Gadgets

2. Mejora de datos

3. Extracción y análisis regulares

4. Lectura de lectura y escritura de archivos

5. Carga y uso del diccionario

6. Conjunto de herramientas auxiliares de algoritmo de reconocimiento de entidad (NER)

7. Clasificación de texto

8. Análisis de sentimientos

9. participio

Citas de la literatura

Intención original

Si esta herramienta es útil para usted, haga clic en la estrella en la esquina superior derecha

O escanee el código para pedirle al autor que tome una taza de café (● '◡' ●), el proyecto de código abierto está completamente alimentado por AI, ¡gracias! Uso de prioridad recomendado [Alipay] ~~

No es fácil hacer PNL. Bienvenido a unirse al grupo de comunicación WeChat de procesamiento del lenguaje natural WeChat

Escanee el siguiente código o busque la cuenta oficial JionLP por WX, siga y responda [Ingrese el grupo]

Instalar: `pip install jionlp`