JioNLP
1.0.0

pip install jionlpJionLP es un conjunto de herramientas para los desarrolladores de PNL , que proporciona funciones de preprocesamiento y análisis de tareas de PNL, con un umbral de uso preciso, eficiente y cero. Despeje esta página, verifique la información de la función específica y presione CTRL+F para buscar. La edición en línea de JIONLP puede probar rápidamente algunas características. Siga la cuenta oficial de WeChat del mismo nombre, JIONLP , y obtenga los últimos recursos de información y datos de IA.
norm_score.json y max_score.json a partir de datos de prueba con contraseña jmbo .*.json archivo. $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
$ pip install jionlp
>>> import jionlp as jio
>>> print(jio.__version__) # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)
| Función | función | describir | Calificación estrella |
|---|---|---|---|
| Encontrar ayuda | ayuda | Si no sabe qué funciona JionLP, puede escribir varias palabras clave de acuerdo con las indicaciones de la línea de comando para buscar | |
| Análisis de números de matrícula | parse_motor_vehicle_licence_plate | Dado un número de matrícula, analícelo | |
| Análisis semántico de tiempo | parse_time | Dado un texto de tiempo, analice su semántica de tiempo (marca de tiempo, duración), etc. | |
| Extracción de frase clave | Extract_keyphrase | Dado un texto, extraiga sus frases clave correspondientes | |
| Resumen de texto extraído | Extract_summary | Dado un texto, extraiga su diccionario correspondiente | |
| Detener el filtrado de palabras | remover_stopwords | Dada una lista de palabras después de participar un texto, elimine las palabras de detención | |
| Oración | split_sentence | Texto de puntuación | |
| Resolución de dirección | parse_location | Dada una cadena que contiene dirección doméstica, información de identificación como provincia, ciudad, condado, municipio, calle, pueblo, etc. | |
| Lugar de número de teléfono, Análisis del operador | phone_location Cell_phone_location Landline_phone_location | Dado un número de teléfono (número de teléfono móvil, número de fijación fija), identifique la provincia, la ciudad y el operador. | |
| Reconocimiento del nombre del lugar de noticias | reconocer_location | Dado un texto de noticias, identificar provincias nacionales, ciudades, condados, países extranjeros, ciudades y otra información. | |
| Fechas del calendario gregoriano | lunar2solar solar2 lunar | Dada una determinada fecha del calendario, conviértalo en un calendario regional | |
| Análisis de números de tarjeta de identidad | parse_id_card | Dado un número de identificación, identifique la provincia correspondiente, la ciudad, el condado, la fecha de nacimiento, Género, código de verificación y otra información | |
| Moderno | Idiom_solitaire | El idioma es el mismo que el último carácter del idioma anterior y el primer carácter del próximo idioma (pronunciación) | |
| Filtrado de datos pornográficos | - | - | |
| Filtrado de datos reaccional | - | - | |
| Chino tradicional a chino simplificado | TRA2SIM | Chino tradicional a chino simplificado, que respaldan dos modos de literatura y máxima coincidencia | |
| Chino simplificado a chino tradicional | sim2tra | Chino simplificado a chino tradicional, que respaldan dos modos de letrina y máxima coincidencia | |
| Caracteres chinos a Pinyin | pinyin | Descubra el pinyin chino correspondiente al texto chino y devuelva las iniciales , finales y tono | |
| Caracteres chinos a radicales y personajes | charnical | Descubra la información de la estructura del personaje chino correspondiente al texto chino, Incluyendo radicales ("él" bombilla), estructura de fuentes ("él" estructura izquierda y derecha), Cuatro código de esquina ("él" 31120), desmontaje del personaje chino ("él" puede), Código Wubi (ISKG "River") | |
| Cantidad número de caracteres chinos | dinero_num2char | Dada una cantidad numérica, devuelva el resultado de su capitalización de carácter chino | |
| Nuevo descubrimiento de palabras | new_word_discovery | Dado un archivo de texto de corpus, la alta probabilidad de ser una palabra |
| Función | función | describir | Calificación estrella |
|---|---|---|---|
| Responder a la traducción | Retradicación | Dado un texto, use la interfaz de traducción automática de las plataformas en la nube de los principales fabricantes. Implementar la mejora de los datos | |
| Transposición de caracteres casi chinos | swap_char_position | Intercambie al azar las posiciones de caracteres similares para lograr la mejora de los datos | |
| Reemplazo de homófono | homófono_substitución | El mismo reemplazo de vocabulario de pronunciación para lograr la mejora de los datos | |
| Adición y eliminación de personajes aleatorios | random_add_delete | Agregar o eliminar un carácter al azar en el texto, que no tiene ningún efecto sobre la semántica | |
| Reemplazo de entidad ner | reemplazar_Entity | Según el diccionario de entidad, el reemplazo aleatorio de una entidad en el texto no afectará la semántica, y también se usa ampliamente en la anotación de secuencia y la clasificación de texto |
| Función | función | describir | Calificación estrella |
|---|---|---|---|
| Texto limpio | Clean_text | Eliminar caracteres de excepción, caracteres redundantes, etiquetas HTML, información sobre el soporte en texto, URL, correo electrónico, número de teléfono, conversión alfanumérica de ancho completo en medio ancho | |
| Extraer correo electrónico | Extract_email | Extraiga el correo electrónico en el texto, devuelva la ubicación y el nombre de dominio | |
| Análisis de la cantidad monetaria | Extract_money | Poner la cadena de monto de la moneda | |
| Extraer señales de WeChat | Extract_wechat_id | Dibuje la identificación de Wechat y regrese a la ubicación | |
| Dibuja un número de teléfono | Extract_phone_number | Extraiga el número de teléfono (incluido el número de teléfono móvil y el número fijo ), y devuelva el nombre de dominio , el tipo y la ubicación | |
| Extraiga la ID de tarjeta de identificación china | Extract_id_card | Extraiga la identificación de identificación y coopere con Jio.Parse_id_Card para devolver la información detallada de la tarjeta de identificación ( provincia, ciudad , fecha de nacimiento , género , código de verificación ) | |
| Dibujar el número QQ | Extract_qq | Dibujar números de QQ, divididos en reglas estrictas y reglas sueltas | |
| Extraer url | Extract_url | Extraer hipervínculo de URL | |
| Extraer dirección IP | Extract_ip_address | Extraer dirección IP | |
| Extraer el contenido entre paréntesis | Extract_parentesis | Extraiga el contenido de los soportes, incluyendo {} "[] [] () () <>" | |
| Dibuje el número de matrícula | Extract_motor_vehicle_licence_plate | Extraer información sobre el número de matrícula continental | |
| Eliminar correo electrónico | remover_email | Eliminar el mensaje de correo electrónico en el texto | |
| Eliminar URL | remover_url | Eliminar información de URL en texto | |
| Eliminar el número de teléfono | remove_phone_number | Eliminar el número de teléfono en el texto | |
| Eliminar la dirección IP | remove_ip_address | Eliminar la dirección IP en el texto | |
| Eliminar el número de identificación | remover_id_card | Eliminar la información de la tarjeta de identificación en el texto | |
| Eliminar QQ | remover_qq | Eliminar el número QQ en el texto | |
| Eliminar etiquetas html | remove_html_tag | Eliminar las etiquetas HTML restantes en el texto | |
| Eliminar el contenido entre paréntesis | eliminar_parenteses | Elimine el contenido de los soportes, incluyendo {} "[] [] () () <>" | |
| Eliminar personajes de excepción | remove_exception_char | Elimine los caracteres de excepción en el texto, conservando principalmente caracteres chinos y puntuación comúnmente utilizada. Símbolos de cálculo de la unidad, alfanuméricos, etc. | |
| Eliminar personajes redundantes | remove_redundant_char | Eliminar caracteres duplicados redundantes en el texto | |
| Correo electrónico normalizado | reemplazar_email | El mensaje de correo electrónico en el texto normalizado es <Elo.> | |
| URL normalizada | reemplazar_url | La información de la URL en el texto normalizado es <URL> | |
| Número de teléfono normalizado | reemplazar_phone_number | El número de teléfono en el texto normalizado es <Lel> | |
| Dirección IP normalizada | reemplazar_ip_address | La dirección IP en el texto normalizado es <p> | |
| Número de identificación normalizado | reemplazar_id_card | La información de la tarjeta de identificación en el texto normalizado es <d> | |
| QQ normalizado | reemplazar_qq | El número QQ en el texto normalizado es <QQ> | |
| Determinar si el texto contiene caracteres chinos | check_any_chinese_char | Compruebe si el texto contiene caracteres chinos. Si se incluye al menos uno, devolverá verdadero. | |
| Determinar si el texto son todos los caracteres chinos | check_all_chinese_char | Compruebe si todos los caracteres chinos están en el texto. Si todos lo son, devuelve verdadero | |
| Determinar si el texto contiene números árabes | check_any_arabic_num | Compruebe si el texto contiene números árabes. Si se incluye al menos uno, devuelve verdadero | |
| Determinar si todos los textos son números árabes | check_all_arabic_num | Compruebe si todos los números de árabe en el texto son. Si todos lo son, devuelve verdadero |
| Función | función | describir | Calificación estrella |
|---|---|---|---|
| Leer archivos por línea | read_file_by_iter | Es fácil leer archivos por línea en forma de iterador, guardando la memoria. Admite el número especificado de filas , omita las filas vacías | |
| Leer archivos por línea | read_file_by_line | Leer archivos por línea, admitir el número especificado de líneas , omitir líneas vacías | |
| Escribir elementos en la lista para archivar por línea | write_file_by_line | Escribir elementos en la lista para archivar por línea | |
| Herramienta de tiempo | Tiempo | Calcule el tiempo dedicado a un determinado segmento de código | |
| Herramientas de registro | set_logger | Ajuste el formulario de salida del registro del kit de herramientas |
| Función | función | describir | Calificación estrella |
|---|---|---|---|
| Modelo de lenguaje grande LLM Evaluación de datos de datos | jio.llm_test_dataset_loader | Conjunto de datos de evaluación de LLM | |
| BPE a nivel de byte | jio.bpe.byte_level_bpe | Algoritmo de byte-nivel-bpe | |
| Diccionario de parada de palabras | jio.stopwords_loader () | Diccionario de palabras de parada integral de Baidu, Jieba, Iflytek, etc. | |
| Diccionario | chino_idiom_loader | Carga de diccionario de idiomas | |
| Diccionario de modismos | xiehouyu_loader | Carga de diccionario de idiomas | |
| Diccionario chino de sustantivos de lugar | China_Location_Loader | Cargue el diccionario de tres niveles del provincial, municipal y del condado de China | |
| Diccionario chino del ajuste de la división | China_Location_Change_Loader | Carga de registros de cambio de nombre y cambio de nombre del nivel del condado y por encima de la zonificación en China desde 2018 | |
| Diccionario de sustantivos de World Place | world_location_loader | Cargue el continente mundial, el país, el diccionario de la ciudad | |
| Diccionario Xinhua | chino_char_dictionary_loader | Cargando el diccionario Xinhua | |
| Diccionario Xinhua | chino_word_dictionary_loader | Cargando el diccionario Xinhua |
| Función | función | describir | Calificación estrella |
|---|---|---|---|
| Extraer entidad de cantidad de moneda | Extract_money | Extraiga la cantidad monetaria del texto | |
| Extraer entidad de tiempo | Extract_time | Extraer entidades de tiempo del texto | |
| Basado en el diccionario ner | Léxico | Avanzar la entidad de correspondencia máxima basada en el diccionario de entidad especificado | |
| entidad para etiquetar | entidad2tag | Convertir la entidad del formato JSON en una secuencia de etiqueta procesada por el modelo | |
| Etiqueta a entidad | TAG2Entidad | Convierta la secuencia de etiqueta procesada por el modelo a una entidad de formato JSON | |
| Token de transposición de token de palabras | palabra char2 | Convertir el token a nivel de personaje a token a nivel de vocabulario | |
| Palabra Token Transformar Token de palabra | word2char | Convertir el token de nivel de vocabulario a la token a nivel de personaje | |
| Comparación de las diferencias de entidad entre etiquetas y predicciones del modelo | entity_compare | Compare diferencialmente con los resultados de la entidad predichos por el modelo para la anotación manual. | |
| Aceleración de predicción del modelo NER | Tokensplitsentence Tokenbreaklongsentence Tokenbatchbucket | Métodos para predecir la aceleración paralela para los modelos NER | |
| División de datos | analizar_dataset | El corpus de anotación NER se divide en el conjunto de entrenamiento, el conjunto de verificación y el conjunto de pruebas, y se dan las estadísticas de distribución del tipo de entidad de cada subconjunto. | |
| Colección de entidades | coleccionar_dataset_entities | Recoge las entidades en el corpus anotado para formar un diccionario |
| Función | función | describir | Calificación estrella |
|---|---|---|---|
| Vocabulario de categoría de análisis bayesiano ingenuo | analze_freq_words | Para el corpus anotado de la clasificación de texto, realice un análisis de frecuencia de palabras bayesianas ingenuas y devuelva el vocabulario probabilístico de alta condición para varios textos | |
| División de datos | analizar_dataset | El corpus de anotación para la clasificación de texto se divide en un conjunto de entrenamiento, conjunto de verificación y conjunto de pruebas. Y dar las estadísticas de distribución de clasificación de cada subconjunto |
| Función | función | describir | Calificación estrella |
|---|---|---|---|
| Análisis de sentimientos basado en diccionario | Lexonsentiment | Basado en el diccionario emocional construido artificialmente, se calcula el valor emocional del texto, que varía de 0 a 1 |
| Función | función | describir | Calificación estrella |
|---|---|---|---|
| Palabra a etiqueta | cws.word2tag | Convertir la secuencia de segmentación de palabras de formato JSON a secuencia de etiqueta procesada por modelo | |
| Etiqueta a palabra | cws.tag2word | Convierta la secuencia de etiqueta procesada por el modelo a la segmentación de palabras de formato JSON | |
| Estadísticas de valor F1 | CWS.F1 | Comparación del valor F1 de la etiqueta de la etiqueta de la palabra participio en la etiqueta de predicción del modelo | |
| Diccionario estándar de corrección de datos del participio de Word | cws.cwsdcwithstandardwords | Corrija y repare datos de anotación de palabras de palabras utilizando el diccionario estándar |
Chengyu Cui, Jionlp, (2020), repositorio de Github, https://github.com/dongrixinyu/jionlp

