xmnlp скачать - загрузка исходного кода xmnlp

XMNLP: инструментарий для обработки естественного языка с открытым исходным кодом из коробки

XMNLP: инструментарий китайского натурального языка на естественном языке

Обзор функций

Китайский лексический анализ (Roberta + CRF Finetune)
- Причастие
- Часть речевой аннотации
- Названо распознавание тела
- Поддерживает пользовательские словаря
Китайская проверка орфографии (детектор + корректор)
Сводка текста и извлечение ключевых слов (Textrank)
Анализ настроений (Роберта Финетун)
Текст на пинин (три)
Китайские иероглики радикалы (Hashmap)
Представление предложения и расчет сходства

Контур

1. Установка
- Модель скачать
- Модель конфигурации
2. Используйте документ
- Причастие по умолчанию: SEG
  - Быстрое причастие: fast_seg
  - Причастие глубины: Deep_seg
- Часть речевой аннотации: тег
  - Быстрая часть речевой аннотации: fast_tag
  - Глубокая часть речи: deep_tag
- Слово частичные и частичные словесные словарь на заказ
- Названо признание тела: ner
- Извлечение ключевого слова: ключевое слово
- Извлечение оператора ключа: Keyphrase
- Эмоциональное признание: чувства
- Экстракция пиньин: пинин
- Радикальная экстракция: радикальный
- Исправление ошибок текста: Проверка
- Представление предложения и расчет сходства: предложение_vector
- Параллельная обработка
3. Подробнее
- Участники
- Академические цитаты
- Нужна настройка
- Коммуникационная группа
Оправдание
Лицензия

1. Установка

Установите последнюю версию XMNLP

pip install -U xmnlp

Домашние пользователи могут добавить Index-url

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

После установки пакета также необходимо загрузить веса модели, которые будут использоваться нормально.

Модель скачать

Пожалуйста, загрузите соответствующую версию модели XMNLP. Если вам не ясно о версии XMNLP, вы можете выполнить python -c 'import xmnlp; print(xmnlp.__version__)' для просмотра версии

Название модели	Применимая версия	Скачать адрес
xmnlp-onnx-models-v5.zip	V0.5.0, V0.5.1, V0.5.2, V0.5.3	Feishu [ighi] \| Baidu NetDisk [L9ID]
xmnlp-onnx-models-v4.zip	v0.4.0	Feishu [dkla] \| Baidu netdisk [J1Qi]
xmnlp-onnx-models-v3.zip	V0.3.2, V0.3.3	Feishu [o4ba] \| Baidu NetDisk [9G7E]

Модель конфигурации

После загрузки модели вам необходимо установить путь модели XMNLP для нормального запуска. Предоставлены два метода конфигурации

Метод 1: Настройка переменных среды (рекомендуется)

После того, как загруженная модель разместится, вы можете установить переменную среды для указания адреса модели. Взяв систему Linux в качестве примера, настройки следующие

 export XMNLP_MODEL=/path/to/xmnlp-models

Метод 2: Настройка через функции

Установите адрес модели перед вызовом XMNLP следующим образом

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

* Вышеуказанный /path/to/ предназначен только для заполнителя. Пожалуйста, замените его на реальный адрес каталога модели при настройке.

2. Используйте документ

xmnlp.seg (text: str) -> list [str]

Китайская сегментация слов (по умолчанию), основанная на обратном максимальном соответствии, Roberta + CRF используется для нового распознавания слов.

Параметр:

Текст: введите текст

Результат возвращается:

Список результатов за сегментацией слова

Пример:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg (text: str) -> list [str]

Сегментация слов на основе обратного максимального сопоставления не включает в себя новое распознавание слов и быстрее.

Параметр:

Текст: введите текст

Результат возвращается:

Список результатов за сегментацией слова

Пример:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg (text: str) -> list [str]

Основываясь на модели Roberta + CRF, скорость медленнее. В настоящее время глубокий интерфейс поддерживает только упрощенные китайцы, а не традиционный китайский.

Параметр:

Текст: введите текст

Результат возвращается:

Список результатов за сегментацией слова

Пример:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag (text: str) -> list [tuple (str, str)]]

Часть речевой аннотации.

Параметр:

Текст: введите текст

Результат возвращается:

Список слов и части речи

Пример:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag (text: str) -> list [tuple (str, str)]]

Основываясь на обратном максимальном соответствии, он не включает в себя новое распознавание слов и быстрее.

Параметр:

Текст: введите текст

Результат возвращается:

Список слов и части речи

Пример:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag (text: str) -> list [tuple (str, str)]]

Текст: введите текст

Результат возвращается:

Список слов и части речи

Пример:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

Слово частичные и частичные словесные словарь на заказ

Поддержка пользовательского словаря, словарный формат

词1 词性1
词2 词性2

Также совместим с форматом словаря причастия Цзиба

词1 词频1 词性1
词2 词频2 词性2

ПРИМЕЧАНИЕ: проставка в вышеупомянутой линии - это пространство

Пример использования:

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner (text: str) -> list [tuple (str, str, int, int)]]

Названное распознавание тела, типы сущностей, которые поддерживают распознавание:

Время: время
Расположение: Место
Человек: персонажи
Работа: карьера
Организация: организация

Параметр:

Текст: введите текст

Результат возвращается:

Список сущностей, типов сущностей, начальных позиций сущностей и конечных позиций сущности

Пример:

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.keyword (текст: str, k: int = 10, stopword: bool = true, allowpos: необязательно [list [str]] = none) -> list [tuple [str, float]]

Извлеките ключевые слова из текста на основе алгоритма текстового текста.

Параметр:

Текст: ввод текста
K: вернуть количество ключевых слов
Стоп слов: удалить стоп -слово
AllingPOS: настроить разрешенное качество слова

Результат возвращается:

Список ключевых слов и весов

Пример:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.keyphrase (текст: str, k: int = 10, stopword: bool = false) -> list [str]

Извлеките ключевые предложения из текста на основе алгоритма текстового текста.

Параметр:

Текст: ввод текста
K: вернуть количество ключевых слов
Стоп слов: удалить стоп -слово

Результат возвращается:

Список ключевых слов и весов

Пример:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.sentiment (text: str) -> tuple [float, float]

Эмоциональное признание основано на обучении корпуса электронной коммерции и подходит для эмоционального признания в сценариях электронной коммерции.

Параметр:

Текст: введите текст

Результат возвращается:

Корзин, формат: [вероятность негативной эмоции, положительная вероятность эмоций]

Пример:

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin (text: str) -> list [str]

Текст на пинин

Параметр:

Текст: введите текст

Результат возвращается:

Список пиньин

Пример:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radiical (text: str) -> list [str]

Извлеките текстовые радикалы

Параметр:

Текст: введите текст

Результат возвращается:

Список радикалов

Пример:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.checker (текст: str, предложить: bool = true, k: int = 5, max_k: int = 200) -> Union [list [tuple [int, str]], Dict [tuple [int, str], список [tuple [str, float]]]]::::::::::::::::::::::::::::::::::::::::::::::::

Исправление текстовой ошибки

Параметр:

Текст: введите текст
Предложить: вернуть ли предложенное слово
K: вернуть количество предлагаемых слов
MAX_K: максимальное количество поисков пиньина (рекомендуется сохранить значение по умолчанию)

Результат возвращается:

Когда предполагает ложный, он возвращает список (неправильный подпись слова, неправильное слово); Когда предполагается, это правда, он возвращает словарь, ключом словаря является (неправильный подписчик слова, неправильное слово), а значения - это рекомендуемые слова и список веса.

Пример:

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.sentencevector (model_dir: необязательно [str] = none, жанр: str = 'generic', max_length: int = 512)

Функция инициализации предложения

MODEL_DIR: Адрес сохранения модели и вес модели, предоставленный XMNLP, загружается по умолчанию
Жанр: тип контента, в настоящее время поддерживает три типа: [«generic», «financial», «International»]
max_length: максимальная длина входного текста, по умолчанию 512

Ниже приведены три функции члена предложения.

xmnlp.sv.sentencevector.transform (self, text: str) -> np.ndarray

xmnlp.sv.sentencevector.similality (self, x: union [str, np.ndarray], y: union [str, np.ndarray]) -> float

xmnlp.sv.sentencevector.ost_similar (self, запрос: str, docs: list [str], k: int = 1, ** kwargs) -> list [tuple [str, float]]]

Запрос: содержание запроса
Документы: список документов
K: вернуть топк аналогичный текст
Kwargs: параметры Kdtree, см. Sklearn.neighbors.kdtree

Пример использования

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

Выход

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

Параллельная обработка

Новая версия больше не предоставляет соответствующий интерфейс параллельной обработки и требует использования xmnlp.utils.parallel_handler для определения интерфейса параллельной обработки.

Интерфейс заключается в следующем:

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

Пример использования:

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

3. Подробнее

О участниках

С нетерпением жду большего количества друзей, чтобы создать простой и простой в использовании китайский инструмент НЛП

Академическая цитата цитирования

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

Нужна настройка

Я привержен исследованиям и реализации НЛП, и мои указания включают в себя: извлечение информации, эмоциональная классификация и т. Д.

Для других потребностей в реализации NLP, пожалуйста, свяжитесь с [email protected] (это оплачиваемая услуга, а ошибки, связанные с XMNLP.

Коммуникационная группа

Поиск официальной учетной записи xmnlp-ai , чтобы следовать, выберите «Группа связи» в меню, чтобы присоединиться к группе.

Ссылка

Данные, используемые в этом проекте, в основном:

Лексический анализ, исправление ошибок текста: ежедневная цитата людей
Эмоциональное признание: Chinesenlpcorpus

Лицензия

Apache 2.0

Большинство моделей построены на основе LANGML

Расширять