JioNLP
1.0.0

pip install jionlpJionLP является инструментарием для разработчиков NLP , обеспечивая функции предварительной обработки и анализа задач NLP, с точным, эффективным и нулевым порогом использования. Пожалуйста, выпустите эту страницу, проверьте конкретную информацию о функции и нажмите Ctrl+F для поиска. Онлайн -издание Jionlp может быстро попробовать некоторые функции. Следите за официальной учетной записью того же имени WeChat, Jionlp и получите новейшие ресурсы для ИИ и данных.
norm_score.json и max_score.json из тестовых данных с паролем jmbo .*.json . $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
$ pip install jionlp
>>> import jionlp as jio
>>> print(jio.__version__) # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)
| Функция | функция | описывать | Звездный рейтинг |
|---|---|---|---|
| Найти помощь | помощь | Если вы не знаете, что функционирует JionLP, вы можете ввести несколько ключевых слов в соответствии с подсказками командной строки для поиска | |
| Анализ номера номерного знака | parse_motor_vehicle_licence_plate | Учитывая номер номерного знака, проанализируйте его | |
| Время семантического анализа | parse_time | Учитывая текст времени, проанализируйте его семантику времени (марка времени, продолжительность) и т. Д. | |
| Извлечение ключевой фразы | extract_keyphrase | Учитывая текст, извлеките его соответствующие ключевые фразы | |
| Извлеченное текстовое резюме | extract_summary | Учитывая текст, извлеките его соответствующий словарь | |
| Остановите фильтрацию слов | remove_stopwords | Учитывая список слов после участия текста, удалите из него стоп -слова | |
| Предложение | split_sentence | Пунктир текст | |
| Разрешение адреса | parse_location | Учитывая строку, содержащую внутренний адрес, выявление такой информации, как провинция, город, округ, поселок, улица, деревня и т. Д. | |
| Место номера телефона, Анализ оператора | Phone_location cell_phone_location Landline_phone_location | Учитывая строку номера телефона (номер мобильного телефона, номер для стационарного номера), идентифицируйте провинцию, город и оператор. | |
| Признание названия новостей | распознавать_локацию | Учитывая текст новостей, определите внутренние провинции, города, округа, зарубежные страны, города и другую информацию. | |
| Грегорианские календарные даты | Lunar2solar Solar2lunar | Учитывая определенную дату календаря, преобразуйте его в региональный календарь | |
| Анализ номеров идентификационных карт | parse_id_card | Учитывая идентификационный номер, определите соответствующую провинцию, город, округ, дата рождения, Пол, код проверки и другая информация | |
| Идиома твердое | IDIOM_SOLITAIRE | Идиома такая же, как и последний символ предыдущей идиомы и первый характер следующей идиомы (произношение) | |
| Порнографическая фильтрация данных | - | - | |
| Реакционная фильтрация данных | - | - | |
| Традиционный китайский для упрощенного китайца | Tra2sim | Традиционный китайский для упрощенных китайцев, поддерживая два режима дословного и максимального соответствия | |
| Упрощенный китайский на традиционный китайский | SIM2TRA | Упрощенный китайский к традиционному китайскому, поддерживая два режима дословного и максимального соответствия | |
| Китайские иероглифы пинеина | пинин | Узнайте китайский пиньин, соответствующий китайскому тексту, и верните инициалы , финалы и тон | |
| Китайские иероглифы для радикалов и персонажей | char_radiical | Узнайте информацию о структуре китайского символа, соответствующей китайскому тексту, В том числе радикалы («он» лампочка), структура шрифта («он» левая и правая структура), Четыре углового кода («HE» 31120), разборка китайского иеха («он» вода), Wubi Code ("River" ISKG) | |
| Количество количества китайских иерогли | money_num2char | Учитывая численную сумму, верните результат своей китайской капитализации. | |
| Новое слово открытие | new_word_discovery | Учитывая текстовый файл корпуса, высокую вероятность быть словом |
| Функция | функция | описывать | Звездный рейтинг |
|---|---|---|---|
| Ответить на перевод | Обратная трансляция | Учитывая текст, используйте интерфейс машинного перевода облачных платформ основных производителей. Реализовать улучшение данных | |
| Почти китайские иероглифы | swap_char_position | Случайным образом обмениваться позициями аналогичных символов на достижение улучшения данных | |
| Гомофонная замена | Homophone_substitution | Такая же замена словарного запаса произношения для достижения улучшения данных | |
| Случайное добавление и удаление персонажа | random_add_delete | Случайно добавить или удалить символ в тексте, который не влияет на семантику | |
| Замена сущности | Заменить_entity | Согласно словарю сущности, случайная замена объекта в тексте не повлияет на семантику, а также широко используется в аннотации последовательности и классификации текста |
| Функция | функция | описывать | Звездный рейтинг |
|---|---|---|---|
| Чистый текст | clean_text | Удалить символы исключения, избыточные символы, теги HTML, информация о кронштейне в тексте, URL, электронная почта, номер телефона, буквенно-цифровое преобразование полной ширины в полуговку | |
| Извлеките электронную почту | extract_email | Извлеките электронное письмо в тексте, верните местоположение и доменное имя | |
| Анализ суммы валюты | extract_money | Строка размера валюты | |
| Извлекать сигналы WeChat | extract_wechat_id | Нарисуйте идентификатор WeChat и вернитесь в местоположение | |
| Нарисуйте номер телефона | extract_phone_number | Извлечь номер телефона (включая номер мобильного телефона и номер стационарного линии ) и вернуть доменное имя , тип и местоположение | |
| Извлечь идентификатор китайского удостоверения личности | extract_id_card | Извлеките идентификатор идентификатора и сотрудничайте с Jio.parse_id_card , чтобы вернуть подробную информацию об идентификационной карте ( провинция, город , дата рождения , пол , код проверки ) | |
| Нарисуйте номер QQ | extract_qq | Нарисуйте номера QQ, разделенные на строгие правила и свободные правила | |
| Извлечение URL | extract_url | Извлекать URL -гиперссылку | |
| Извлеките IP -адрес | extract_ip_address | Извлеките IP -адрес | |
| Извлеките содержимое в скобки | extract_parenteses | Извлеките содержание кронштейнов, включая {} "[] [] () () <>" | |
| Нарисовать номерной знак | extract_motor_vehicle_licence_plate | Извлечь информацию о номере номера материкового знака | |
| Удалить электронную почту | remove_email | Удалить сообщение электронной почты в тексте | |
| Удалить URL | remove_url | Удалить информацию URL в тексте | |
| Удалить номер телефона | remove_phone_number | Удалить номер телефона в тексте | |
| Удалить IP -адрес | remove_ip_address | Удалить IP -адрес в тексте | |
| Удалить идентификационный номер | remove_id_card | Удалить информацию об идентификационной карте в тексте | |
| Удалить QQ | удалить_qq | Удалить номер QQ в тексте | |
| Удалить теги HTML | remove_html_tag | Удалить оставшиеся теги HTML в тексте | |
| Удалить контент в скобках | remove_parenteses | Удалить содержание кронштейнов, включая {} "[] [] () () <>" | |
| Удалить символы исключения | remove_exception_char | Удалить символы исключения в тексте, в основном сохраняя китайские иероглифы и обычно используют пунктуацию. Символы расчета единицы, алфавина и т. Д. | |
| Удалить избыточных символов | remove_redundant_char | Удалить избыточные дублируемые символы в тексте | |
| Нормализованная электронная почта | replace_email | Сообщение по электронной почте в нормализованном тексте-<mail> | |
| Нормализованный URL | Заменить_URL | Информация URL в нормализованном тексте - <URL> | |
| Нормализованный номер телефона | replace_phone_number | Номер телефона в нормализованном тексте <tel> | |
| Нормализованный IP -адрес | replace_ip_address | IP -адрес в нормализованном тексте - <ip> | |
| Нормализованный идентификационный номер | replace_id_card | Информация о удостоверении личности в нормализованном тексте - <id> | |
| Нормализованный QQ | Заменить_QQ | Номер QQ в нормализованном тексте - <qq> | |
| Определите, содержит ли текст китайские иероглифы | check_any_chinese_char | Проверьте, содержит ли текст китайские иероглифы. Если хотя бы один был включен, это вернет правдиво. | |
| Определите, является ли текст все китайские иероглифы | check_all_chinese_char | Проверьте, находятся ли в тексте все китайские персонажи. Если все, верните правда | |
| Определите, содержит ли текст арабские цифры | check_any_arabic_num | Проверьте, содержит ли текст арабские цифры. Если по крайней мере один включен, он возвращает истину | |
| Определите, являются ли все тексты арабские цифры | check_all_arabic_num | Проверьте, являются ли все арабские цифры в тексте. Если все, верните правда |
| Функция | функция | описывать | Звездный рейтинг |
|---|---|---|---|
| Читать файлы по строке | read_file_by_iter | Легко читать файлы по строке в форме итератора, сохраняя память. Поддерживает указанное количество рядов , пропустить пустые ряды | |
| Читать файлы по строке | read_file_by_line | Читать файлы по строке, поддержать указанное количество строк , пропустить пустые строки | |
| Записать элементы в списке, чтобы файл по строке | write_file_by_line | Записать элементы в списке, чтобы файл по строке | |
| Инструмент времени | Время | Рассчитайте время, проведенное в определенном сегменте кода | |
| Инструменты регистрации | set_logger | Отрегулируйте форму вывода журнала Toolkit |
| Функция | функция | описывать | Звездный рейтинг |
|---|---|---|---|
| Набор данных о оценке LLM с большим языком | jio.llm_test_dataset_loader | Набор данных оценки LLM | |
| Байтовый уровень BPE | jio.bpe.byte_level_bpe | Алгоритм уровня байта | |
| Остановите словарь слов | jio.stopwords_loader () | Комплексный Стоп Словарь Слова из Байду, Цзебы, Ифлитека и т. Д. | |
| Идиома словарь | Китайский_идюм_ загрузчик | Загрузка идиомы словаря | |
| Словарь идиом | xiehouyu_loader | Загрузка идиомы словаря | |
| Китайский словарь существительных мест | China_location_loader | Загрузите трехуровневый словарь провинциального, муниципального и графства Китая | |
| Китайский словарь корректировки деления | China_location_change_loader | Загрузка записей о переименовании и переименовании уровня округа и выше зонирования в Китае с 2018 года | |
| Словарь существительного мира | World_location_loader | Загрузить мировой континент, страна, городской словарь | |
| Синьхуа Словарь | Китайский_чар_dictionary_loader | Загрузка Синьхуа Словарь | |
| Синьхуа Словарь | winky_word_dictionary_loader | Загрузка Синьхуа Словарь |
| Функция | функция | описывать | Звездный рейтинг |
|---|---|---|---|
| Извлечь объект валюты | extract_money | Извлеките сумму валюты из текста | |
| Извлечь время сущности | extract_time | Извлечение временных сущностей из текста | |
| На основе словаря Ner | Lexiconner | Вперед максимально соответствующим объектом на основе указанного словаря объекта | |
| сущность, чтобы пометить | Entity2tag | Преобразовать объект формата JSON в последовательность тегов, обработанную моделью | |
| тег в сущность | tag2entity | Преобразовать последовательность тегов, обработанную моделью в объект формата JSON | |
| Токен слова транспонируют токен | Char2word | Преобразовать токен уровня персонажа в токен на уровне словарного запаса | |
| Слово токен преобразование слова токен | Word2char | Преобразовать токен на уровне словарного запаса в токен на уровне персонажа | |
| Сравнение различий сущностей между этикетками и модельными прогнозами | Entity_compare | Сравните по -разному с результатами сущности, предсказанными моделью для ручной аннотации. | |
| NER модели прогнозирование ускорение | Tokensplitsentence Tokenbreaklongsence Tokenbatchbucket | Методы прогнозирования параллельного ускорения для моделей NER | |
| Разделенный набор данных | Analyze_dataset | Корпус Annotation Annotation делится на учебный набор, набор проверки и набор тестов, и приведена статистика распределения типа объекта каждого подмножества. | |
| Коллекция сущности | collect_dataset_entities | Собирайте организации в аннотированном корпусе, чтобы сформировать словарь |
| Функция | функция | описывать | Звездный рейтинг |
|---|---|---|---|
| Наивный байесовский анализ категория словарь | Analyze_freq_words | Для аннотированного корпуса текстовой классификации выполните наивный байесовский анализ частоты слов и возвращайте вероятностный словарный запас высокого уровня для различных текстов | |
| Разделенный набор данных | Analyze_dataset | Корпус аннотации для классификации текста разделен на учебный набор, набор проверки и набор тестов. И дайте статистику распределения классификации каждого подмножества |
| Функция | функция | описывать | Звездный рейтинг |
|---|---|---|---|
| Анализ настроений на основе словаря | LexiconsEntiment | Основываясь на искусственно сконструированном эмоциональном словаре, рассчитывается эмоциональная ценность текста, в диапазоне от 0 до 1 |
| Функция | функция | описывать | Звездный рейтинг |
|---|---|---|---|
| Слово, чтобы пометить | cws.word2tag | Преобразовать последовательность сегментации слова в формате json в последовательность тегов, обработанных модели, | |
| Тег на слово | cws.tag2word | Преобразовать последовательность тегов, обработанную моделью в формат json. Сегментация слов | |
| Статистика F1 Значение | cws.f1 | Сравнение значения F1 метки слова «Причастие» на метке прогнозирования модели | |
| Словарь по коррекции данных по причастию слов | cws.cwsdcwithstandardwords | Правильно и ремонтируют данные аннотации слов с использованием стандартного словаря |
Chengyu Cui, Jionlp, (2020), репозиторий Github, https://github.com/dongrixinyu/jionlp

