JioNLP скачать - загрузка исходного кода JioNLP

JioNLP

Другой исходный код

1.0.0

Скачать

JionLP: Инструментарий китайского NLP и анализ Python Lib для китайского предварительного обработки NLP и анализа

Установка: `pip install jionlp`

JionLP является инструментарием для разработчиков NLP , обеспечивая функции предварительной обработки и анализа задач NLP, с точным, эффективным и нулевым порогом использования. Пожалуйста, выпустите эту страницу, проверьте конкретную информацию о функции и нажмите Ctrl+F для поиска. Онлайн -издание Jionlp может быстро попробовать некоторые функции. Следите за официальной учетной записью того же имени WeChat, Jionlp и получите новейшие ресурсы для ИИ и данных.
- Направление развития ИИ - от трубопровода до End2end
- Почему вы не верите в обзор модели LLM: углубленный обзор интерфейсов LLM
- ИИ, кажется, работает в странном направлении
- Будет ли CHATGPT настолько сильным влиять на условия занятости NLPER?
- Понять принципы модели CHATGPT в одной статье
- Через три недели я обновил другую версию программного обеспечения с открытым исходным кодом FFIO => FFIO Link

2023-12-12 Добавить Меллм

Mellm , короткая для взаимной оценки моделей крупных языков , является автоматическим алгоритмом LLM без надзора за человеком. Mellm был эффективно протестирован на несколько результатов и анализа тестирования LLMS и наборов данных. Вы можете использовать пример кода ниже, чтобы попробовать.
Перед запуском этого кода вам следует загрузить norm_score.json и max_score.json из тестовых данных с паролем jmbo .
Если вы столкнетесь с какой -либо ошибкой, прочитайте файл test_mellm.py для загрузки *.json .

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py

2023-06-22 Добавить набор данных LLM большой языковой модели LLM

JionLP предоставляет набор наборов тестовых данных LLM и автоматически оценивается с использованием алгоритма Mellm.
Для получения результатов оценки, пожалуйста, следуйте официальной учетной записи Jionlp и проверьте конкретные скриншоты каждой компании.

 >>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])

Установите установку

Python> = 3,6 версия GitHub немного впереди PIP

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .

Установка PIP

 $ pip install jionlp

Используя функции

Импортируйте инструментарий и просмотрите основные функции и комментарии функций инструментария

 >>> import jionlp as jio
>>> print(jio.__version__)  # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)

Star Rating представляет собой высококачественные специальные особенности

1. Гаджеты

Функция	функция	описывать
Найти помощь	помощь	Если вы не знаете, что функционирует JionLP, вы можете ввести несколько ключевых слов в соответствии с подсказками командной строки для поиска
Анализ номера номерного знака	parse_motor_vehicle_licence_plate	Учитывая номер номерного знака, проанализируйте его
Время семантического анализа	parse_time	Учитывая текст времени, проанализируйте его семантику времени (марка времени, продолжительность) и т. Д.
Извлечение ключевой фразы	extract_keyphrase	Учитывая текст, извлеките его соответствующие ключевые фразы
Извлеченное текстовое резюме	extract_summary	Учитывая текст, извлеките его соответствующий словарь
Остановите фильтрацию слов	remove_stopwords	Учитывая список слов после участия текста, удалите из него стоп -слова
Предложение	split_sentence	Пунктир текст
Разрешение адреса	parse_location	Учитывая строку, содержащую внутренний адрес, выявление такой информации, как провинция, город, округ, поселок, улица, деревня и т. Д.
Место номера телефона, Анализ оператора	Phone_location cell_phone_location Landline_phone_location	Учитывая строку номера телефона (номер мобильного телефона, номер для стационарного номера), идентифицируйте провинцию, город и оператор.
Признание названия новостей	распознавать_локацию	Учитывая текст новостей, определите внутренние провинции, города, округа, зарубежные страны, города и другую информацию.
Грегорианские календарные даты	Lunar2solar Solar2lunar	Учитывая определенную дату календаря, преобразуйте его в региональный календарь
Анализ номеров идентификационных карт	parse_id_card	Учитывая идентификационный номер, определите соответствующую провинцию, город, округ, дата рождения, Пол, код проверки и другая информация
Идиома твердое	IDIOM_SOLITAIRE	Идиома такая же, как и последний символ предыдущей идиомы и первый характер следующей идиомы (произношение)
Порнографическая фильтрация данных	-	-
Реакционная фильтрация данных	-	-
Традиционный китайский для упрощенного китайца	Tra2sim	Традиционный китайский для упрощенных китайцев, поддерживая два режима дословного и максимального соответствия
Упрощенный китайский на традиционный китайский	SIM2TRA	Упрощенный китайский к традиционному китайскому, поддерживая два режима дословного и максимального соответствия
Китайские иероглифы пинеина	пинин	Узнайте китайский пиньин, соответствующий китайскому тексту, и верните инициалы , финалы и тон
Китайские иероглифы для радикалов и персонажей	char_radiical	Узнайте информацию о структуре китайского символа, соответствующей китайскому тексту, В том числе радикалы («он» лампочка), структура шрифта («он» левая и правая структура), Четыре углового кода («HE» 31120), разборка китайского иеха («он» вода), Wubi Code ("River" ISKG)
Количество количества китайских иерогли	money_num2char	Учитывая численную сумму, верните результат своей китайской капитализации.
Новое слово открытие	new_word_discovery	Учитывая текстовый файл корпуса, высокую вероятность быть словом

2. Улучшение данных

Описание различных методов улучшения текстовых данных

Функция	функция	описывать
Ответить на перевод	Обратная трансляция	Учитывая текст, используйте интерфейс машинного перевода облачных платформ основных производителей. Реализовать улучшение данных
Почти китайские иероглифы	swap_char_position	Случайным образом обмениваться позициями аналогичных символов на достижение улучшения данных
Гомофонная замена	Homophone_substitution	Такая же замена словарного запаса произношения для достижения улучшения данных
Случайное добавление и удаление персонажа	random_add_delete	Случайно добавить или удалить символ в тексте, который не влияет на семантику
Замена сущности	Заменить_entity	Согласно словарю сущности, случайная замена объекта в тексте не повлияет на семантику, а также широко используется в аннотации последовательности и классификации текста

3. Регулярная добыча и анализ

Функция	функция	описывать
Чистый текст	clean_text	Удалить символы исключения, избыточные символы, теги HTML, информация о кронштейне в тексте, URL, электронная почта, номер телефона, буквенно-цифровое преобразование полной ширины в полуговку
Извлеките электронную почту	extract_email	Извлеките электронное письмо в тексте, верните местоположение и доменное имя
Анализ суммы валюты	extract_money	Строка размера валюты
Извлекать сигналы WeChat	extract_wechat_id	Нарисуйте идентификатор WeChat и вернитесь в местоположение
Нарисуйте номер телефона	extract_phone_number	Извлечь номер телефона (включая номер мобильного телефона и номер стационарного линии ) и вернуть доменное имя , тип и местоположение
Извлечь идентификатор китайского удостоверения личности	extract_id_card	Извлеките идентификатор идентификатора и сотрудничайте с Jio.parse_id_card , чтобы вернуть подробную информацию об идентификационной карте ( провинция, город , дата рождения , пол , код проверки )
Нарисуйте номер QQ	extract_qq	Нарисуйте номера QQ, разделенные на строгие правила и свободные правила
Извлечение URL	extract_url	Извлекать URL -гиперссылку
Извлеките IP -адрес	extract_ip_address	Извлеките IP -адрес
Извлеките содержимое в скобки	extract_parenteses	Извлеките содержание кронштейнов, включая {} "[] [] () () <>"
Нарисовать номерной знак	extract_motor_vehicle_licence_plate	Извлечь информацию о номере номера материкового знака
Удалить электронную почту	remove_email	Удалить сообщение электронной почты в тексте
Удалить URL	remove_url	Удалить информацию URL в тексте
Удалить номер телефона	remove_phone_number	Удалить номер телефона в тексте
Удалить IP -адрес	remove_ip_address	Удалить IP -адрес в тексте
Удалить идентификационный номер	remove_id_card	Удалить информацию об идентификационной карте в тексте
Удалить QQ	удалить_qq	Удалить номер QQ в тексте
Удалить теги HTML	remove_html_tag	Удалить оставшиеся теги HTML в тексте
Удалить контент в скобках	remove_parenteses	Удалить содержание кронштейнов, включая {} "[] [] () () <>"
Удалить символы исключения	remove_exception_char	Удалить символы исключения в тексте, в основном сохраняя китайские иероглифы и обычно используют пунктуацию. Символы расчета единицы, алфавина и т. Д.
Удалить избыточных символов	remove_redundant_char	Удалить избыточные дублируемые символы в тексте
Нормализованная электронная почта	replace_email	Сообщение по электронной почте в нормализованном тексте-<mail>
Нормализованный URL	Заменить_URL	Информация URL в нормализованном тексте - <URL>
Нормализованный номер телефона	replace_phone_number	Номер телефона в нормализованном тексте <tel>
Нормализованный IP -адрес	replace_ip_address	IP -адрес в нормализованном тексте - <ip>
Нормализованный идентификационный номер	replace_id_card	Информация о удостоверении личности в нормализованном тексте - <id>
Нормализованный QQ	Заменить_QQ	Номер QQ в нормализованном тексте - <qq>
Определите, содержит ли текст китайские иероглифы	check_any_chinese_char	Проверьте, содержит ли текст китайские иероглифы. Если хотя бы один был включен, это вернет правдиво.
Определите, является ли текст все китайские иероглифы	check_all_chinese_char	Проверьте, находятся ли в тексте все китайские персонажи. Если все, верните правда
Определите, содержит ли текст арабские цифры	check_any_arabic_num	Проверьте, содержит ли текст арабские цифры. Если по крайней мере один включен, он возвращает истину
Определите, являются ли все тексты арабские цифры	check_all_arabic_num	Проверьте, являются ли все арабские цифры в тексте. Если все, верните правда

4. Инструменты для чтения и записи файлов

Функция	функция	описывать
Читать файлы по строке	read_file_by_iter	Легко читать файлы по строке в форме итератора, сохраняя память. Поддерживает указанное количество рядов , пропустить пустые ряды
Читать файлы по строке	read_file_by_line	Читать файлы по строке, поддержать указанное количество строк , пропустить пустые строки
Записать элементы в списке, чтобы файл по строке	write_file_by_line	Записать элементы в списке, чтобы файл по строке
Инструмент времени	Время	Рассчитайте время, проведенное в определенном сегменте кода
Инструменты регистрации	set_logger	Отрегулируйте форму вывода журнала Toolkit

5. Словарь загрузки и использование

Функция	функция	описывать
Набор данных о оценке LLM с большим языком	jio.llm_test_dataset_loader	Набор данных оценки LLM
Байтовый уровень BPE	jio.bpe.byte_level_bpe	Алгоритм уровня байта
Остановите словарь слов	jio.stopwords_loader ()	Комплексный Стоп Словарь Слова из Байду, Цзебы, Ифлитека и т. Д.
Идиома словарь	Китайский_идюм_ загрузчик	Загрузка идиомы словаря
Словарь идиом	xiehouyu_loader	Загрузка идиомы словаря
Китайский словарь существительных мест	China_location_loader	Загрузите трехуровневый словарь провинциального, муниципального и графства Китая
Китайский словарь корректировки деления	China_location_change_loader	Загрузка записей о переименовании и переименовании уровня округа и выше зонирования в Китае с 2018 года
Словарь существительного мира	World_location_loader	Загрузить мировой континент, страна, городской словарь
Синьхуа Словарь	Китайский_чар_dictionary_loader	Загрузка Синьхуа Словарь
Синьхуа Словарь	winky_word_dictionary_loader	Загрузка Синьхуа Словарь

6. Набор вспомогательных инструментов для распознавания сущности (NER)

Инструментарий NER Data Data Descification Описание

Функция	функция	описывать
Извлечь объект валюты	extract_money	Извлеките сумму валюты из текста
Извлечь время сущности	extract_time	Извлечение временных сущностей из текста
На основе словаря Ner	Lexiconner	Вперед максимально соответствующим объектом на основе указанного словаря объекта
сущность, чтобы пометить	Entity2tag	Преобразовать объект формата JSON в последовательность тегов, обработанную моделью
тег в сущность	tag2entity	Преобразовать последовательность тегов, обработанную моделью в объект формата JSON
Токен слова транспонируют токен	Char2word	Преобразовать токен уровня персонажа в токен на уровне словарного запаса
Слово токен преобразование слова токен	Word2char	Преобразовать токен на уровне словарного запаса в токен на уровне персонажа
Сравнение различий сущностей между этикетками и модельными прогнозами	Entity_compare	Сравните по -разному с результатами сущности, предсказанными моделью для ручной аннотации.
NER модели прогнозирование ускорение	Tokensplitsentence Tokenbreaklongsence Tokenbatchbucket	Методы прогнозирования параллельного ускорения для моделей NER
Разделенный набор данных	Analyze_dataset	Корпус Annotation Annotation делится на учебный набор, набор проверки и набор тестов, и приведена статистика распределения типа объекта каждого подмножества.
Коллекция сущности	collect_dataset_entities	Собирайте организации в аннотированном корпусе, чтобы сформировать словарь

7. Текстовая классификация

Функция	функция	описывать	Звездный рейтинг
Наивный байесовский анализ категория словарь	Analyze_freq_words	Для аннотированного корпуса текстовой классификации выполните наивный байесовский анализ частоты слов и возвращайте вероятностный словарный запас высокого уровня для различных текстов
Разделенный набор данных	Analyze_dataset	Корпус аннотации для классификации текста разделен на учебный набор, набор проверки и набор тестов. И дайте статистику распределения классификации каждого подмножества

8. Анализ настроений

Функция	функция	описывать	Звездный рейтинг
Анализ настроений на основе словаря	LexiconsEntiment	Основываясь на искусственно сконструированном эмоциональном словаре, рассчитывается эмоциональная ценность текста, в диапазоне от 0 до 1

9. Причастие

Функция	функция	описывать
Слово, чтобы пометить	cws.word2tag	Преобразовать последовательность сегментации слова в формате json в последовательность тегов, обработанных модели,
Тег на слово	cws.tag2word	Преобразовать последовательность тегов, обработанную моделью в формат json. Сегментация слов
Статистика F1 Значение	cws.f1	Сравнение значения F1 метки слова «Причастие» на метке прогнозирования модели
Словарь по коррекции данных по причастию слов	cws.cwsdcwithstandardwords	Правильно и ремонтируют данные аннотации слов с использованием стандартного словаря

Литературные цитаты

Если статья необходимо цитировать, можно скопировать следующие цитаты:

Chengyu Cui, Jionlp, (2020), репозиторий Github, https://github.com/dongrixinyu/jionlp

Оригинальное намерение

Предварительная обработка NLP и анализ анализа критически важны и требуют много времени. Этот LIB может быстро помочь в завершении различных тривиальных предварительных обработок и анализа, ускорить прогресс в разработке и посвятить ограниченную энергию мышлению, а не коде.
Если есть какие -либо функциональные предложения или ошибки, вы можете отправить их в соответствии с шаблоном через проблему.
Разработчики и исследователи НЛП могут работать вместе, чтобы улучшить этот инструментарий и добавить новые функции .

Если этот инструмент полезен для вас, нажмите на звезду в правом верхнем углу

Или сканировать код, чтобы попросить автора купить чашку кофе (● '◡' ●), проект с открытым исходным кодом полностью оснащен ИИ, спасибо! Рекомендуемое приоритетное использование [Alipay] ~~

Спасибо спонсорам в списке спасибо. Ваши награды сделали меня более мотивированным

Нелегко сделать НЛП. Добро пожаловать, чтобы присоединиться к группе по обработке естественного языка WeChat Communication Group

Пожалуйста, сканируйте следующий код или найдите официальную учетную запись jionlp по WX, следуйте и ответите [введите группу]

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-15
размер 17.57MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

JioNLP

JionLP: Инструментарий китайского NLP и анализ Python Lib для китайского предварительного обработки NLP и анализа

Установка: `pip install jionlp`

2023-12-12 Добавить Меллм

2023-06-22 Добавить набор данных LLM большой языковой модели LLM

Установите установку

Используя функции

1. Гаджеты

2. Улучшение данных

3. Регулярная добыча и анализ

4. Инструменты для чтения и записи файлов

5. Словарь загрузки и использование

6. Набор вспомогательных инструментов для распознавания сущности (NER)

7. Текстовая классификация

8. Анализ настроений

9. Причастие

Литературные цитаты

Оригинальное намерение

Если этот инструмент полезен для вас, нажмите на звезду в правом верхнем углу

Нелегко сделать НЛП. Добро пожаловать, чтобы присоединиться к группе по обработке естественного языка WeChat Communication Group

Пожалуйста, сканируйте следующий код или найдите официальную учетную запись jionlp по WX, следуйте и ответите [введите группу]

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

JioNLP

JionLP: Инструментарий китайского NLP и анализ Python Lib для китайского предварительного обработки NLP и анализа

Установка: pip install jionlp

2023-12-12 Добавить Меллм

2023-06-22 Добавить набор данных LLM большой языковой модели LLM

Установите установку

Используя функции

1. Гаджеты

2. Улучшение данных

3. Регулярная добыча и анализ

4. Инструменты для чтения и записи файлов

5. Словарь загрузки и использование

6. Набор вспомогательных инструментов для распознавания сущности (NER)

7. Текстовая классификация

8. Анализ настроений

9. Причастие

Литературные цитаты

Оригинальное намерение

Если этот инструмент полезен для вас, нажмите на звезду в правом верхнем углу

Нелегко сделать НЛП. Добро пожаловать, чтобы присоединиться к группе по обработке естественного языка WeChat Communication Group

Пожалуйста, сканируйте следующий код или найдите официальную учетную запись jionlp по WX, следуйте и ответите [введите группу]

Установка: `pip install jionlp`