JioNLP
1.0.0

pip install jionlpJIONLP는 NLP 개발자를 위한 툴킷으로, NLP 작업 전처리 및 구문 분석 기능을 정확하고 효율적이며 제로 사용 기준으로 제공합니다. 이 페이지를 적어 놓고 특정 기능 정보를 확인한 다음 Ctrl+F를 눌러 검색하십시오. Jionlp Online Edition은 몇 가지 기능을 빠르게 시도 할 수 있습니다. 같은 이름 인 Jionlp의 WeChat 공식 계정을 따르고 최신 AI 정보 및 데이터 리소스를 얻으십시오.
jmbo 사용하여 Test Data에서 norm_score.json 및 max_score.json 다운로드해야합니다.*.json 파일을 다운로드하십시오. $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
$ pip install jionlp
>>> import jionlp as jio
>>> print(jio.__version__) # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)
| 기능 | 기능 | 설명하다 | 별 등급 |
|---|---|---|---|
| 도움을 찾으십시오 | 돕다 | JIONLP 기능이 무엇인지 모르는 경우 명령 줄 프롬프트에 따라 여러 키워드를 입력 할 수 있습니다. | |
| 번호판 번호 분석 | parse_motor_vehicle_licence_plate | 번호판 번호가 주어지면 분석하십시오 | |
| 시간 시맨틱 분석 | parse_time | 시간 텍스트가 주어지면 시간 의미론 (타임 스탬프, 지속 시간) 등을 구문 분석하십시오. | |
| 핵심 문구 추출 | Extract_keyphrase | 텍스트가 주어지면 해당 주요 문구를 추출하십시오 | |
| 추출 된 텍스트 요약 | Extract_summary | 텍스트가 주어지면 해당 사전을 추출하십시오 | |
| 단어 필터링을 중지하십시오 | remove_stopwords | 텍스트가 참여한 후 단어 목록이 주어지면 단어 중지 단어를 제거하십시오. | |
| 문장 | split_sentence | 구두점 텍스트 | |
| 주소 해결 | parse_location | 국내 주소가 포함 된 문자열이 주어지면 지방, 도시, 카운티, 마을, 거리, 마을 등과 같은 정보를 식별합니다. | |
| 전화 번호 장소 , 운영자 분석 | 폰_location clell_phone_location Landline_phone_location | 전화 번호 (휴대폰 번호, 유선 번호) 문자열이 주어지면 지방, 도시 및 운영자를 식별하십시오. | |
| 뉴스 장소 이름 인식 | 인식 _location | 뉴스 텍스트가 주어지면 국내 지방, 도시, 카운티, 외국, 도시 및 기타 정보를 식별하십시오. | |
| 그레고리 캘린더 날짜 | lunar2solar Solar2lunar | 특정 달력 날짜가 주어지면 지역 달력으로 변환하십시오. | |
| 신원 카드 번호 분석 | parse_id_card | ID 번호가 주어지면 해당 지방, 도시, 카운티, 생년월일을 식별하십시오. 성별, 검증 코드 및 기타 정보 | |
| 관용 단체 | idiom_solitaire | 관용구는 이전 관용의 마지막 인물과 다음 관용의 첫 번째 캐릭터와 동일합니다 (발음) | |
| 포르노 데이터 필터링 | - | - | |
| 반응 데이터 필터링 | - | - | |
| 중국 전통 중국어에서 중국어를 단순화했습니다 | TRA2SIM | 전통적인 중국인 대 중국어, 두 가지 구두 모드와 최대 일치 모드를 지원합니다. | |
| 중국어 로 중국어를 단순화했습니다 | sim2tra | 중국어가 전통적인 중국어로 단순화하여 두 가지 구두 모드와 최대 일치 모드를 지원합니다. | |
| Pinyin 에게 한자 | 피니 인 | 중국어 텍스트에 해당하는 중국 Pinyin을 찾아 이니셜 , 결승 및 톤을 반환하십시오. | |
| 급진적 인 캐릭터에 대한 한자 | char_radiical | 중국어 텍스트에 해당하는 중국어 구조 정보를 찾으십시오. 라디칼 ( "HE"전구), 글꼴 구조 ( "HE"왼쪽 및 오른쪽 구조), 4 개의 코너 코드 ( "He"31120), 중국어 분해 ( "He"Water Can), Wubi 코드 ( "River"ISKG) | |
| 한자에 대한 금액 | Money_num2char | 숫자가 주어지면 중국자 자본화 결과를 반환하십시오. | |
| 새로운 단어 발견 | new_word_discovery | 코퍼스 텍스트 파일이 주어지면 단어가 될 확률이 높습니다. |
| 기능 | 기능 | 설명하다 | 별 등급 |
|---|---|---|---|
| 번역에 답장하십시오 | 회복 | 텍스트가 주어지면 주요 제조업체의 클라우드 플랫폼의 기계 번역 인터페이스를 사용하십시오. 데이터 향상을 구현합니다 | |
| 거의 한자 전달 | swap_char_position | 데이터 향상을 달성하기 위해 유사한 문자의 위치를 무작위로 교환합니다. | |
| 호모 폰 교체 | 호모 폰 _substitution | 데이터 향상을 달성하기위한 동일한 발음 어휘 대체 | |
| 무작위 문자 추가 및 삭제 | random_add_delete | 텍스트에서 문자를 무작위로 추가하거나 삭제하는데, 이는 의미론에 영향을 미치지 않습니다. | |
| NER 엔티티 교체 | replace_entity | Entity Dictionary에 따르면, 텍스트에서 엔티티의 임의 교체는 의미론에 영향을 미치지 않으며, 순서 주석 및 텍스트 분류에도 널리 사용됩니다. |
| 기능 | 기능 | 설명하다 | 별 등급 |
|---|---|---|---|
| 깨끗한 텍스트 | clean_text | 텍스트로 예외 문자, 중복 문자, HTML 태그, 브래킷 정보를 제거합니다. URL, 이메일, 전화 번호, 전폭의 전형 영숫자 전환 | |
| 이메일을 추출하십시오 | Extract_Email | 텍스트에서 이메일을 추출하고 위치 및 도메인 이름을 반환합니다. | |
| 통화 금액 분석 | Extract_Money | 통화 금액 문자열 | |
| WeChat 신호를 추출하십시오 | Extract_wechat_id | WeChat ID를 그려 위치로 돌아갑니다 | |
| 전화 번호를 그립니다 | Extract_phone_number | 전화 번호 ( 휴대폰 번호 및 유선 번호 포함)를 추출하고 도메인 이름 , 유형 및 위치를 반환합니다. | |
| 중국 ID 카드 ID를 추출하십시오 | Extract_id_card | ID ID를 추출하고 jio.parse_id_card 와 협력하여 ID 카드의 자세한 정보를 반환합니다 ( 주, 도시 , 생년월일 , 성별 , 검증 코드 ) | |
| QQ 번호를 그립니다 | Extract_QQ | 엄격한 규칙과 느슨한 규칙으로 나뉘어 진 QQ 번호를 그리기 | |
| URL 추출 | Extract_URL | URL 하이퍼 링크를 추출하십시오 | |
| IP 주소 추출 | Extract_ip_address | IP 주소 추출 | |
| 괄호 안에 내용물을 추출하십시오 | Extract_parenteses | {} "[] [] () () <>을 포함하여 괄호의 내용을 추출하십시오. | |
| 번호판 번호를 그리십시오 | extrac_motor_vehicle_licence_plate | 본토 번호판 번호 정보를 추출하십시오 | |
| 이메일을 삭제하십시오 | remove_email | 텍스트에서 이메일 메시지를 삭제하십시오 | |
| URL 삭제 | 제거 _url | 텍스트에서 URL 정보를 삭제하십시오 | |
| 전화 번호 삭제 | remove_phone_number | 텍스트에서 전화 번호를 삭제하십시오 | |
| IP 주소를 삭제합니다 | remove_ip_address | 텍스트에서 IP 주소를 삭제하십시오 | |
| ID 번호를 삭제합니다 | remove_id_card | 텍스트에서 ID 카드 정보를 삭제하십시오 | |
| QQ 삭제 | remove_qq | 텍스트에서 QQ 번호를 삭제하십시오 | |
| HTML 태그를 삭제하십시오 | remove_html_tag | 텍스트에서 나머지 HTML 태그를 삭제하십시오 | |
| 괄호 로 내용을 삭제하십시오 | remove_parenteses | {} "[] [] () () <>을 포함하여 괄호의 내용을 삭제하십시오. | |
| 예외 문자 삭제 | remove_exception_char | 텍스트에서 예외 문자를 삭제하고 주로 한자를 유지하고 일반적으로 사용되는 구두점을 유지합니다. 단위 계산 기호, 영숫자 등 | |
| 중복 문자를 삭제합니다 | remove_RedUndant_char | 텍스트에서 중복 된 중복 문자를 삭제하십시오 | |
| 정규화 된 이메일 | replace_email | 정규화 된 텍스트의 이메일 메시지는 <email>입니다 | |
| 정규화 된 URL | replace_url | 정규화 된 텍스트의 URL 정보는 <url>입니다 | |
| 정규화 된 전화 번호 | replace_phone_number | 정규화 된 텍스트의 전화 번호는 <tel>입니다 | |
| 정규화 된 IP 주소 | replace_ip_address | 정규화 된 텍스트의 IP 주소는 <ip>입니다 | |
| 정규화 된 ID 번호 | replace_id_card | 정규화 된 텍스트의 ID 카드 정보는 <id>입니다. | |
| 정규화 된 QQ | replace_qq | 정규화 된 텍스트의 QQ 번호는 <qq>입니다 | |
| 텍스트에 한자가 포함되어 있는지 확인하십시오 | check_any_chinese_char | 텍스트에 한자가 포함되어 있는지 확인하십시오. 적어도 하나가 포함되면 true가 반환됩니다. | |
| 텍스트가 모두 한자인지 결정하십시오 | check_all_chinese_char | 모든 한자가 텍스트에 있는지 확인하십시오. 모두라면 사실을 반환합니다 | |
| 텍스트에 아랍어 숫자가 포함되어 있는지 확인하십시오 | check_any_arabic_num | 텍스트에 아랍어 숫자가 포함되어 있는지 확인하십시오. 적어도 하나가 포함되면 true가 반환됩니다 | |
| 모든 텍스트가 아랍어 숫자인지 확인하십시오 | check_all_arabic_num | 텍스트의 모든 아랍어 숫자가 있는지 확인하십시오. 모두라면 사실을 반환합니다 |
| 기능 | 기능 | 설명하다 | 별 등급 |
|---|---|---|---|
| 라인별로 파일을 읽습니다 | read_file_by_iter | 반복자 형태로 라인별로 파일을 쉽게 읽을 수 있으며 메모리를 저장합니다. 지정된 행 수를 지원하고 빈 행을 건너 뜁니다 | |
| 라인별로 파일을 읽습니다 | read_file_by_line | 라인별로 파일 읽기, 지정된 줄 수를 지원하고 빈 줄을 건너 뜁니다. | |
| 목록에 요소를 라인별로 작성하십시오 | write_file_by_line | 목록에 요소를 라인별로 작성하십시오 | |
| 타이밍 도구 | 시간대 | 특정 코드 세그먼트에 소요되는 시간을 계산하십시오 | |
| 로깅 도구 | set_logger | 툴킷 로그 출력 양식을 조정하십시오 |
| 기능 | 기능 | 설명하다 | 별 등급 |
|---|---|---|---|
| 대형 언어 모델 LLM 평가 데이터 세트 | jio.llm_test_dataset_loader | LLM 평가 데이터 세트 | |
| 바이트 레벨 BPE | jio.bpe.byte_level_bpe | 바이트 레벨 BPE 알고리즘 | |
| 단어 사전을 중지하십시오 | jio.stopwords_loader () | Baidu, Jieba, Iflytek 등의 포괄적 인 중지 단어 사전 | |
| 관용 사전 | 중국어 _idiom_loader | 관용 사전로드 | |
| 관용구 사전 | xiehouyu_loader | 관용 사전로드 | |
| 장소 명사의 중국 사전 | China_Location_loader | 중국 지방, 시립 및 카운티 의 3 단계 사전을 적재하십시오. | |
| 분열 조정의 중국 사전 | China_Location_change_loader | 2018 년부터 중국의 카운티 수준 및 구역의 이름 바꾸기 및 이름 변경 기록을로드 | |
| 세계 장소 명사 사전 | world_location_loader | 세계 대륙, 국가, 도시 사전을 적재하십시오 | |
| 신화 사전 | 중국어 _char_dictionary_loader | Xinhua 사전로드 | |
| 신화 사전 | 중국어 _word_dictionary_loader | Xinhua 사전로드 |
| 기능 | 기능 | 설명하다 | 별 등급 |
|---|---|---|---|
| 통화 금액을 추출하십시오 | Extract_Money | 텍스트에서 통화 금액을 추출하십시오 | |
| 시간 개체 를 추출하십시오 | Extract_Time | 텍스트에서 시간 엔티티 추출 | |
| 사전 ner를 기반으로합니다 | Lexiconner | 지정된 엔티티 사전을 기반으로 최대 일치 엔티티 | |
| 태그의 엔티티 | 엔티티 2TAG | JSON 형식 엔티티 변환 모델에 의해 처리 된 태그 시퀀스로 변환 | |
| 엔티티에 태그 | tag2entity | 모델에 의해 처리 된 태그 시퀀스를 JSON 형식 엔티티로 변환 | |
| 단어 토큰은 토큰을 옮깁니다 | char2word | 캐릭터 레벨 토큰을 어휘 레벨 토큰으로 변환하십시오 | |
| 단어 토큰 변환 단어 토큰 | Word2char | 어휘 수준 토큰을 캐릭터 레벨 토큰으로 변환하십시오 | |
| 라벨과 모델 예측의 엔티티 차이 비교 | entity_compare | 수동 주석 모델에 의해 예측 된 엔티티 결과와 차별적으로 비교하십시오. | |
| NER 모델 예측 가속도 | Tokensplitsentence Tokenbreaklongsentence Tokenbatchbucket | NER 모델의 병렬 가속도를 예측하는 방법 | |
| 분할 데이터 세트 | Analyze_dataset | NER 주석 코퍼스는 교육 세트, 검증 세트 및 테스트 세트로 나뉘어 있으며 각 서브 세트의 엔티티 유형 분포 통계가 제공됩니다. | |
| 엔티티 컬렉션 | Collect_dataset_entities | 주석이 달린 코퍼스에서 실체를 수집하여 사전을 형성하십시오. |
| 기능 | 기능 | 설명하다 | 별 등급 |
|---|---|---|---|
| 순진한 베이지안 분석 범주 어휘 | Analyze_freq_words | 텍스트 분류의 주석이 달린 코퍼스의 경우 순진한 베이지안 단어 주파수 분석을 수행하고 다양한 텍스트에 대한 고 조건 확률 어휘를 반환하십시오. | |
| 분할 데이터 세트 | Analyze_dataset | 텍스트 분류를위한 주석 코퍼스는 교육 세트, 검증 세트 및 테스트 세트로 나뉩니다. 각 서브 세트의 분류 분포 통계를 제공합니다 |
| 기능 | 기능 | 설명하다 | 별 등급 |
|---|---|---|---|
| 사전 기반 감정 분석 | 어휘 | 인위적으로 구성된 감정 사전을 기반으로, 텍스트의 감정적 가치는 0에서 1까지 계산됩니다. |
| 기능 | 기능 | 설명하다 | 별 등급 |
|---|---|---|---|
| 태그에 대한 단어 | cws.word2tag | JSON 형식 단어 세분화 시퀀스를 모델 처리 된 태그 시퀀스로 변환 | |
| 단어에 태그 | cws.tag2word | 모델에 의해 처리 된 태그 시퀀스를 JSON 형식 단어 세그먼트로 변환 | |
| 통계 F1 값 | cws.f1 | 모델 예측 레이블에서 단어 분사 레이블의 레이블의 F1 값 비교 | |
| 단어 분사 데이터 수정 표준 사전 | cws.cwsdcwithstandardwords | 표준 사전을 사용하여 Word-Participle 주석 데이터를 수정하고 수리하십시오 |
Chengyu Cui, Jionlp, (2020), Github Repository, https://github.com/dongrixinyu/jionlp

