JioNLPダウンロードJioNLPソースコードのダウンロード

JioNLP

その他のソースコード

1.0.0

ダウンロード

jionlp：中国のNLPプリプロセシングと解析ツールキット中国のNLPプレプレーズと解析のためのPython lib

インストール： `pip install jionlp`

JIONLPは、 NLP開発者向けのツールキットであり、正確で効率的でゼロ使用のしきい値を備えたNLPタスク前処理および解析機能を提供します。このページをドロップダウンし、特定の関数情報を確認し、 Ctrl+Fを押して検索してください。 Jionlp Online Editionは、いくつかの機能をすばやく試すことができます。同じ名前のJionlpのWeChatの公式アカウントに従い、最新のAI情報とデータリソースを取得します。
- AI開発方向 - パイプラインからEnd2Endまで
- LLMモデルのレビューを信じてみませんか：LLMインターフェイスの詳細なレビュー
- AIは奇妙な方向に走っているようです
- ChatGptはNLPERの雇用環境に非常に強力に影響しますか？
- 1つの記事でchatgptモデルの原則を理解する
- 3週間後、オープンソースソフトウェアの別のバージョンを更新しましたffio => ffioリンク

2023-12-12 Mellmを追加します

大規模な言語モデルの相互評価の略であるMellmは、人間の監督のないLLMの自動評価アルゴリズムです。 MELLMは、いくつかのLLMおよびデータセットのテスト結果と分析で効果的にテストされています。以下のサンプルコードを使用して試してみることができます。
このコードを実行する前に、パスワードjmboを使用してテストデータからnorm_score.jsonとmax_score.jsonをダウンロードする必要があります。
エラーが発生した場合は、test_mellm.pyを読んで*.jsonファイルをダウンロードしてください。

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py

2023-06-22大きな言語モデルLLM評価データセットを追加します

JIONLPは、一連のLLMテストデータセットを提供し、MELLMアルゴリズムを使用して自動的に評価します。
評価結果については、公式のアカウントJionlpに従って、各企業の特定のレビュースクリーンショットを確認してください。

 >>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])

インストールをインストールします

Python> = 3.6 Githubバージョンは、PIPよりわずかに先です

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .

ピップのインストール

 $ pip install jionlp

機能を使用します

ツールキットをインポートし、ツールキットの主な機能と関数コメントを表示します

 >>> import jionlp as jio
>>> print(jio.__version__)  # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)

星評価は、高品質の特別な機能を表しています

1。ガジェット

関数	関数	説明する
ヘルプを見つけてください	ヘルプ	JionLPが機能するかどうかわからない場合は、コマンドラインのプロンプトに応じていくつかのキーワードを入力できます。
ナンバープレート番号分析	parse_motor_vehicle_licence_plate	ナンバープレート番号が与えられた場合、分析します
時間セマンティック分析	parse_time	時間テキストが与えられた場合、その時間セマンティクス（タイムスタンプ、期間）などを解析します。
キーフレーズ抽出	extract_keyphrase	テキストが与えられた場合、対応するキーフレーズを抽出します
抽出されたテキストの概要	extract_summary	テキストが与えられた場合、対応する辞書を抽出します
ワードフィルタリングを停止します	remove_stopwords	テキストが分類された後の単語リストを与えられた場合、そこから停止単語を削除します
文	split_sentence	テキストを句読点
アドレス解決	parse_location	国内住所を含む文字列が与えられ、州、市、郡、タウンシップ、通り、村などの情報を識別します。
電話番号の場所、オペレーター分析	Phone_location cell_phone_location landline_phone_location	電話番号（携帯電話番号、固定電話番号）の文字列が与えられた場合、州、市、およびオペレーターを特定します。
ニュースプレイス名の認識	認識_Location	ニューステキストを考慮して、国内の州、都市、郡、外国、都市、その他の情報を特定してください。
グレゴリオカレンダーの日付	lunar2solar solar2lunar	特定のカレンダーの日付が与えられた場合、それを地域カレンダーに変換します
身分証明書番号分析	parse_id_card	ID番号が与えられた場合、対応する州、市、郡、生年月日を特定します。性別、検証コード、およびその他の情報
イディオムソリッド	Idiom_solitaire	イディオムは、以前のイディオムの最後のキャラクターと次のイディオムの最初のキャラクター（発音）と同じです
ポルノデータフィルタリング	-	-
反応データフィルタリング	-	-
伝統的な中国人から簡素化された中国人	tra2sim	伝統的な中国人から簡素化された中国語、逐語的な2つのモードと最大のマッチングをサポートする
単純化された中国人から伝統的な中国人	Sim2tra	単純化された中国人から伝統的な中国人から伝統的な中国語、逐語的な2つのモードと最大マッチングをサポート
ピニインへの漢字	ピンイン	中国のテキストに対応する中国のピンインを見つけ、イニシャル、決勝、トーンを返します
過激派やキャラクターへの漢字	char_radiical	中国のテキストに対応する漢字構造情報を見つけてください。ラジカル（「彼」電球）、フォント構造（「彼」の左と右の構造）を含む、 4つのコーナーコード（ "He" 31120）、漢字の分解（ "He"水ができる）、 wubiコード（ "river" iskg）
漢字の量	Money_num2char	数値が与えられた場合、漢字の大文字化の結果を返します
新しい単語の発見	new_word_discovery	コーパスのテキストファイルが与えられた場合、単語になる可能性が高い

2。データ強化

テキストデータ強化のためのさまざまな方法の説明

関数	関数	説明する
翻訳に返信します	逆翻訳	テキストが与えられた場合、主要メーカーのクラウドプラットフォームの機械翻訳インターフェイスを使用してください。データ強化を実装します
ほぼ漢字が転置されます	swap_char_position	同様の文字の位置をランダムに交換して、データ強化を達成する
同性愛者の交換	HOMOPHONE_SUBSTITION	データ強化を実現するために、同じ発音語の語彙置換
ランダムな文字の追加と削除	random_add_delete	テキスト内の文字をランダムに追加または削除しますが、セマンティクスには影響しません
NERエンティティの交換	cheplay_entity	Entity Dictionaryによると、テキスト内のエンティティのランダムな交換はセマンティクスに影響を与えません。また、シーケンスの注釈とテキスト分類でも広く使用されています

3。定期的な抽出と分析

関数	関数	説明する
クリーンテキスト	clean_text	例外文字、冗長文字、HTMLタグ、テキストのブラケット情報を削除する、 URL、電子メール、電話番号、全幅の英数字変換は半幅への変換
電子メールを抽出します	extract_email	テキストに電子メールを抽出し、場所とドメイン名を返します
通貨額の分析	extract_money	通貨量の文字列を解析します
WeChat信号を抽出します	extract_wechat_id	WeChat IDを描き、場所に戻ります
電話番号を描きます	extract_phone_number	電話番号（携帯電話番号と固定電話番号を含む）を抽出し、ドメイン名、タイプ、場所を返します
中国IDカードIDを抽出します	extract_id_card	ID IDを抽出し、 jio.parse_id_cardと協力して、IDカードの詳細情報（州、都市、生年月日、性別、検証コード）を返します
QQ番号を描画します	extract_qq	厳格なルールとゆるいルールに分割されたQQ番号を描く
URLを抽出します	extract_url	URLハイパーリンクを抽出します
IPアドレスを抽出します	extract_ip_address	IPアドレスを抽出します
括弧内の内容を抽出します	extract_parenteses	{} "[] []（）（）<>"を含むブラケットの内容を抽出します
ナンバープレート番号を描きます	extract_motor_vehicle_licence_plate	本土のナンバープレート番号情報を抽出します
電子メールを削除します	remove_email	テキストの電子メールメッセージを削除します
URLを削除します	remove_url	テキストでURL情報を削除します
電話番号を削除します	remove_phone_number	テキストの電話番号を削除します
IPアドレスを削除します	remove_ip_address	テキスト内のIPアドレスを削除します
ID番号を削除します	remove_id_card	テキストのIDカード情報を削除します
QQを削除します	remove_qq	テキストのQQ番号を削除します
HTMLタグを削除します	remove_html_tag	テキスト内の残りのHTMLタグを削除します
ブラケットでコンテンツを削除します	remove_parenteses	{} "[] []（）（）<>"を含むブラケットのコンテンツを削除します。
例外文字を削除します	remove_exception_char	テキストで例外文字を削除し、主に漢字を保持し、一般的に句読点を使用します。ユニット計算記号、アルファナメリックなど。
冗長文字を削除します	remove_redundant_char	冗長な重複文字をテキストで削除します
正規化された電子メール	置き換え_email	正規化されたテキストの電子メールメッセージは<email>です
正規化されたURL	cheplay_url	正規化されたテキストのURL情報は<url>です
正規化された電話番号	置き換え_phone_number	正規化されたテキストの電話番号は<tel>です
正規化されたIPアドレス	replace_ip_address	正規化されたテキストのIPアドレスは<ip>です
正規化されたID番号	置き換え_id_card	正規化されたテキストのIDカード情報は<id>です
正規化されたQQ	置き換え_qq	正規化されたテキストのQQ番号は<qq>です
テキストに漢字が含まれているかどうかを判断します	check_any_chinese_char	テキストに漢字が含まれているかどうかを確認してください。少なくとも1つが含まれている場合、それはtrueを返します。
テキストがすべて漢字であるかどうかを判断します	Check_all_chinese_char	すべての漢字がテキストにあるかどうかを確認してください。すべての場合は、trueを返します
テキストにアラビア数字が含まれているかどうかを判断します	check_any_arabic_num	テキストにアラビア語の数字が含まれているかどうかを確認してください。少なくとも1つが含まれている場合、それはtrueを返します
すべてのテキストがアラビア語の数字であるかどうかを判断します	check_all_arabic_num	テキスト内のすべてのアラビア語の数字があるかどうかを確認してください。すべての場合は、trueを返します

4.ファイルの読み取りおよび書き込みツール

関数	関数	説明する
ラインごとにファイルを読み取ります	read_file_by_iter	メモリを保存して、イテレーターの形でラインごとにファイルを簡単に読み取ることができます。指定された行数をサポートし、空の行をスキップします
ラインごとにファイルを読み取ります	read_file_by_line	ラインごとにファイルを読み取り、指定された行数をサポートし、空の行をスキップします
リスト内の要素をラインごとにファイルします	write_file_by_line	リスト内の要素をラインごとにファイルします
タイミングツール	Timeit	特定のコードセグメントで費やした時間を計算します
ロギングツール	set_logger	ツールキットログ出力フォームを調整します

5。辞書の読み込みと使用

関数	関数	説明する
大規模な言語モデルLLM評価データセット	jio.llm_test_dataset_loader	LLM評価データセット
バイトレベルBPE	jio.bpe.byte_level_bpe	バイトレベル-BPEアルゴリズム
ワード辞書を停止します	jio.stopwords_loader（）	Baidu、Jieba、Iflytekなどの包括的なストップワード辞書
イディオム辞書	中国語_idiom_loader	イディオム辞書の読み込み
イディオムの辞書	xiehouyu_loader	イディオム辞書の読み込み
場所名詞の中国語辞書	china_location_loader	中国の州、市、郡の3レベルの辞書をロードする
分割調整の中国辞書	china_location_change_loader	2018年以降、中国での郡レベルおよびゾーニングの上記の名前の名前変更と名前変更の記録の積み込み
World Place名詞辞書	world_location_loader	世界大陸、国、都市辞書を積み込みます
Xinhua Dictionary	中国語_CHAR_DICTIONARY_LOADER	Xinhua辞書の読み込み
Xinhua Dictionary	中国語_WORD_DICTIONARY_LOADER	Xinhua辞書の読み込み

6。エンティティ認識（NER）アルゴリズム補助ツールセット

ツールキットNERデータ仕様の説明

関数	関数	説明する
通貨額エンティティを抽出します	extract_money	テキストから通貨額を抽出します
時間エンティティを抽出します	extract_time	テキストから時間エンティティを抽出します
辞書NERに基づいています	レキシコンナー	指定されたエンティティ辞書に基づくフォワード最大マッチングエンティティ
タグ付けするエンティティ	entity2tag	JSON形式のエンティティをモデルによって処理されたタグシーケンスに変換します
エンティティへのタグ	tag2entity	モデルによって処理されたタグシーケンスをJSON形式のエンティティに変換します
単語トークンはトークンを転置します	char2word	文字レベルのトークンを語彙レベルトークンに変換します
単語トークン変換単語トークン	word2char	語彙レベルトークンを文字レベルのトークンに変換します
ラベルとモデル予測のエンティティの違いの比較	entity_compare	手動注釈のためにモデルによって予測されたエンティティの結果と差別的に比較します。
NERモデル予測加速	tokensplitesentence トークンブレイクロングセンス tokenbatchbucket	NERモデルの並列加速を予測する方法
分割データセット	Analyze_dataset	NERアノテーションコーパスは、トレーニングセット、検証セット、テストセットに分割され、各サブセットのエンティティタイプ分布統計が示されています。
エンティティコレクション	collect_dataset_entities	注釈付きコーパスのエンティティを収集して辞書を形成する

7。テキスト分類

関数	関数	説明する	星評価
素朴なベイジアン分析カテゴリの語彙	Analyze_freq_words	テキスト分類の注釈付きコーパスについては、素朴なベイジアンワード周波数分析を実行し、さまざまなテキストの高条件の確率的語彙を返します
分割データセット	Analyze_dataset	テキスト分類用の注釈コーパスは、トレーニングセット、検証セット、およびテストセットに分けられます。各サブセットの分類分布統計を提供します

8。センチメント分析

関数	関数	説明する	星評価
辞書ベースのセンチメント分析	語彙能力	人工的に構築された感情的辞書に基づいて、テキストの感情的価値は0〜1の範囲で計算されます

9。分詞

関数	関数	説明する
タグ付けする言葉	cws.word2tag	JSONフォーマットワードセグメンテーションシーケンスをモデル処理タグシーケンスに変換します
ワードにタグ	cws.tag2word	モデルによって処理されたタグシーケンスをJSON形式のワードセグメンテーションに変換します
統計F1値	CWS.F1	モデル予測ラベル上の単語分詞ラベルのラベルのF1値の比較
Word分詞データ修正標準辞書	cws.cwsdcwithstandardwords	標準辞書を使用して、単語粒子の注釈データを修正して修復します

文献の引用

論文を引用する必要がある場合、次の引用をコピーできます。

Chengyu Cui、Jionlp、（2020）、Github Repository、https：//github.com/dongrixinyu/jionlp

元の意図

NLPの前処理と解析は重要で時間がかかります。このLIBは、さまざまな些細な前処理および分析操作を完了し、開発の進行を加速し、コードではなく思考に限られたエネルギーを捧げるのに迅速に支援できます。
機能的な提案やバグがある場合は、問題を通じてテンプレートに従ってそれらを送信できます。
NLPの開発者と研究者は、このツールキットを改善し、新しい機能を追加するために協力して協力できます。

このツールが役立つ場合は、右上隅の星をクリックしてください

または、コードをスキャンして、著者にコーヒーを1杯飲むように依頼します（● '◡'●）、オープンソースプロジェクトはAIによって完全に搭載されています、ありがとう！推奨優先使用[Alipay] ~~

ありがとうのリストのスポンサーに感謝します。あなたの報酬は私をよりやる気にさせました

NLPを実行するのは簡単ではありません。 Natural Language ProcessingWeChat Communication Groupに参加することを歓迎します

次のコードをスキャンするか、WXで公式アカウントJionlpを検索してください。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-15
サイズ 17.57MB
から Github

JioNLP

jionlp：中国のNLPプリプロセシングと解析ツールキット中国のNLPプレプレーズと解析のためのPython lib

インストール： `pip install jionlp`

2023-12-12 Mellmを追加します

2023-06-22大きな言語モデルLLM評価データセットを追加します

インストールをインストールします

機能を使用します

1。ガジェット

2。データ強化

3。定期的な抽出と分析

4.ファイルの読み取りおよび書き込みツール

5。辞書の読み込みと使用

6。エンティティ認識（NER）アルゴリズム補助ツールセット

7。テキスト分類

8。センチメント分析

9。分詞

文献の引用

元の意図

このツールが役立つ場合は、右上隅の星をクリックしてください

または、コードをスキャンして、著者にコーヒーを1杯飲むように依頼します（● '◡'●）、オープンソースプロジェクトはAIによって完全に搭載されています、ありがとう！推奨優先使用[Alipay] ~~

NLPを実行するのは簡単ではありません。 Natural Language ProcessingWeChat Communication Groupに参加することを歓迎します

次のコードをスキャンするか、WXで公式アカウントJionlpを検索してください。

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

JioNLP

jionlp：中国のNLPプリプロセシングと解析ツールキット中国のNLPプレプレーズと解析のためのPython lib

インストール： pip install jionlp

2023-12-12 Mellmを追加します

2023-06-22大きな言語モデルLLM評価データセットを追加します

インストールをインストールします

機能を使用します

1。ガジェット

2。データ強化

3。定期的な抽出と分析

4.ファイルの読み取りおよび書き込みツール

5。辞書の読み込みと使用

6。エンティティ認識（NER）アルゴリズム補助ツールセット

7。テキスト分類

8。センチメント分析

9。分詞

文献の引用

元の意図

このツールが役立つ場合は、右上隅の星をクリックしてください

または、コードをスキャンして、著者にコーヒーを1杯飲むように依頼します（● '◡'●）、オープンソースプロジェクトはAIによって完全に搭載されています、ありがとう！推奨優先使用[Alipay] ~~

NLPを実行するのは簡単ではありません。 Natural Language ProcessingWeChat Communication Groupに参加することを歓迎します

次のコードをスキャンするか、WXで公式アカウントJionlpを検索してください。

インストール： `pip install jionlp`