JioNLP
1.0.0

pip install jionlpJIONLPは、 NLP開発者向けのツールキットであり、正確で効率的でゼロ使用のしきい値を備えたNLPタスク前処理および解析機能を提供します。このページをドロップダウンし、特定の関数情報を確認し、 Ctrl+Fを押して検索してください。 Jionlp Online Editionは、いくつかの機能をすばやく試すことができます。同じ名前のJionlpのWeChatの公式アカウントに従い、最新のAI情報とデータリソースを取得します。
jmboを使用してテストデータからnorm_score.jsonとmax_score.jsonをダウンロードする必要があります。*.jsonファイルをダウンロードしてください。 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
$ pip install jionlp
>>> import jionlp as jio
>>> print(jio.__version__) # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)
| 関数 | 関数 | 説明する | 星評価 |
|---|---|---|---|
| ヘルプを見つけてください | ヘルプ | JionLPが機能するかどうかわからない場合は、コマンドラインのプロンプトに応じていくつかのキーワードを入力できます。 | |
| ナンバープレート番号分析 | parse_motor_vehicle_licence_plate | ナンバープレート番号が与えられた場合、分析します | |
| 時間セマンティック分析 | parse_time | 時間テキストが与えられた場合、その時間セマンティクス(タイムスタンプ、期間)などを解析します。 | |
| キーフレーズ抽出 | extract_keyphrase | テキストが与えられた場合、対応するキーフレーズを抽出します | |
| 抽出されたテキストの概要 | extract_summary | テキストが与えられた場合、対応する辞書を抽出します | |
| ワードフィルタリングを停止します | remove_stopwords | テキストが分類された後の単語リストを与えられた場合、そこから停止単語を削除します | |
| 文 | split_sentence | テキストを句読点 | |
| アドレス解決 | parse_location | 国内住所を含む文字列が与えられ、州、市、郡、タウンシップ、通り、村などの情報を識別します。 | |
| 電話番号の場所、 オペレーター分析 | Phone_location cell_phone_location landline_phone_location | 電話番号(携帯電話番号、固定電話番号)の文字列が与えられた場合、州、市、およびオペレーターを特定します。 | |
| ニュースプレイス名の認識 | 認識_Location | ニューステキストを考慮して、国内の州、都市、郡、外国、都市、その他の情報を特定してください。 | |
| グレゴリオカレンダーの日付 | lunar2solar solar2lunar | 特定のカレンダーの日付が与えられた場合、それを地域カレンダーに変換します | |
| 身分証明書番号分析 | parse_id_card | ID番号が与えられた場合、対応する州、市、郡、生年月日を特定します。 性別、検証コード、およびその他の情報 | |
| イディオムソリッド | Idiom_solitaire | イディオムは、以前のイディオムの最後のキャラクターと次のイディオムの最初のキャラクター(発音)と同じです | |
| ポルノデータフィルタリング | - | - | |
| 反応データフィルタリング | - | - | |
| 伝統的な中国人から簡素化された中国人 | tra2sim | 伝統的な中国人から簡素化された中国語、逐語的な2つのモードと最大のマッチングをサポートする | |
| 単純化された中国人から伝統的な中国人 | Sim2tra | 単純化された中国人から伝統的な中国人から伝統的な中国語、逐語的な2つのモードと最大マッチングをサポート | |
| ピニインへの漢字 | ピンイン | 中国のテキストに対応する中国のピンインを見つけ、イニシャル、決勝、トーンを返します | |
| 過激派やキャラクターへの漢字 | char_radiical | 中国のテキストに対応する漢字構造情報を見つけてください。 ラジカル(「彼」電球)、フォント構造(「彼」の左と右の構造)を含む、 4つのコーナーコード( "He" 31120)、漢字の分解( "He"水ができる)、 wubiコード( "river" iskg) | |
| 漢字の量 | Money_num2char | 数値が与えられた場合、漢字の大文字化の結果を返します | |
| 新しい単語の発見 | new_word_discovery | コーパスのテキストファイルが与えられた場合、単語になる可能性が高い |
| 関数 | 関数 | 説明する | 星評価 |
|---|---|---|---|
| 翻訳に返信します | 逆翻訳 | テキストが与えられた場合、主要メーカーのクラウドプラットフォームの機械翻訳インターフェイスを使用してください。 データ強化を実装します | |
| ほぼ漢字が転置されます | swap_char_position | 同様の文字の位置をランダムに交換して、データ強化を達成する | |
| 同性愛者の交換 | HOMOPHONE_SUBSTITION | データ強化を実現するために、同じ発音語の語彙置換 | |
| ランダムな文字の追加と削除 | random_add_delete | テキスト内の文字をランダムに追加または削除しますが、セマンティクスには影響しません | |
| NERエンティティの交換 | cheplay_entity | Entity Dictionaryによると、テキスト内のエンティティのランダムな交換はセマンティクスに影響を与えません。また、シーケンスの注釈とテキスト分類でも広く使用されています |
| 関数 | 関数 | 説明する | 星評価 |
|---|---|---|---|
| クリーンテキスト | clean_text | 例外文字、冗長文字、HTMLタグ、テキストのブラケット情報を削除する、 URL、電子メール、電話番号、全幅の英数字変換は半幅への変換 | |
| 電子メールを抽出します | extract_email | テキストに電子メールを抽出し、場所とドメイン名を返します | |
| 通貨額の分析 | extract_money | 通貨量の文字列を解析します | |
| WeChat信号を抽出します | extract_wechat_id | WeChat IDを描き、場所に戻ります | |
| 電話番号を描きます | extract_phone_number | 電話番号(携帯電話番号と固定電話番号を含む)を抽出し、ドメイン名、タイプ、場所を返します | |
| 中国IDカードIDを抽出します | extract_id_card | ID IDを抽出し、 jio.parse_id_cardと協力して、IDカードの詳細情報(州、都市、生年月日、性別、検証コード)を返します | |
| QQ番号を描画します | extract_qq | 厳格なルールとゆるいルールに分割されたQQ番号を描く | |
| URLを抽出します | extract_url | URLハイパーリンクを抽出します | |
| IPアドレスを抽出します | extract_ip_address | IPアドレスを抽出します | |
| 括弧内の内容を抽出します | extract_parenteses | {} "[] []()()<>"を含むブラケットの内容を抽出します | |
| ナンバープレート番号を描きます | extract_motor_vehicle_licence_plate | 本土のナンバープレート番号情報を抽出します | |
| 電子メールを削除します | remove_email | テキストの電子メールメッセージを削除します | |
| URLを削除します | remove_url | テキストでURL情報を削除します | |
| 電話番号を削除します | remove_phone_number | テキストの電話番号を削除します | |
| IPアドレスを削除します | remove_ip_address | テキスト内のIPアドレスを削除します | |
| ID番号を削除します | remove_id_card | テキストのIDカード情報を削除します | |
| QQを削除します | remove_qq | テキストのQQ番号を削除します | |
| HTMLタグを削除します | remove_html_tag | テキスト内の残りのHTMLタグを削除します | |
| ブラケットでコンテンツを削除します | remove_parenteses | {} "[] []()()<>"を含むブラケットのコンテンツを削除します。 | |
| 例外文字を削除します | remove_exception_char | テキストで例外文字を削除し、主に漢字を保持し、一般的に句読点を使用します。 ユニット計算記号、アルファナメリックなど。 | |
| 冗長文字を削除します | remove_redundant_char | 冗長な重複文字をテキストで削除します | |
| 正規化された電子メール | 置き換え_email | 正規化されたテキストの電子メールメッセージは<email>です | |
| 正規化されたURL | cheplay_url | 正規化されたテキストのURL情報は<url>です | |
| 正規化された電話番号 | 置き換え_phone_number | 正規化されたテキストの電話番号は<tel>です | |
| 正規化されたIPアドレス | replace_ip_address | 正規化されたテキストのIPアドレスは<ip>です | |
| 正規化されたID番号 | 置き換え_id_card | 正規化されたテキストのIDカード情報は<id>です | |
| 正規化されたQQ | 置き換え_qq | 正規化されたテキストのQQ番号は<qq>です | |
| テキストに漢字が含まれているかどうかを判断します | check_any_chinese_char | テキストに漢字が含まれているかどうかを確認してください。少なくとも1つが含まれている場合、それはtrueを返します。 | |
| テキストがすべて漢字であるかどうかを判断します | Check_all_chinese_char | すべての漢字がテキストにあるかどうかを確認してください。すべての場合は、trueを返します | |
| テキストにアラビア数字が含まれているかどうかを判断します | check_any_arabic_num | テキストにアラビア語の数字が含まれているかどうかを確認してください。少なくとも1つが含まれている場合、それはtrueを返します | |
| すべてのテキストがアラビア語の数字であるかどうかを判断します | check_all_arabic_num | テキスト内のすべてのアラビア語の数字があるかどうかを確認してください。すべての場合は、trueを返します |
| 関数 | 関数 | 説明する | 星評価 |
|---|---|---|---|
| ラインごとにファイルを読み取ります | read_file_by_iter | メモリを保存して、イテレーターの形でラインごとにファイルを簡単に読み取ることができます。 指定された行数をサポートし、空の行をスキップします | |
| ラインごとにファイルを読み取ります | read_file_by_line | ラインごとにファイルを読み取り、指定された行数をサポートし、空の行をスキップします | |
| リスト内の要素をラインごとにファイルします | write_file_by_line | リスト内の要素をラインごとにファイルします | |
| タイミングツール | Timeit | 特定のコードセグメントで費やした時間を計算します | |
| ロギングツール | set_logger | ツールキットログ出力フォームを調整します |
| 関数 | 関数 | 説明する | 星評価 |
|---|---|---|---|
| 大規模な言語モデルLLM評価データセット | jio.llm_test_dataset_loader | LLM評価データセット | |
| バイトレベルBPE | jio.bpe.byte_level_bpe | バイトレベル-BPEアルゴリズム | |
| ワード辞書を停止します | jio.stopwords_loader() | Baidu、Jieba、Iflytekなどの包括的なストップワード辞書 | |
| イディオム辞書 | 中国語_idiom_loader | イディオム辞書の読み込み | |
| イディオムの辞書 | xiehouyu_loader | イディオム辞書の読み込み | |
| 場所名詞の中国語辞書 | china_location_loader | 中国の州、市、郡の3レベルの辞書をロードする | |
| 分割調整の中国辞書 | china_location_change_loader | 2018年以降、中国での郡レベルおよびゾーニングの上記の名前の名前変更と名前変更の記録の積み込み | |
| World Place名詞辞書 | world_location_loader | 世界大陸、国、都市辞書を積み込みます | |
| Xinhua Dictionary | 中国語_CHAR_DICTIONARY_LOADER | Xinhua辞書の読み込み | |
| Xinhua Dictionary | 中国語_WORD_DICTIONARY_LOADER | Xinhua辞書の読み込み |
| 関数 | 関数 | 説明する | 星評価 |
|---|---|---|---|
| 通貨額エンティティを抽出します | extract_money | テキストから通貨額を抽出します | |
| 時間エンティティを抽出します | extract_time | テキストから時間エンティティを抽出します | |
| 辞書NERに基づいています | レキシコンナー | 指定されたエンティティ辞書に基づくフォワード最大マッチングエンティティ | |
| タグ付けするエンティティ | entity2tag | JSON形式のエンティティをモデルによって処理されたタグシーケンスに変換します | |
| エンティティへのタグ | tag2entity | モデルによって処理されたタグシーケンスをJSON形式のエンティティに変換します | |
| 単語トークンはトークンを転置します | char2word | 文字レベルのトークンを語彙レベルトークンに変換します | |
| 単語トークン変換単語トークン | word2char | 語彙レベルトークンを文字レベルのトークンに変換します | |
| ラベルとモデル予測のエンティティの違いの比較 | entity_compare | 手動注釈のためにモデルによって予測されたエンティティの結果と差別的に比較します。 | |
| NERモデル予測加速 | tokensplitesentence トークンブレイクロングセンス tokenbatchbucket | NERモデルの並列加速を予測する方法 | |
| 分割データセット | Analyze_dataset | NERアノテーションコーパスは、トレーニングセット、検証セット、テストセットに分割され、各サブセットのエンティティタイプ分布統計が示されています。 | |
| エンティティコレクション | collect_dataset_entities | 注釈付きコーパスのエンティティを収集して辞書を形成する |
| 関数 | 関数 | 説明する | 星評価 |
|---|---|---|---|
| 素朴なベイジアン分析カテゴリの語彙 | Analyze_freq_words | テキスト分類の注釈付きコーパスについては、素朴なベイジアンワード周波数分析を実行し、さまざまなテキストの高条件の確率的語彙を返します | |
| 分割データセット | Analyze_dataset | テキスト分類用の注釈コーパスは、トレーニングセット、検証セット、およびテストセットに分けられます。 各サブセットの分類分布統計を提供します |
| 関数 | 関数 | 説明する | 星評価 |
|---|---|---|---|
| 辞書ベースのセンチメント分析 | 語彙能力 | 人工的に構築された感情的辞書に基づいて、テキストの感情的価値は0〜1の範囲で計算されます |
| 関数 | 関数 | 説明する | 星評価 |
|---|---|---|---|
| タグ付けする言葉 | cws.word2tag | JSONフォーマットワードセグメンテーションシーケンスをモデル処理タグシーケンスに変換します | |
| ワードにタグ | cws.tag2word | モデルによって処理されたタグシーケンスをJSON形式のワードセグメンテーションに変換します | |
| 統計F1値 | CWS.F1 | モデル予測ラベル上の単語分詞ラベルのラベルのF1値の比較 | |
| Word分詞データ修正標準辞書 | cws.cwsdcwithstandardwords | 標準辞書を使用して、単語粒子の注釈データを修正して修復します |
Chengyu Cui、Jionlp、(2020)、Github Repository、https://github.com/dongrixinyu/jionlp

