ChineseNERダウンロードChineseNERソースコードのダウンロード

日本語

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

ホーム>プログラミング関連>パイソン

ChineseNER

パイソン

1.0.0

ダウンロード

Chinesener

このプロジェクトは使用します

Python 2.7
Tensorflow 1.7.0
Pytorch 0.4.0

名前付きのエンティティ認識がわからない場合は、最初にこの記事を読むことができます。ちなみに、主演してください〜

これは、指定されたエンティティのBILSTM+CRFモデルを識別する最も簡単な方法です。

データ

データフォルダーには、ボーソンデータ（https://bosonnlp.com）、1998年の毎日のラベル付きデータ、およびMSRA Microsoft Asia Research Instituteオープンソースデータ、3つのオープンソースデータセットがあります。その中には、Bosonデータセットには6つのエンティティタイプがあります。人々の毎日のコーパスとMSRAは、一般に、個人名、地名、組織名の3つのエンティティタイプのみを抽出します。

最初にデータ内のPythonファイルを実行して、使用するモデルのデータを処理します。

Tensorflowバージョン

トレーニングを開始します

python train.pyでトレーニングを開始すると、訓練されたモデルがモデルフォルダーに保存されます。

事前に訓練された単語ベクトルを使用します

python train.py pretrainedの使用は、前処理された単語ベクトルを使用してトレーニングを開始します。 vec.txtは、オンラインで見つかったより小さな前提条件のベクトルです。私のコードを参照して、それを変更して、他のより優先されるワードベクトルを使用することができます。

訓練されたモデルをテストします

python train.py testにテストに使用すると、モデルフォルダーの最新モデルが自動的に読み取られ、テストするために中国語を入力します。テスト結果の品質は、モデルの精度に依存します。

ファイルレベルのエンティティ抽出

ファイルレベルのエンティティ抽出には、 python train.py input_file output_file使用します。

モデルフォルダーの最新モデルを自動的に読み取り、 input_fileでエンティティを抽出し、 output_fileに書き込むことができます。最初に元の文があり、次にエンティティタイプとエンティティ（必要に応じて変更できます）。

たとえば、 python train.py test1.txt res.txt 、res.txtコンテンツは次のとおりです。

追加の変更が随時追加されます。。

Pytorchバージョン

Pytorchチュートリアルで直接bilstm+CRFモデルを使用します。

Train.pyトレーニングを実行するだけです。 CPUを使用してバッチを使用しないため、トレーニング速度は非常に遅いです。単に実行するだけの場合は、コードを実行するために一部のデータのみを使用することをお勧めします。 Pytorchは当面は更新されません。

正確さ

パラメーターは慎重に調整されていませんでした。 BosonデータセットのF値は約70％〜75％であり、人々の日常およびMSRAデータセットのF値は約85％〜90％でした。（結局のところ、Bosonには6つのエンティティタイプがあり、他の2つには3つのタイプしかありません）

ログを更新します

2018-9-15 TensorFlowバージョンを追加しました。

2018-9-17は、1998年に人民の毎日のデータセットとMSRA Microsoft Asia Research Instituteのデータセットを追加しました。

2018-9-19コードスタイルは単純に変更され、将来の拡張のためにモデルが抽出されました。

2018-9-22 python train.py test機能を追加しました。

2018-10-6使用パラメーターを追加して、トレーニングに事前に訓練された単語ベクトルを使用するかどうかを判断します。

2018-10-11追加機能：テキストファイルからエンティティを抽出し、別のファイルに書き込むことができます。

拡大する

追加情報

バージョン 1.0.0
タイプパイソン
更新時間 2025-07-13
サイズ 13.52MB
から Github

関連アプリ

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Redash オープンソースデータチャートツール v24.10.0

2024-11-27
datamule python

2024-11-08
スマートチャートデータ視覚化プラットフォーム v6.9

2024-11-27
Locust 負荷テストツール v2.32.0

2024-11-27

おすすめ

chat.petals.dev

その他のソースコード

1.0.0
GPT Prompt Templates

その他のソースコード

1.0.0
GPTyped

その他のソースコード

GPTyped 1.0.5
ToDo Co

パイソン

1.0.0
Python Portfolio

パイソン
Redash オープンソースデータチャートツール v24.10.0

パイソン

24.10.0
Google Dorks

その他のソースコード

1.0
shepherd

その他のソースコード

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

その他のソースコード

v1.1.0-rc-3

関連情報すべて