character based cnnダウンロード - character based cnnソースコードダウンロード

character based cnn

その他のソースコード

English Model

ダウンロード

キャラクターベースのCNN

このレポは、テキスト分類のためのキャラクターレベルの畳み込みニューラルネットワークのPytorch実装が含まれています。

モデルアーキテクチャは、このペーパーからのものです：https：//arxiv.org/pdf/1509.01626.pdf

ネットワークアーキテクチャ

2つのバリエーションがあります。大きくて小さいです。構成ファイルを変更して、2つを切り替えることができます。

このアーキテクチャには6つの畳み込みレイヤーがあります。

層	大きな機能	小さな機能	カーネル	プール
1	1024	256	7	3
2	1024	256	7	3
3	1024	256	3	n/a
4	1024	256	3	n/a
5	1024	256	3	n/a
6	1024	256	3	3

2つの完全に接続されたレイヤー：

層	出力ユニットは大きい	出力ユニットは小さい
7	2048	1024
8	2048	1024
9	問題に依存します	問題に依存します

ビデオチュートリアル

キャラクターCNNがどのように機能するか、およびこのプロジェクトのデモに興味がある場合は、YouTubeビデオチュートリアルを確認できます。

なぜキャラクターレベルのCNNを気にする必要があります

彼らは非常に素晴らしい特性を持っています：

セマンティクスの概念がない場合でも、テキスト分類において非常に強力です（論文のベンチマークを参照）
それらを使用している間、テキストの前処理（トークン化、lemmatization、Stemming ...）を適用する必要はありません
彼らは間違った単語とOOV（外れている）トークンを処理します
再発性ニューラルネットワークと比較して、トレーニングが速くなります
大きな単語埋め込みマトリックスを保存する必要がないため、軽量です。したがって、それらを生産に簡単に展開できます

フランスの顧客レビューでセンチメント分類器をトレーニングします

このモデルは、フランスのラベルの付いた顧客レビューのセット（300万列以上）でテストしました。 Tensorboardxのメトリックを報告しました。

次の結果が得られました

	F1スコア	正確さ
電車	0.965	0.9366
テスト	0.945	0.915

トレーニングメトリック

依存関係

numpy
パンダ
Sklearn
Pytorch 0.4.1
tensorboardx
Tensorflow（tensorboardxを実行できるように）

コードの構造

プロジェクトの根本には、次のようになります。

Train.py ：モデルのトレーニングに使用されます
Predict.py ：テストと推論に使用されます
config.json ：モデルパラメーターを保存するための構成ファイル（フィルター数、ニューロン）
SRC ：含まれるフォルダー：
- cnn_model.py ：実際のCNNモデル（モデルの初期化とフォワードメソッド）
- data_loader.py ：処理後にデータをトレーニングに渡す責任のあるスクリプト
- Utils.py ：テキストの前処理のためのユーティリティ関数のセット（url/hashtag/user_mention削除）

コードの使用方法

トレーニング

現在、コードはバイナリラベル（0/1）でのみ動作します

次の引数でtrain.pyを起動します。

data_path ：データのパス。データはCSV形式で、少なくともテキスト用の列とラベルの列を使用する必要があります
validation_split ：検証データの比率。デフォルトは0.2になります
label_column ：ラベルの列名
text_column ：テキストの列名
max_rows ：データセットからロードする行の最大数。（私は主にこれをテストに使用してより速く進む）
chunksize ：パンダを使用してデータをロードするときのチャンクのサイズ。デフォルトは500000になります
encoding ：デフォルトはUTF-8になります
steps ：ハッシュタグやURLの削除などのテキストに含めるテキスト前処理手順
group_labels ：ラベルをグループ化するかどうか。デフォルトはありません。
use_sampler ：加重サンプラーを使用してクラスの不均衡を克服するかどうか
alphabet ：デフォルトでabcdefghijklmnopqrstuvwxyz0123456789、;。
number_of_characters ：デフォルト70
extra_characters ：アルファベットに追加する追加の文字。たとえば、大文字またはアクセントされた文字
max_length ：すべてのドキュメントを修正する最大長。デフォルトは150になりましたが、データに適応する必要があります
epochs ：エポックの数
batch_size ：バッチサイズ、デフォルトは128になります。
optimizer ：AdamまたはSGD、デフォルトのSGD
learning_rate ：デフォルトは0.01になります
class_weights ：クロスエントロピー損失でクラスのウェイトを使用するかどうか
focal_loss ：焦点損失を使用するかどうか
gamma ：焦点損失のガンマパラメーター。デフォルトは2になります
alpha ：焦点損失のアルファパラメーター。デフォルトは0.25になります
schedule ：学習率が半分減少するエポックの数（学習率のスケジューリングはSGDでのみ機能します）、デフォルト3になります。
patience ：検証損失を改善せずに待つために最大数のエポック数、デフォルト3に
early_stopping ：トレーニングを早期に停止するかどうかを選択します。デフォルト0になります。1に設定して有効にします。
checkpoint ：ディスクにモデルを保存するかどうかを選択します。デフォルト1に、モデルチェックポイントを無効にするために0に設定
workers ：Pytorch Dataloaderの労働者数、デフォルト1
log_path ：テンソルボードログファイルのパス
output ：モデルが保存されているフォルダーのパス
model_name ：保存されたモデルのプレフィックス名

使用例：

python train.py --data_path=/data/tweets.csv --max_rows=200000

Tensorboardxに結果をプロットします

このコマンドをプロジェクトのルートで実行します。

tensorboard --logdir=./logs/ --port=6006

次に、http：// localhost：6006（または使用しているホスト）に移動します

予測

次の引数でpredict.pyを起動します。

model ：事前に訓練されたモデルのパス
text ：入力テキスト
steps ：デフォルトで低い手順のリスト：低下します
alphabet ：デフォルトで「abcdefghijklmnopqrstuvwxyz0123456789 - 、;。
number_of_characters ：デフォルトは70になります
extra_characters ：アルファベットに追加する追加の文字。たとえば、大文字またはアクセントされた文字
max_length ：すべてのドキュメントを修正する最大長。デフォルトは150になりましたが、データに適応する必要があります

使用例：

python predict.py ./models/pretrained_model.pth --text= " I love pizza ! " --max_length=150

前提条件のモデルをダウンロードします

フランスの顧客レビューに関するセンチメント分析モデル（3Mドキュメント）：リンクをダウンロード
使用する場合：
- max_lengthを300に設定します
- Extra_Characters = "éàèùâêîôûç守"（アクセント文字）を使用する

貢献 - PRは大歓迎です：

追加する潜在的な将来の機能の非網羅的なリストは次のとおりです。

マルチクラス分類の損失を適応させます
各エポックのログトレーニングと検証メトリックはテキストファイルへ
ノートブックチュートリアルを提供します

ライセンス

このプロジェクトは、MITライセンスの下でライセンスされています

拡大する

追加情報

バージョン English Model
タイプその他のソースコード
更新時間 2025-04-18
サイズ 213.92KB
から Github

character based cnn

キャラクターベースのCNN

ビデオチュートリアル

なぜキャラクターレベルのCNNを気にする必要があります

フランスの顧客レビューでセンチメント分類器をトレーニングします

依存関係

コードの構造

コードの使用方法

トレーニング

Tensorboardxに結果をプロットします

予測

前提条件のモデルをダウンロードします

貢献 - PRは大歓迎です：

ライセンス

GitHub sgrebnov/cordova plugin background download

Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Retrieval based Voice Conversion WebUI

全力を尽くします – ゾロのキャラクター

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express