RuTaBERTダウンロードRuTaBERTソースコードのダウンロード

RuTaBERT

AI ソースコード

IVMEM2024

ダウンロード

rutabert

RWT-Rutabert DatasetでトレーニングされたBertによる列タイプの注釈の問題を解決するためのモデル。

RWT-Rutabertデータセットには、ロシア語のウィキペディアテーブルからの1 441 349列が含まれています。ヘッダーは170 dbpediaセマンティックタイプに一致します。固定された電車 /テストの分割があります：

スプリット	列	テーブル	平均。テーブルごとの列
テスト	115 448	55 080	2.096
電車	1 325 901	633 426	2.093

ベンチマーク

2つのテーブルシリアル化戦略でルタバートを訓練しました。

隣接する列のシリアル化。
マルチカラムシリアル化（ドドゥオのアプローチに基づく）;

RWT-Rutabertデータセットのベンチマーク結果：

シリアル化戦略	Micro-F1	マクロ-F1	加重-F1
マルチコラム	0.962	0.891	0.9621
隣接する列	0.964	0.904	0.9639

トレーニングパラメーター：

パラメーター	価値
バッチサイズ	32
エポック	30
損失関数	クロスエントロピー
GDオプティマイザー	Adamw（LR = 5E-5、EPS = 1E-8）
GPU	4 Nvidia A100（80 GB）
ランダムシード	2024
検証分割	5％

プロジェクト構造

 ?RuTaBERT
 ┣ checkpoints
 ┃ ┗ Saved PyTorch models `.pt` 
 ┣ data
 ┃ ┣ inference
 ┃ ┃ ┗ Tabels to inference `.csv`
 ┃ ┣ test
 ┃ ┃ ┗ Test dataset files `.csv`
 ┃ ┣ train
 ┃ ┃ ┗ Train dataset files `.csv`
 ┃ ┗  Directory for storing dataset files.
 ┣ dataset
 ┃ ┗  Dataset wrapper classes, dataloaders
 ┣ logs
 ┃ ┗ Log files (train / test / error)
 ┣ model
 ┃ ┗ Model and metrics
 ┣ trainer
 ┃ ┗ Trainer
 ┣ utils
 ┃ ┗ Helper functions
 ┗ Entry points (train.py, test.py, inference.py), configuration, etc.

構成

モデル構成は、file config.jsonに記載されています。

configuratoin引数パラメーターを以下に示します。

口論	説明
num_labels	分類に使用されるラベルの数
num_gpu	使用するGPUの数
save_period_in_epochs	チェックポイントが保存される周期性で特徴付けられる数（エポックで）
メトリック	使用される分類メトリックは次のとおりです
pretrained_model_name	Huggingfaceのバートショートカット名
table_serialization_type	テーブルをシーケンスにシリアル化する方法
batch_size	バッチサイズ
num_epochs	トレーニングエポックの数
random_seed	ランダムシード
logs_dir	ロギング用のディレクトリ
train_log_filename	電車のロギングのファイル名
test_log_filename	テストロギングのファイル名
start_from_checkpoint	チェックポイントからトレーニングを開始するフラグ
checkpoint_dir	モデルのチェックポイントを保存するためのディレクトリ
checkpoint_name	チェックポイントのファイル名（モデル状態）
Inference_model_name	推論のためのモデルのファイル名
Inference_dir	推論表を保存するためのディレクトリ`.csv`
dataloader.valid_split	検証サブセット分割の量
dataloader.num_workers	Dataloader労働者の数
dataset.num_rows	データセット内の読み取り可能な行の数、 `null`ファイル内のすべての行を読み取る場合
dataset.data_dir	列車/テスト/推論ファイルを保存するためのディレクトリ
dataset.train_path	列車データセットファイルを保存するためのディレクトリ`.csv`
dataset.test_path	テストデータセットファイルを保存するためのdirecotry `.csv`

これらのパラメーターのみを変更することをお勧めします。

num_gpu任意の正のイングテーター数 + {0}。 0 CPUでのトレーニング /テストの略。
save_period_in_epochsポジティブな整数数、エポックの測定。
table_serialization_type "column_wise"または "table_wise"。
pretrained_model_name -huggingface pytorch事前処理されたモデルからのbert shorcut名。
batch_size正の整数番号。
num_epochs正の整数数。
random_seed整数番号。
start_from_checkpoint 「true」または「false」。
checkpoint_name checkpointディレクトリに保存されたモデルの名前。
inference_model_name checkpointディレクトリに保存されたモデルの名前。ただし、[Model_best_f1_weighted.pt、model_best_f1_macro.pt、model_best_f1_micro.pt]を使用することをお勧めします。
dataloader.valid_split範囲内の実数[0.0、1.0]（0.0は列車のサブセットの0％を表し、0.5は列車のサブセットの50％に耐えます）。または正の整数番号（検証サブセットの固定数を示します）。
dataset.num_rows 「null」は、データセットファイルのすべての行を読み取るための略です。正の整数とは、データセットのファイルで読み取る行の数を意味します。

データセットファイル

モデルをトレーニング /テストする前に、次のことが必要です。

rutabertと同じディレクトリにデータセットリポジトリをダウンロードしてください。ソースディレクトリstrucutreの例：

 ├── src
│  ├── RuTaBERT
│  ├── RuTaBERT-Dataset
│  │  ├── move_dataset.sh

データセットリポジトリからスクリプトmove_dataset.shを実行して、データセットファイルをrutabert dataディレクトリに移動します。

RuTaBERT-Dataset$ ./move_dataset.sh

トレーニング前にconfig.jsonファイルを構成します。

トレーニング

Rutabertは、ローカルおよび内部のDockerコンテナのトレーニング /テストをサポートしています。また、SluRMワークロードマネージャーもサポートしています。

ローカル

仮想環境を作成します：

RuTaBERT$ virtualenv venv

または

RuTaBERT$ python -m virtualenv venv

要件をインストールし、トレインとテストを開始します。

RuTaBERT$ source venv/bin/activate && 
    pip install -r requirements.txt && 
    python3 train.py 2> logs/error_train.log && 
    python3 test.py 2> logs/error_test.log

モデルはcheckpointディレクトリに保存されます。
出力はlogs/ directory（ training_results.csv 、 train.log 、 test.log 、 error_train.log 、 error_test.log ）にあります。

Docker

要件：

Dockerインストールガイド（Ubuntu）;
Nvidiaドライバー。
nvidiaコンテナツールキットインストールガイド（ubuntu）;

すべての依存関係がインストールされていることを確認してください。
画像を構築する：

RuTaBERT$ sudo docker build -t rutabert .

画像を実行します

RuTaBERT$ sudo docker run -d --runtime=nvidia --gpus=all 
    --mount source=rutabert_logs,target=/app/rutabert/logs 
    --mount source=rutabert_checkpoints,target=/app/rutabert/checkpoints 
    rutabert

トレーニング /テスト後にモデルとログをコンテナから移動します。

RuTaBERT$ sudo cp -r /var/lib/docker/volumes/rutabert_checkpoints/_data ./checkpoints

RuTaBERT$ sudo cp -r /var/lib/docker/volumes/rutabert_logs/_data ./logs

トレーニング後にボリュームを削除することを忘れないでください！ Dockerはあなたのためにそれをしません。
モデルはcheckpointディレクトリに保存されます。
出力はlogs/ directory（ training_results.csv 、 train.log 、 test.log 、 error_train.log 、 error_test.log ）にあります。

スラー

仮想環境を作成します：

RuTaBERT$ virtualenv venv

または

RuTaBERT$ python -m virtualenv venv

Slurmスクリプトを実行します：

RuTaBERT$ sbatch run.slurm

ジョブステータスを確認してください：

RuTaBERT$ squeue

モデルはcheckpointディレクトリに保存されます。
出力はlogs/ directory（ train.log 、 test.log 、 error_train.log 、 error_test.log ）にあります。

テスト

data/testディレクトリに配置されたデータを確認してください。
（オプション）事前に訓練されたモデルのダウンロード：

RuTaBERT$ ./download.sh table_wise

または

RuTaBERT$ ./download.sh column_wise

config.jsonでテストするモデルを構成します。
走る：

RuTaBERT$ source venv/bin/activate && 
    pip install -r requirements.txt && 
    python3 test.py 2> logs/error_test.log

出力はlogs/ directory（ test.log 、 error_test.log ）になります。

推論

data/inferenceディレクトリに配置されたデータを確認してください。
（オプション）事前に訓練されたモデルのダウンロード：

RuTaBERT$ ./download.sh table_wise

または

RuTaBERT$ ./download.sh column_wise

config.jsonで推論するモデルを構成します
走る：

RuTaBERT$ source venv/bin/activate && 
    pip install -r requirements.txt && 
    python3 inference.py

ラベルはdata/inference/result.csvになります

拡大する

追加情報

バージョン IVMEM2024
タイプ AI ソースコード
更新時間 2025-09-08
サイズ 30.59KB
から Github

RuTaBERT

rutabert

目次

ベンチマーク

プロジェクト構造

構成

データセットファイル

トレーニング

ローカル

Docker

スラー

テスト

推論

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express