RuTaBERT Download - RuTaBERT Source Code Download

RuTaBERT

Code Source AI

IVMEM2024

Télécharger

Rutabert

Modèle de résolution du problème de l'annotation de type colonne avec Bert, formé sur un ensemble de données RWT-Rutabert.

L'ensemble de données RWT-RUTABERT contient 1 441 349 colonnes à partir de tables Wikipedia en langue russe. Avec des en-têtes correspondant aux types sémantiques de 170 dbpedia. Il a une fraction de train / test fixe:

Diviser	Colonnes	Tables	Avg. colonnes par table
Test	115 448	55 080	2.096
Former	1 325 901	633 426	2.093

Table des matières

Rutabert
- Référence
- Structure du projet
- Configuration
- Fichiers de jeu de données
- Entraînement
  - Localement
  - Docker
  - Slurm
- Essai
- Inférence

Référence

Nous avons formé Rutabert avec deux stratégies de sérialisation de table:

Sérialisation des colonnes voisines;
Sérialisation multi-colonnes (basée sur l'approche de Doduo);

Résultats de référence sur l'ensemble de données RWT-Rutabert:

Stratégie de sérialisation	micro-f1	macro-f1	pondéré-F1
Multicolonne	0,962	0,891	0,9621
Colonne voisine	0,964	0,904	0,9639

Paramètres de formation:

Paramètre	Valeur
taille de lot	32
époques	30
Fonction de perte	Entropie croisée
Optimiseur GD	ADAMW (LR = 5E-5, EPS = 1E-8)
GPU	4 Nvidia A100 (80 Go)
semences aléatoires	2024
Split de validation	5%

Structure du projet

 ?RuTaBERT
 ┣ checkpoints
 ┃ ┗ Saved PyTorch models `.pt` 
 ┣ data
 ┃ ┣ inference
 ┃ ┃ ┗ Tabels to inference `.csv`
 ┃ ┣ test
 ┃ ┃ ┗ Test dataset files `.csv`
 ┃ ┣ train
 ┃ ┃ ┗ Train dataset files `.csv`
 ┃ ┗  Directory for storing dataset files.
 ┣ dataset
 ┃ ┗  Dataset wrapper classes, dataloaders
 ┣ logs
 ┃ ┗ Log files (train / test / error)
 ┣ model
 ┃ ┗ Model and metrics
 ┣ trainer
 ┃ ┗ Trainer
 ┣ utils
 ┃ ┗ Helper functions
 ┗ Entry points (train.py, test.py, inference.py), configuration, etc.

Configuration

La configuration du modèle peut être trouvée dans le fichier config.json .

Les paramètres d'argument Configuratoin sont répertoriés ci-dessous:

argument	description
num_labels	Nombre d'étiquettes utilisées pour la classification
num_gpu	Nombre de GPU à utiliser
Save_period_in_epochs	Numéro caractérisant avec la périodicité du point de contrôle enregistré (en époques)
métrique	Les mesures de classification utilisées sont
Pretrained_Model_name	Nom de raccourci Bert de Huggingface
table_serialization_type	Méthode de sérialisation d'une table en une séquence
batch_size	Taille de lot
num_pochs	Nombre d'époches de formation
Random_seed	Semences aléatoires
LOGS_DIR	Répertoire de l'exploitation forestière
train_log_filename	Nom de fichier pour journalisation du train
test_log_filename	Nom de fichier pour la journalisation du test
start_from_checkpoint	Drapeau pour commencer la formation à partir de Checkpoint
Checkpoint_dir	Répertoire pour stocker les points de contrôle du modèle
Checkpoint_name	Nom de fichier d'un point de contrôle (État du modèle)
INFERGE_MODEL_NAME	Nom de fichier d'un modèle d'inférence
inférence_dir	Répertoire pour stocker les tableaux d'inférence `.csv`
dataloder.valid_split	Montant de la division du sous-ensemble de validation
dataloder.num_workers	Nombre de travailleurs de dataloader
dataset.num_rows	Nombre de lignes lisibles dans l'ensemble de données, si `null` lisez toutes les lignes dans les fichiers
dataset.data_dir	Répertoire pour stocker des fichiers de train / test / inférence
dataset.train_path	Répertoire pour stocker les fichiers de jeu de données de train `.csv`
dataset.test_path	Direcotry pour stocker les fichiers de jeu de données de test `.csv`

Nous recommandons pour changer uniquement les paramètres:

num_gpu - tout numéro d'ingéter positif + {0}. 0 défendre la formation / les tests sur le processeur.
save_period_in_epochs - Tout numéro entier positif, mesures en époques.
table_serialization_type - "Column_wise" ou "Table_wise".
pretrained_model_name - Noms Shorcut Bert à partir de modèles de prétraitement pytorch HuggingFace.
batch_size - tout numéro entier positif.
num_epochs - Tout numéro entier positif.
random_seed - tout numéro entier.
start_from_checkpoint - "true" ou "false".
checkpoint_name - Tout nom du modèle, enregistré dans le répertoire checkpoint .
inference_model_name - Tout nom du modèle, enregistré dans le répertoire checkpoint . Mais nous vous recommandons d'utiliser les meilleurs modèles: [Model_Best_F1_WeEmple.PT, Model_Best_F1_Macro.PT, Model_Best_F1_Micro.PT].
dataloader.valid_split - Nombre réel dans la plage [0,0, 1,0] (0,0 signifie 0% du sous-ensemble de train, 0,5 représente 50% du sous-ensemble de train). Ou numéro entier positif (indiquant un nombre fixe d'un sous-ensemble de validation).
dataset.num_rows - "NULL" signifie Lire toutes les lignes dans les fichiers de jeu de données. Un entier positif signifie le nombre de lignes à lire dans les fichiers de l'ensemble de données.

Fichiers de jeu de données

Avant la formation / tester le modèle dont vous avez besoin:

Téléchargez le référentiel de jeu de données dans le même répertoire que Rutabert, exemple de répertoire source Strucutre:

 ├── src
│  ├── RuTaBERT
│  ├── RuTaBERT-Dataset
│  │  ├── move_dataset.sh

Exécuter le script move_dataset.sh à partir du référentiel de jeu de données, pour déplacer les fichiers de jeu de données dans le répertoire data Rutabert:

RuTaBERT-Dataset$ ./move_dataset.sh

Configurez le fichier config.json avant la formation.

Entraînement

Rutabert prend en charge la formation / les tests localement et à l'intérieur du conteneur Docker. Prend également en charge Slurm Workload Manager.

Localement

Créer un environnement virtuel:

RuTaBERT$ virtualenv venv

ou

RuTaBERT$ python -m virtualenv venv

Installez les exigences et démarrez le train et le test.

RuTaBERT$ source venv/bin/activate && 
    pip install -r requirements.txt && 
    python3 train.py 2> logs/error_train.log && 
    python3 test.py 2> logs/error_test.log

Les modèles seront enregistrés dans le répertoire checkpoint .
La sortie sera dans logs/ répertoire ( training_results.csv , train.log , test.log , error_train.log , error_test.log ).

Docker

Exigences:

Guide d'installation de Docker (Ubuntu);
Nvidia Driver;
NVIDIA Container Toolkit Guide d'installation (Ubuntu);

Assurez-vous que toutes les dépendances sont installées.
Image de construction:

RuTaBERT$ sudo docker build -t rutabert .

Exécuter l'image

RuTaBERT$ sudo docker run -d --runtime=nvidia --gpus=all 
    --mount source=rutabert_logs,target=/app/rutabert/logs 
    --mount source=rutabert_checkpoints,target=/app/rutabert/checkpoints 
    rutabert

Déplacer les modèles et les journaux du conteneur après la formation / les tests.

RuTaBERT$ sudo cp -r /var/lib/docker/volumes/rutabert_checkpoints/_data ./checkpoints

RuTaBERT$ sudo cp -r /var/lib/docker/volumes/rutabert_logs/_data ./logs

N'oubliez pas de supprimer les volumes après l'entraînement! Docker ne le fera pas pour vous.
Les modèles seront enregistrés dans le répertoire checkpoint .
La sortie sera dans logs/ répertoire ( training_results.csv , train.log , test.log , error_train.log , error_test.log ).

Slurm

Créer un environnement virtuel:

RuTaBERT$ virtualenv venv

ou

RuTaBERT$ python -m virtualenv venv

Exécuter le script Slurm:

RuTaBERT$ sbatch run.slurm

Vérifiez l'état du travail:

RuTaBERT$ squeue

Les modèles seront enregistrés dans le répertoire checkpoint .
La sortie sera dans logs/ répertoire ( train.log , test.log , error_train.log , error_test.log ).

Essai

Assurez-vous que les données placées dans le répertoire data/test .
(Facultatif) Télécharger les modèles pré-formés:

RuTaBERT$ ./download.sh table_wise

ou

RuTaBERT$ ./download.sh column_wise

Configurez le modèle à tester dans config.json .
Courir:

RuTaBERT$ source venv/bin/activate && 
    pip install -r requirements.txt && 
    python3 test.py 2> logs/error_test.log

La sortie sera en logs/ répertoire ( test.log , error_test.log ).

Inférence

Assurez-vous que les données placées dans le répertoire data/inference .
(Facultatif) Télécharger les modèles pré-formés:

RuTaBERT$ ./download.sh table_wise

ou

RuTaBERT$ ./download.sh column_wise

Configurer quel modèle d'inférence dans config.json
Courir:

RuTaBERT$ source venv/bin/activate && 
    pip install -r requirements.txt && 
    python3 inference.py

Les étiquettes seront en data/inference/result.csv

Développer

Informations supplémentaires

Version IVMEM2024
Type Code Source AI
Date de mise à jour 2025-09-08
taille 30.59KB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout