ดาวน์โหลด RuTaBERT - ดาวน์โหลดซอร์สโค้ด RuTaBERT

RuTaBERT

โค้ดแหล่งที่มา AI

IVMEM2024

ดาวน์โหลด

รัตเบิร์ต

แบบจำลองสำหรับการแก้ปัญหาของคำอธิบายประกอบประเภทคอลัมน์กับ Bert ได้รับการฝึกฝนในชุดข้อมูล RWT-Rutabert

ชุดข้อมูล RWT-Rutabert ประกอบด้วย 1 441 349 คอลัมน์จากตารางภาษารัสเซีย Wikipedia ด้วยส่วนหัวที่ตรงกับประเภทความหมาย 170 dbpedia มันมีการแยกรถไฟ / ทดสอบแยก:

แยก	คอลัมน์	โต๊ะ	AVG คอลัมน์ต่อตาราง
ทดสอบ	115 448	55 080	2.096
รถไฟ	1 325 901	633 426	2.093

สารบัญ

รัตเบิร์ต
- เกณฑ์มาตรฐาน
- โครงสร้างโครงการ
- การกำหนดค่า
- ไฟล์ชุดข้อมูล
- การฝึกอบรม
  - ในระดับท้องถิ่น
  - นักเทียบท่า
  - slurm
- การทดสอบ
- การอนุมาน

เกณฑ์มาตรฐาน

เราฝึก Rutabert ด้วยกลยุทธ์การทำให้เป็นอนุกรมสองตาราง:

คอลัมน์ใกล้เคียงเป็นอนุกรม;
การทำให้เป็นอนุกรมหลายคอลัมน์ (ขึ้นอยู่กับวิธีการของ Doduo);

ผลการวัดผลในชุดข้อมูล RWT-Rutabert:

กลยุทธ์การทำให้เป็นอนุกรม	Micro-F1	มาโคร F1	ถ่วงน้ำหนัก -F1
คอลัมน์หลายคอลัมน์	0.962	0.891	0.9621
คอลัมน์ใกล้เคียง	0.964	0.904	0.9639

พารามิเตอร์การฝึกอบรม:

พารามิเตอร์	ค่า
ขนาดแบทช์	32
ยุค	30
ฟังก์ชันการสูญเสีย	ข้ามจุดกำเนิด
GD Optimizer	ADAMW (LR = 5E-5, EPS = 1E-8)
GPU	4 Nvidia A100 (80 GB)
เมล็ดสุ่ม	2024
แยกการตรวจสอบความถูกต้อง	5%

โครงสร้างโครงการ

 ?RuTaBERT
 ┣ checkpoints
 ┃ ┗ Saved PyTorch models `.pt` 
 ┣ data
 ┃ ┣ inference
 ┃ ┃ ┗ Tabels to inference `.csv`
 ┃ ┣ test
 ┃ ┃ ┗ Test dataset files `.csv`
 ┃ ┣ train
 ┃ ┃ ┗ Train dataset files `.csv`
 ┃ ┗  Directory for storing dataset files.
 ┣ dataset
 ┃ ┗  Dataset wrapper classes, dataloaders
 ┣ logs
 ┃ ┗ Log files (train / test / error)
 ┣ model
 ┃ ┗ Model and metrics
 ┣ trainer
 ┃ ┗ Trainer
 ┣ utils
 ┃ ┗ Helper functions
 ┗ Entry points (train.py, test.py, inference.py), configuration, etc.

การกำหนดค่า

การกำหนดค่าโมเดลสามารถพบได้ในไฟล์ config.json

พารามิเตอร์อาร์กิวเมนต์ configuratoin แสดงอยู่ด้านล่าง:

การโต้แย้ง	คำอธิบาย
num_labels	จำนวนฉลากที่ใช้สำหรับการจำแนกประเภท
num_gpu	จำนวน GPU ที่จะใช้
save_period_in_epochs	ตัวเลขที่แสดงถึงการบันทึกจุดตรวจสอบเป็นระยะเวลาใด (ในยุค)
ตัวชี้วัด	ตัวชี้วัดการจำแนกประเภทที่ใช้คือ
pretrained_model_name	ชื่อทางลัดเบิร์ตจาก HuggingFace
table_serialization_type	วิธีการทำให้ตารางเป็นลำดับในลำดับ
batch_size	ขนาดแบทช์
num_epochs	จำนวนยุคฝึกอบรม
Random_seed	เมล็ดสุ่ม
logs_dir	ไดเรกทอรีสำหรับการบันทึก
train_log_filename	ชื่อไฟล์สำหรับการบันทึกรถไฟ
test_log_filename	ชื่อไฟล์สำหรับการบันทึกการทดสอบ
start_from_checkpoint	ตั้งค่าสถานะเพื่อเริ่มการฝึกอบรมจากจุดตรวจ
จุดตรวจสอบ _dir	ไดเรกทอรีสำหรับการจัดเก็บจุดตรวจของรุ่น
จุดตรวจสอบ _name	ชื่อไฟล์ของจุดตรวจ (สถานะรุ่น)
inference_model_name	ชื่อไฟล์ของโมเดลสำหรับการอนุมาน
การอนุมาน _dir	ไดเรกทอรีสำหรับการจัดเก็บตารางการอนุมาน `.csv`
dataloader.valid_split	จำนวนชุดย่อยการตรวจสอบความถูกต้อง
dataloader.num_workers	จำนวนคนงาน dataloader
DataSet.num_rows	จำนวนแถวที่อ่านได้ในชุดข้อมูลถ้า `null` อ่านแถวทั้งหมดในไฟล์
dataSet.data_dir	ไดเรกทอรีสำหรับการจัดเก็บไฟล์รถไฟ/ทดสอบ/การอนุมาน
DataSet.train_path	ไดเรกทอรีสำหรับการจัดเก็บไฟล์ชุดข้อมูลรถไฟ `.csv`
DataSet.test_path	DIRECOTRY สำหรับการจัดเก็บไฟล์ชุดข้อมูลทดสอบ `.csv`

เราขอแนะนำให้เปลี่ยนเฉพาะพารามิเตอร์ Theese:

num_gpu - หมายเลข ingeter บวกใด ๆ + {0} 0 ยืนสำหรับการฝึกอบรม / ทดสอบใน CPU
save_period_in_epochs - หมายเลขจำนวนเต็มบวกใด ๆ มาตรการในยุค
table_serialization_type - "column_wise" หรือ "table_wise"
pretrained_model_name - ชื่อ Bert Shorcut จาก Huggingface Pytorch รุ่น Pretrained
batch_size - หมายเลขจำนวนเต็มบวกใด ๆ
num_epochs - หมายเลขจำนวนเต็มบวกใด ๆ
random_seed - หมายเลขจำนวนเต็มใด ๆ
start_from_checkpoint - "true" หรือ "false"
checkpoint_name - ชื่อของรุ่นใด ๆ ที่บันทึกไว้ในไดเรกทอรี checkpoint
inference_model_name - ชื่อของโมเดลใด ๆ ที่บันทึกไว้ในไดเรกทอรี checkpoint แต่เราขอแนะนำให้ใช้โมเดลที่ดีที่สุด: [model_best_f1_weighted.pt, model_best_f1_macro.pt, model_best_f1_micro.pt]
dataloader.valid_split - จำนวนจริงภายในช่วง [0.0, 1.0] (0.0 หมายถึง 0 % ของชุดย่อยรถไฟ, 0.5 หมายถึง 50 % ของชุดย่อยรถไฟ) หรือหมายเลขจำนวนเต็มบวก (แสดงจำนวนชุดย่อยการตรวจสอบความถูกต้องคงที่)
dataset.num_rows - "Null" หมายถึงการอ่านทั้งหมดในไฟล์ชุดข้อมูล จำนวนเต็มบวกหมายถึงจำนวนบรรทัดที่จะอ่านในไฟล์ของชุดข้อมูล

ไฟล์ชุดข้อมูล

ก่อนการฝึกอบรม / ทดสอบรูปแบบที่คุณต้อง:

ดาวน์โหลดแหล่งเก็บข้อมูลชุดข้อมูลในไดเรกทอรีเดียวกับ Rutabert, ตัวอย่าง Directory Source Directory:

 ├── src
│  ├── RuTaBERT
│  ├── RuTaBERT-Dataset
│  │  ├── move_dataset.sh

เรียกใช้สคริปต์ move_dataset.sh จากที่เก็บข้อมูลชุดข้อมูลเพื่อย้ายไฟล์ชุดข้อมูลไปยังไดเรกทอรี data Rutabert:

RuTaBERT-Dataset$ ./move_dataset.sh

กำหนดค่าไฟล์ config.json ก่อนการฝึกอบรม

การฝึกอบรม

Rutabert รองรับการฝึกอบรม / การทดสอบทั้งในและภายในคอนเทนเนอร์ Docker ยังรองรับ Slurm Workload Manager

ในระดับท้องถิ่น

สร้างสภาพแวดล้อมเสมือนจริง:

RuTaBERT$ virtualenv venv

หรือ

RuTaBERT$ python -m virtualenv venv

ติดตั้งข้อกำหนดและเริ่มรถไฟและทดสอบ

RuTaBERT$ source venv/bin/activate && 
    pip install -r requirements.txt && 
    python3 train.py 2> logs/error_train.log && 
    python3 test.py 2> logs/error_test.log

โมเดลจะถูกบันทึกไว้ในไดเรกทอรี checkpoint
เอาท์พุทจะอยู่ใน logs/ ไดเรกทอรี ( training_results.csv , train.log , test.log , error_train.log , error_test.log )

นักเทียบท่า

ความต้องการ:

คู่มือการติดตั้ง Docker (Ubuntu);
คนขับ Nvidia;
คู่มือการติดตั้งชุดเครื่องมือคอนเทนเนอร์ NVIDIA (Ubuntu);

ตรวจสอบให้แน่ใจว่าติดตั้งการพึ่งพาทั้งหมด
สร้างภาพ:

RuTaBERT$ sudo docker build -t rutabert .

เรียกใช้ภาพ

RuTaBERT$ sudo docker run -d --runtime=nvidia --gpus=all 
    --mount source=rutabert_logs,target=/app/rutabert/logs 
    --mount source=rutabert_checkpoints,target=/app/rutabert/checkpoints 
    rutabert

ย้ายโมเดลและบันทึกจากคอนเทนเนอร์หลังการฝึกอบรม / ทดสอบ

RuTaBERT$ sudo cp -r /var/lib/docker/volumes/rutabert_checkpoints/_data ./checkpoints

RuTaBERT$ sudo cp -r /var/lib/docker/volumes/rutabert_logs/_data ./logs

อย่าลืมลบปริมาณหลังจากการฝึกอบรม! นักเทียบท่าจะไม่ทำเพื่อคุณ
โมเดลจะถูกบันทึกไว้ในไดเรกทอรี checkpoint
เอาท์พุทจะอยู่ใน logs/ ไดเรกทอรี ( training_results.csv , train.log , test.log , error_train.log , error_test.log )

slurm

สร้างสภาพแวดล้อมเสมือนจริง:

RuTaBERT$ virtualenv venv

หรือ

RuTaBERT$ python -m virtualenv venv

เรียกใช้สคริปต์ Slurm:

RuTaBERT$ sbatch run.slurm

ตรวจสอบสถานะงาน:

RuTaBERT$ squeue

โมเดลจะถูกบันทึกไว้ในไดเรกทอรี checkpoint
เอาต์พุตจะอยู่ใน logs/ ไดเรกทอรี ( train.log , test.log , error_train.log , error_test.log )

การทดสอบ

ตรวจสอบให้แน่ใจว่าข้อมูลที่วางไว้ในไดเรกทอรี data/test
(ไม่บังคับ) ดาวน์โหลดรุ่นที่ผ่านการฝึกอบรมมาก่อน:

RuTaBERT$ ./download.sh table_wise

หรือ

RuTaBERT$ ./download.sh column_wise

กำหนดค่ารุ่นใดที่จะทดสอบใน config.json
วิ่ง:

RuTaBERT$ source venv/bin/activate && 
    pip install -r requirements.txt && 
    python3 test.py 2> logs/error_test.log

เอาต์พุตจะอยู่ใน logs/ ไดเรกทอรี ( test.log , error_test.log )

การอนุมาน

ตรวจสอบให้แน่ใจว่าข้อมูลที่วางไว้ในไดเรกทอรี data/inference
(ไม่บังคับ) ดาวน์โหลดรุ่นที่ผ่านการฝึกอบรมมาก่อน:

RuTaBERT$ ./download.sh table_wise

หรือ

RuTaBERT$ ./download.sh column_wise

กำหนดค่าโมเดลใดในการอนุมานใน config.json
วิ่ง:

RuTaBERT$ source venv/bin/activate && 
    pip install -r requirements.txt && 
    python3 inference.py

ป้ายกำกับจะอยู่ใน data/inference/result.csv

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน IVMEM2024
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-08
ขนาด 30.59KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด