รูปแบบภาษาที่ไวต่ออุตสาหกรรมสำหรับธุรกิจ รุ่นนี้มีอยู่ใน HuggingFace: https://huggingface.co/pborchert/businessbert
from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )เราแนะนำ Businessbert รูปแบบภาษาที่ไวต่ออุตสาหกรรมใหม่สำหรับการใช้งานทางธุรกิจ ความแปลกใหม่ที่สำคัญของแบบจำลองของเราอยู่ในการรวมข้อมูลอุตสาหกรรมเพื่อเพิ่มการตัดสินใจในงานการประมวลผลภาษาธรรมชาติที่เกี่ยวข้องกับธุรกิจ (NLP) Businessbert ขยายการเป็นตัวแทนของการเข้ารหัสแบบสองทิศทางจากสถาปัตยกรรม Transformers (BERT) โดยการฝังข้อมูลอุตสาหกรรมในระหว่างการเตรียมการผ่านสองวิธีที่เป็นนวัตกรรมที่ช่วยให้ BusinessBert สามารถจับคำศัพท์เฉพาะอุตสาหกรรม: (1) Businessbert ได้รับการฝึกอบรมเกี่ยวกับการสื่อสารทางธุรกิจ (2) เราจ้างการจำแนกประเภทอุตสาหกรรมเป็นวัตถุประสงค์เพิ่มเติม ผลลัพธ์ของเราแนะนำว่า Businessbert ปรับปรุงการตัดสินใจที่ขับเคลื่อนด้วยข้อมูลโดยให้ประสิทธิภาพที่เหนือกว่าในงาน NLP ที่เกี่ยวข้องกับธุรกิจ การทดลองของเราครอบคลุมชุดข้อมูลมาตรฐาน 7 ชุดซึ่งรวมถึงการจำแนกประเภทข้อความการจดจำเอนทิตีที่มีชื่อการวิเคราะห์ความเชื่อมั่นและงานตอบคำถาม นอกจากนี้บทความนี้จะช่วยลดความซับซ้อนของการใช้ BusinessBert สำหรับแอปพลิเคชัน NLP อื่น ๆ โดยทำให้สามารถใช้งานได้อย่างอิสระเป็นรูปแบบภาษาที่ผ่านการฝึกอบรมให้กับชุมชนธุรกิจ
มาตรฐานประกอบด้วยงาน NLP ที่เกี่ยวข้องกับธุรกิจที่มีโครงสร้างในหมวดหมู่ต่อไปนี้:
การจำแนกข้อความ
การจดจำเอนทิตีชื่อ
การวิเคราะห์ความเชื่อมั่น
data/fiqa/build_fiqa.py เพื่อรวมชิ้นส่วนข้อมูลและสร้าง data/fiqa/train.json ลิงค์หรือดาวน์โหลดโดยตรงตอบคำถาม
เรียกใช้ makfolder.sh เพื่อสร้างโครงสร้างโฟลเดอร์ด้านล่าง
BusinessBERT
├───data
│ ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│ ├───fiqa
│ │ task1_headline_ABSA_train.json
│ │ task1_post_ABSA_train.json
│ │ build_fiqa.py
│ │ train.json
│ │
│ ├───news # obsolete, load data directly from https://huggingface.co/datasets
│ ├───risk
│ │ groundTruth.dat
│ │
│ ├───secfilings
│ │ test.txt
│ │ train.txt
│ │ valid.txt
│ │
│ └───stocktweets
│ tweets_clean.csv
│
└───tasks
finphrase.py
fiqa.py
news.py
risk.py
secfilings.py
stocktweets.py
__init__.py ผลการวัดผลของธุรกิจ NLP สามารถทำซ้ำได้โดยใช้สคริปต์ run_benchmark.sh โปรดทราบว่าชุดข้อมูล FINQA และรหัสที่เกี่ยวข้องมีอยู่ที่นี่: https://github.com/czyssrs/finqa
for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
do
for seed in 42
do
python businessbench.py
--task_name $task
--model_name $model
--seed $seed
done
done
doneขนาดแบทช์และพารามิเตอร์การสะสมการไล่ระดับสีถูกเลือกสำหรับการทดลองใช้ GPU NVIDIA RTX4000 (8GB) GPU
งานนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต Creative Commons Attribution 4.0 International