Unduh BusinessBERT - Unduh Kode Sumber BusinessBERT

BusinessBERT

Kode Sumber AI

1.0.0

Unduh

Businessbert

Model bahasa yang sensitif terhadap industri untuk bisnis. Model ini tersedia di HuggingFace: https://huggingface.co/pborchert/businessbert

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

Ringkasan

Transformator Pretrained: Arsitektur Bert-Base
Dilatih Komunikasi Bisnis Diekstraksi:
- Diskusi Manajemen dan Pernyataan Analaysis CalTechData | Md & a
- Konten Situs Web Perusahaan Studi ini | Perusahaan
- Literatur Bisnis Ilmiah Cendekia Semantik | S2orc
Tujuan pretraining tambahan: Klasifikasi Industri (IC) Memprediksi Dokumen Tekstual Klasifikasi Industri Standar
Kinerja SOTA pada Klasifikasi Teks Terkait Bisnis, Pengakuan Entitas yang Dinamai, dan tolok ukur menjawab pertanyaan

Abstrak

Kami memperkenalkan Businessbert, model bahasa yang sensitif terhadap industri baru untuk aplikasi bisnis. Kebaruan utama dari model kami terletak pada menggabungkan informasi industri untuk meningkatkan pengambilan keputusan dalam tugas pemrosesan bahasa alami (NLP) terkait bisnis. BusinessBert memperluas representasi enkoder dua arah dari arsitektur Transformers (BerT) dengan menyematkan informasi industri selama pretraining melalui dua pendekatan inovatif yang memungkinkan Businessbert untuk menangkap terminologi khusus industri: (1) BusinessBert dilatih pada perusahaan komunikasi bisnis yang berjumlah 2,23 miliar TOKENS yang terdiri dari konten situs web perusahaan, MD & MD & A Gagasan Komunikasi Bisnis A MD & A MD & A MD & A GERATIRAN MD & A MD & A CERTANING MD & A MD & A MD & A GERATIAN MD & A MD & A MD & A MDAN SATUS DOKSI DAN MD & A MD & A MDAN TERUSAHAN MD & A MD & A MD & A MDAN ATUNGSI A MD & A MD & A MDAN MD & A MDAN MD & A MDAN SATUS DOKULAN MD & A. (2) Kami menggunakan klasifikasi industri sebagai tujuan pretraining tambahan. Hasil kami menunjukkan bahwa BusinessBert meningkatkan pengambilan keputusan berbasis data dengan memberikan kinerja yang unggul pada tugas NLP terkait bisnis. Eksperimen kami mencakup 7 dataset benchmark yang mencakup klasifikasi teks, pengenalan entitas yang disebutkan, analisis sentimen, dan tugas-tugas yang dijawab. Selain itu, makalah ini mengurangi kompleksitas menggunakan BusinessBert untuk aplikasi NLP lainnya dengan membuatnya tersedia secara bebas sebagai model bahasa pretrain untuk komunitas bisnis.

Benchmark

Benchmark terdiri dari tugas NLP terkait bisnis yang disusun dalam kategori berikut:

Klasifikasi Teks

Risiko: Pengungkapan Perusahaan Berbasis Klasifikasi Risiko Keuangan. Link
Berita: Klasifikasi topik berdasarkan berita utama. Link

Pengakuan entitas yang disebutkan

Pengajuan SEC: NER berdasarkan perjanjian keuangan. Link

Analisis sentimen

FIQA: Memprediksi skor sentimen terus menerus berdasarkan pesan microblog, pernyataan berita atau berita utama. Jalankan data/fiqa/build_fiqa.py untuk menggabungkan bagian data dan membuat data/fiqa/train.json . Tautan atau unduhan langsung
Financial FraseBank: Klasifikasi sentimen berdasarkan berita keuangan. Link
StockTweets: Klasifikasi sentimen berdasarkan tweet menggunakan tag seperti "#spx500" dan "#stocks". Link

Pertanyaan menjawab

FINQA: Jawaban pertanyaan generatif berdasarkan laporan pendapatan perusahaan S&P 500. Link

Struktur folder

Jalankan makfolder.sh untuk membuat struktur folder di bawah ini.

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

Kode

Hasil benchmark NLP bisnis dapat direplikasi menggunakan skrip run_benchmark.sh . Perhatikan bahwa dataset FINQA dan kode yang sesuai tersedia di sini: https://github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done