비즈니스를위한 산업에 민감한 언어 모델. 이 모델은 https://huggingface.co/pborchert/businessbert에서 사용할 수 있습니다
from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )우리는 비즈니스 애플리케이션을위한 새로운 산업에 민감한 언어 모델 인 Businessbert를 소개합니다. 우리의 모델의 주요 참신함은 업계 정보를 통합하여 비즈니스 관련 자연 언어 처리 (NLP) 작업의 의사 결정을 향상시키는 데 있습니다. Businessbert는 업계 별 용어를 포착 할 수있는 두 가지 혁신적인 접근 방식을 통해 사전 여지가있는 동안 산업 정보를 임베드하여 산업 정보를 포함시켜 트랜스포머 (BERT) 아키텍처의 양방향 인코더 표현을 확장합니다. (2) 우리는 산업 분류를 추가적인 사전 계통 목표로 사용합니다. 우리의 결과는 Businessbert가 비즈니스 관련 NLP 작업에 대한 뛰어난 성능을 제공함으로써 데이터 중심 의사 결정을 향상시킬 수 있음을 시사합니다. 당사의 실험에는 텍스트 분류, 지명 된 엔티티 인식, 감정 분석 및 질문 응답 작업이 포함 된 7 개의 벤치 마크 데이터 세트가 포함됩니다. 또한이 백서는 비즈니스 커뮤니티에 사전에 걸린 언어 모델로 자유롭게 제공함으로써 다른 NLP 응용 프로그램에 BusinessBert를 사용하는 복잡성을 줄입니다.
벤치 마크는 다음 범주로 구성된 비즈니스 관련 NLP 작업으로 구성됩니다.
텍스트 분류
지명 된 엔티티 인식
감정 분석
data/fiqa/build_fiqa.py 부품을 결합하고 data/fiqa/train.json 을 만듭니다. 링크 또는 직접 다운로드질문 대답
makfolder.sh 실행하여 아래 폴더 구조를 만듭니다.
BusinessBERT
├───data
│ ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│ ├───fiqa
│ │ task1_headline_ABSA_train.json
│ │ task1_post_ABSA_train.json
│ │ build_fiqa.py
│ │ train.json
│ │
│ ├───news # obsolete, load data directly from https://huggingface.co/datasets
│ ├───risk
│ │ groundTruth.dat
│ │
│ ├───secfilings
│ │ test.txt
│ │ train.txt
│ │ valid.txt
│ │
│ └───stocktweets
│ tweets_clean.csv
│
└───tasks
finphrase.py
fiqa.py
news.py
risk.py
secfilings.py
stocktweets.py
__init__.py 비즈니스 NLP 벤치 마크 결과는 run_benchmark.sh 스크립트를 사용하여 복제 할 수 있습니다. FINQA 데이터 세트 및 해당 코드는 여기에서 사용할 수 있습니다 : https://github.com/czyssrs/finqa
for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
do
for seed in 42
do
python businessbench.py
--task_name $task
--model_name $model
--seed $seed
done
done
doneNVIDIA RTX4000 (8GB) GPU에서 실험을 실행하기 위해 배치 크기 및 구배 축적 매개 변수가 선택됩니다.
이 작품은 Creative Commons Adatribution 4.0 International 라이센스에 따라 라이센스가 부여됩니다.