BusinessBERT 다운로드 - BusinessBERT 소스 코드 다운로드

BusinessBERT

AI 소스 코드

1.0.0

다운로드

비즈니스 베르트

비즈니스를위한 산업에 민감한 언어 모델. 이 모델은 https://huggingface.co/pborchert/businessbert에서 사용할 수 있습니다

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

요약

사전 변압기 : Bert-Base Architecture
비즈니스 커뮤니케이션 추출에 대한 교육 :
- 관리 토론 및 Analaysis 문장 Caltechdata | MD & A
- 회사 웹 사이트 컨텐츠이 연구 | 회사 웹
- 과학 비즈니스 문학 시맨틱 학자 | S2ORC
추가 사전 계통 목표 : 업계 분류 (IC) 표준 산업 분류 예측 텍스트 문서
비즈니스 관련 텍스트 분류에 대한 SOTA 성과, 기업 인식 및 질문 답변 벤치 마크

추상적인

우리는 비즈니스 애플리케이션을위한 새로운 산업에 민감한 언어 모델 인 Businessbert를 소개합니다. 우리의 모델의 주요 참신함은 업계 정보를 통합하여 비즈니스 관련 자연 언어 처리 (NLP) 작업의 의사 결정을 향상시키는 데 있습니다. Businessbert는 업계 별 용어를 포착 할 수있는 두 가지 혁신적인 접근 방식을 통해 사전 여지가있는 동안 산업 정보를 임베드하여 산업 정보를 포함시켜 트랜스포머 (BERT) 아키텍처의 양방향 인코더 표현을 확장합니다. (2) 우리는 산업 분류를 추가적인 사전 계통 목표로 사용합니다. 우리의 결과는 Businessbert가 비즈니스 관련 NLP 작업에 대한 뛰어난 성능을 제공함으로써 데이터 중심 의사 결정을 향상시킬 수 있음을 시사합니다. 당사의 실험에는 텍스트 분류, 지명 된 엔티티 인식, 감정 분석 및 질문 응답 작업이 포함 된 7 개의 벤치 마크 데이터 세트가 포함됩니다. 또한이 백서는 비즈니스 커뮤니티에 사전에 걸린 언어 모델로 자유롭게 제공함으로써 다른 NLP 응용 프로그램에 BusinessBert를 사용하는 복잡성을 줄입니다.

기준

벤치 마크는 다음 범주로 구성된 비즈니스 관련 NLP 작업으로 구성됩니다.

텍스트 분류

위험 : 재무 위험 분류 기반 기업 공개. 링크
뉴스 : 뉴스 헤드 라인을 기반으로 한 주제 분류. 링크

지명 된 엔티티 인식

SEC 제출 : 재무 계약에 근거한 NER. 링크

감정 분석

FIQA : 마이크로 블로그 메시지, 뉴스 진술 또는 헤드 라인을 기반으로 연속 정서 점수를 예측하십시오. data/fiqa/build_fiqa.py 부품을 결합하고 data/fiqa/train.json 을 만듭니다. 링크 또는 직접 다운로드
금융 문구 뱅크 : 재무 뉴스를 기반으로 한 감정 분류. 링크
Stocktweets : "#spx500"및 "#stocks"와 같은 태그를 사용한 트윗을 기반으로 한 감정 분류. 링크

질문 대답

FINQA : S & P 500 회사의 수입 보고서를 기반으로 한 생성 질문 답변. 링크

폴더 구조

makfolder.sh 실행하여 아래 폴더 구조를 만듭니다.

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

암호

비즈니스 NLP 벤치 마크 결과는 run_benchmark.sh 스크립트를 사용하여 복제 할 수 있습니다. FINQA 데이터 세트 및 해당 코드는 여기에서 사용할 수 있습니다 : https://github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done