BusinessBERT Download - BusinessBERT Código Fonte Download

BusinessBERT

Código-Fonte de IA

1.0.0

Baixar

Businessbert

Modelo de linguagem sensível à indústria para negócios. O modelo está disponível no Huggingface: https://huggingface.co/pborchert/businessbert

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

Resumo

Transformador pré-terenciado: arquitetura Bert-Base
Treinado em comunicação comercial extraída:
- Discussão da gerência e declarações de analásia Caltechdata | MD & a
- Conteúdo do site da empresa Este estudo | Empresa
- Literatura de Negócios Científica Bolsa Semântica | S2orc
Objetivo de pré -treinamento adicional: Classificação do setor (IC) Prevendo a classificação padrão da indústria documentos textuais originários de
Desempenho do SOTA na classificação de texto relacionada aos negócios, nomeado reconhecimento de entidades e perguntas de resposta a benchmarks

Resumo

Apresentamos a Businessbert, um novo modelo de idioma sensível à indústria para aplicativos de negócios. A principal novidade do nosso modelo está na incorporação de informações do setor para aprimorar a tomada de decisões nas tarefas de processamento de linguagem natural (PNL) relacionadas aos negócios. A Businessbert estende as representações bidirecionais do codificador da arquitetura Transformers (BERT) incorporando informações do setor durante o pré-treinamento em duas abordagens inovadoras que permitem que a Businessbert capture a terminologia específica da indústria: (1) Businessbert é treinado em empresas de comunicação comercial e siglina de 2,23 bilhões de tokens que consistem no site da empresa; (2) Empregamos a classificação do setor como um objetivo adicional de pré -treinamento. Nossos resultados sugerem que a Businessbert melhora a tomada de decisões orientada a dados, fornecendo desempenho superior às tarefas de PNL relacionadas aos negócios. Nossos experimentos abrangem 7 conjuntos de dados de referência que incluem classificação de texto, reconhecimento de entidade denominado, análise de sentimentos e tarefas de resposta a perguntas. Além disso, este artigo reduz a complexidade de usar o Businessbert para outros aplicativos de PNL, tornando -o disponível gratuitamente como um modelo de idioma pré -treinado para a comunidade empresarial.

Benchmark

O benchmark consiste em tarefas de PNL relacionadas a negócios estruturadas nas seguintes categorias:

Classificação de texto

Risco: divulgações corporativas baseadas em classificação de riscos financeiros. Link
Notícias: Classificação de tópicos com base nas manchetes de notícias. Link

Reconhecimento de entidade nomeado

Registros da SEC: NER com base em acordos financeiros. Link

Análise de sentimentos

FIQA: preveja a pontuação contínua de sentimentos com base em mensagens de microblog, declarações de notícias ou manchetes. Execute data/fiqa/build_fiqa.py para combinar as peças de dados e criar data/fiqa/train.json . Link ou download direto
PhraseBank financeiro: classificação de sentimentos com base em notícias financeiras. Link
StockTweets: classificação de sentimentos com base em tweets usando tags como "#spx500" e "#stocks". Link

Resposta de perguntas

FINQA: Resposta generativa de perguntas com base em relatórios de ganhos de empresas S&P 500. Link

Estrutura de pastas

Execute makfolder.sh para criar a estrutura da pasta abaixo.

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

Código

Os resultados de benchmark de NLP de negócios podem ser replicados usando o script run_benchmark.sh . Observe que o conjunto de dados FINQA e o código correspondente estão disponíveis aqui: https://github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done