Descarga de BusinessBERT - Descarga del código fuente BusinessBERT

BusinessBERT

Código Fuente de IA

1.0.0

Descargar

Businessbert

Modelo de lenguaje sensible a la industria para negocios. El modelo está disponible en Huggingface: https://huggingface.co/pborchert/businessbert

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

Resumen

Transformador previo a la aparición: arquitectura Bert-base
Capacitado en comunicación empresarial extraída:
- Discusión de gestión y declaraciones de analaysis caltechData | MD&A
- Contenido del sitio web de la empresa este estudio | CompanyWeb
- Literatura de Negocios Científicos Semánticos Sader | S2ORC
Objetivo adicional de previación: Clasificación de la industria (IC) La predicción de los documentos textuales de clasificación de la industria estándar se originan en
Rendimiento de SOTA en la clasificación de texto relacionada con el negocio, reconocimiento de entidad nombrado y respuesta a preguntas de referencia

Abstracto

Presentamos a Businessbert, un nuevo modelo de idioma sensible a la industria para aplicaciones comerciales. La novedad clave de nuestro modelo radica en incorporar información de la industria para mejorar la toma de decisiones en las tareas de procesamiento del lenguaje natural relacionados con el negocio (PNL). Businessbert extiende las representaciones de codificadores bidireccionales de la arquitectura de Transformers (BERT) al integrar la información de la industria durante el pretrete a través de dos enfoques innovadores que permiten a Businessbert capturar la terminología específica de la industria: (1) Businessbert está capacitado en la comunicación empresarial por un total de 2.23 mil millones de tokens que consisten en el contenido del sitio web de la compañía, MD & A estemuestos y los documentos científicos en el dominio empresarial; (2) Empleamos la clasificación de la industria como un objetivo adicional de prisión. Nuestros resultados sugieren que Businessbert mejora la toma de decisiones basada en datos al proporcionar un rendimiento superior en las tareas de PNL relacionadas con las empresas. Nuestros experimentos cubren 7 conjuntos de datos de referencia que incluyen clasificación de texto, reconocimiento de entidad nombrado, análisis de sentimientos y tareas de preguntas. Además, este documento reduce la complejidad del uso de BusinessBert para otras aplicaciones de PNL al ponerlo gratuitamente como un modelo de lenguaje previo a la comunidad para la comunidad empresarial.

Punto de referencia

El punto de referencia consiste en tareas de PNL relacionadas con el negocio estructuradas en las siguientes categorías:

Clasificación de texto

Riesgo: divulgaciones corporativas basadas en la clasificación de riesgos financieros. Enlace
Noticias: Clasificación de temas basada en titulares de noticias. Enlace

Reconocimiento de entidad nombrado

Presentaciones de la SEC: NER basado en acuerdos financieros. Enlace

Análisis de sentimientos

FIQA: Predecir el puntaje de sentimiento continuo basado en mensajes de microblog, declaraciones de noticias o titulares. Ejecute data/fiqa/build_fiqa.py para combinar las piezas de datos y crear data/fiqa/train.json . Enlace o descarga directa
Frases financieras: clasificación de sentimientos basada en noticias financieras. Enlace
StockTweets: Clasificación de sentimientos basada en tweets usando etiquetas como "#SPX500" y "#stocks". Enlace

Respuesta de preguntas

FINQA: Respuesta de preguntas generativas basadas en informes de ganancias de empresas S&P 500. Enlace

Estructura de carpetas

Ejecute makfolder.sh para crear la estructura de la carpeta a continuación.

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

Código

Los resultados de referencia NLP Business se pueden replicar utilizando el script run_benchmark.sh . Tenga en cuenta que el conjunto de datos FINQA y el código correspondiente están disponibles aquí: https://github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done