BusinessBERT Download - BusinessBERT Sourced Code скачать

BusinessBERT

AI Исходный код

1.0.0

Скачать

Бизнесберт

Промышленная языковая модель для бизнеса. Модель доступна на Huggingface: https://huggingface.co/pborchert/businessbert

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

Краткое содержание

Предварительно преобразованный трансформатор: архитектура BERT-базы
Тренируется извлечено деловой коммуникации:
- Обсуждение в управлении и анализации заявления Caltechdata | MD & A.
- Содержание веб -сайта компании Это исследование | Компания
- Научная деловая литература Семантический ученый | S2orc
Дополнительная предварительная задача: отраслевая классификация (IC) Прогнозирование стандартной отраслевой классификации текстовые документы происходят из
SOTA Performance по классификации текста, связанной с бизнесом, названным признанием и ответом на вопросы о вопросах.

Абстрактный

Мы представляем Businessbert, новую отраслевую языковую модель для бизнес-приложений. Ключевой новистью нашей модели заключается в включении информации о отрасли для улучшения принятия решений в задачах обработки естественного языка, связанных с бизнесом (NLP). Businessbert расширяет двунаправленные представления энкодера от архитектуры Transformers (BERT) за счет встраивания информации о отрасли во время предварительной подготовки за счет двух инновационных подходов, которые позволяют Businessbert снимать терминологию, специфичную для отрасли: (1) Businessbert обучается на бизнес-коммуникации Corpora, общая сумма 2,23 млрд. Тукенов, состоящих из контента на веб-сайте компании, MD и A-заявления и научных пап в бизнес-доме в бизнес-доме в бизнес-доме; (2) Мы используем отраслевую классификацию в качестве дополнительной предварительной цели. Наши результаты показывают, что Businessbert улучшает принятие решений, управляемые данными, обеспечивая превосходную производительность для связанных с бизнесом задач NLP. Наши эксперименты охватывают 7 базовых наборов данных, которые включают в себя классификацию текста, распознавание объектов, анализ настроений и задачи, отвечающие вопросам. Кроме того, эта статья уменьшает сложность использования бизнесберта для других приложений НЛП, делая его свободно доступным в качестве предварительному языковой модели для бизнес -сообщества.

Эталон

История состоит из задач NLP, связанных с бизнесом, структурированными в следующих категориях:

Текстовая классификация

Риск: Корпоративные раскрытия в классификации финансовых рисков. Связь
Новости: Классификация тем на основе заголовков новостей. Связь

Названное признание сущности

Заявления SEC: NER на основе финансовых соглашений. Связь

Анализ настроений

FIQA: прогнозировать непрерывную оценку настроений на основе сообщений микроблогов, новостных заявлений или заголовков. Запустите data/fiqa/build_fiqa.py чтобы объединить детали данных и создать data/fiqa/train.json . Ссылка или прямая загрузка
Финансовая фраза: классификация настроений на основе финансовых новостей. Связь
Stocktweets: классификация настроений на основе твитов с использованием таких тегов, как «#spx500» и «#stocks». Связь

Ответ на вопрос

FINQA: Ответ -генеративный ответ на основе отчетов о доходах компаний S & P 500. Связь

Структура папки

Запустите makfolder.sh , чтобы создать структуру папок ниже.

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

Код

Результаты Business NLP Benchmark могут быть воспроизведены с помощью сценария run_benchmark.sh . Обратите внимание, что набор данных FINQA и соответствующий код доступны здесь: https://github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done