Мы сравнивали API NTROPY и набор LLMS в задаче извлечения следующих полей: метка, торговца и веб -сайта.
API Ntropy сравнивается с:
Используемый набор данных можно найти здесь: /datasets/100_labeled_consumer_transactions.csv . Все прогнозы можно найти здесь: /datasets/benchmark_predictions.csv . Он состоит из случайного подмножества из 100 анонимизированных потребительских транзакций. Полный список этикетки можно найти здесь.
| GPT 4 | Llama Cenetuned 7b | Llama CeneTuned 13b | NTROPY API | |
|---|---|---|---|---|
| Точность лейблера | 0,71 | 0,72 | 0,78 | 0,86 |
| Оценка лейблера F1 | 0,64 | 0,56 | 0,65 | 0,73 |
| Метка метки сходство * | 0,85 | 0,82 | 0,87 | 0,91 |
| Задержка метки (S/TX) | 1.47 | 0,27 | 0,34 | 0,01 |
| Точность продавца | 0,66 | / | / | 0,87 |
| Точность веб -сайта | 0,69 | / | / | 0,87 |
| Задержка нормализатора (S/TX) | 4.45 | / | / | 0,01 |
*: Сходство метки - это приблизительная метрика, которая использует расстояние встраиваний, чтобы дать более плавную метрику, чем точность (например: 2 аналогичные этикетки будут иметь оценку, близкую к 1, в то время как 2 очень разные семантически будут иметь оценку, близкую к 0). Вы можете увидеть более подробную информацию в tests/integration/test_openai::test_label_similarity_score .
Среди оцениваемых моделей Ntropy демонстрирует лучшие показатели с точки зрения точности и задержки. Это превосходство может быть связано с несколькими факторами, включая его доступ к веб -поисковым системам и базам данных внутренних торговых данных. Более того, внутренние модели Ntropy были точно настроены специально для финансовых задач, что способствует их эффективности для получения точных ярлыков.
Мы заметили, что, когда модель ламы точно настроена на потребительские транзакции, даже без доступа к внешней информации о продавцах, она достигает более высокой точности по сравнению с GPT-4 (на 7 баллов). Это говорит о том, что модели LLM обладают значительными знаниями о компаниях, хотя измерение этих знаний напрямую может быть сложным. Кроме того, извлечение имен и веб -сайты очищенных компаний, по -видимому, сложнее для этих моделей.
Основываясь на этом наборе данных, «интересно» отметить, что GPT-4 обладает способностью генерировать веб-сайты, которые кажутся правильными на первый взгляд, но на самом деле не существуют. Например:
Примечание: модели LLAMA были сравнены на одном графическом процессоре A100.
(Вернуться к вершине)
Этот проект использует Python> = 3.10
Пакет Python, который можно установить либо с помощью поэзии, либо PIP:
poetry install
poetry shell
pip install .
В зависимости от того, какую модель вы хотите запустить, вам нужен хотя бы один из следующих (или все для запуска полного эталона):
Для использования NTROPY API вам нужен ключ API:
enrichment_models/__init__.pyПримечание. Вы получите предел 10 000 транзакций с бесплатной учетной записью. Если вам нужно больше, пожалуйста, свяжитесь с нами.
Для использования моделей OpenAI вам понадобится ключ API:
enrichment_models/__init__.pyАдаптеры ламы открыты и могут использоваться в центре Huggingface. Модели имеют 2 варианта (7B Params и 13b Params, 16Bits) и могут быть найдены на следующих URL:
Примечание: для запуска моделей Llama требуется минимум 32 ГБ оперативной памяти (лучше, если у вас есть доступ к некоторым графическим процессорам с достаточным количеством VRAM)
(Вернуться к вершине)
Если вы хотите запустить полный эталон, после настройки клавиш API в enrichment_models/__init__.py вы можете просто запустить:
make benchmark
Или
python scripts/full_benchmark.py
Это будет печатать результаты на терминале, а также метрики сброса и прогнозы в datasets/ папке.
Если вы хотите интегрировать одну из этих моделей, вы можете просто взять примеры на ноутбуках, в notebooks/ папке.
Кроме того, если вы хотите интегрировать API Ntropy, вы можете посмотреть на документацию
Существует одна ноутбука для модели (Ntropy, Openai и Llama).
Мы приветствуем и ценим любой запрос на привлечение, который предлагает усовершенствования или представляет новые модели, API и т. Д., Чтобы добавить в эталонный таблица.
(Вернуться к вершине)
Распределено по лицензии MIT. Смотрите LICENSE для получения дополнительной информации.
(Вернуться к вершине)
Основные зависимости проекта:
(Вернуться к вершине)