我们在提取以下字段的任务中对Ntropy的API和一组LLM进行了基准测试:标签,商家和网站。
将Ntropy的API与:
可以在此处找到所使用的数据集: /datasets/100_labeled_consumer_transactions.csv 。所有预测都可以在此处找到: /datasets/benchmark_predictions.csv 。它由100个匿名消费者交易的随机子集组成。完整的标签列表可以在此处找到。
| GPT 4 | 美洲驼芬特7B | 美洲驼的13B填充 | ntropy api | |
|---|---|---|---|---|
| 标签精度 | 0.71 | 0.72 | 0.78 | 0.86 |
| 标签F1分数 | 0.64 | 0.56 | 0.65 | 0.73 |
| 标签标签相似性 * | 0.85 | 0.82 | 0.87 | 0.91 |
| 标签延迟(S/TX) | 1.47 | 0.27 | 0.34 | 0.01 |
| 商人准确性 | 0.66 | / | / | 0.87 |
| 网站准确性 | 0.69 | / | / | 0.87 |
| 归一化延迟(S/TX) | 4.45 | / | / | 0.01 |
*:标签相似性是一个近似度量的度量标准,它使用嵌入式距离来给出比精度更平滑的度量标准(例如:2相似标签的分数接近1,而2个截然不同的分数在语义上的分数将接近0)。您可以在tests/integration/test_openai::test_label_similarity_score中查看更多详细信息。
在评估的模型中,Ntropy在准确性和延迟方面证明了最佳的指标。这种优势可以归因于几个因素,包括访问Web搜索引擎和内部商家数据库。此外,Ntropy的内部模型专门针对财务任务,有助于其获得准确的标签。
我们注意到,当与GPT-4(7分)相比,当对消费者交易中进行了微调,即使在消费者交易中进行了微调,即使没有访问有关商人的外部信息,它也会达到更高的准确性。这表明LLM的模型具有有关公司的大量知识,即使直接衡量这些知识可能具有挑战性。此外,检索清洁的公司名称和网站对于这些模型来说似乎更加困难。
基于此数据集,请注意,GPT-4具有生成似乎正确的网站的能力,但实际上并不存在。例如:
注意:在单个A100 GPU上对美洲驼模型进行了测试。
(返回到顶部)
该项目使用python> = 3.10
可以使用诗歌或Pip安装的Python软件包:
poetry install
poetry shell
pip install .
根据您要运行的模型,您至少需要以下一个(或全部用于运行完整的基准测试):
对于使用NTROPY API,您需要一个API键:
enrichment_models/__init__.py注意:您将获得带有免费帐户的10 000件交易的限额。如果您需要更多,请与我们联系。
对于使用OpenAI型号,您需要一个API密钥:
enrichment_models/__init__.py美洲驼的适配器是开源的,可以从Huggingface Hub中使用。这些模型具有2个变体(7b参数和13b参数,16bits),可以在以下URL上找到:
注意:运行Llama型号需要至少32GB的RAM(如果您可以使用足够的VRAM访问某些GPU)
(返回到顶部)
如果要运行完整的基准测试,请在enrichment_models/__init__.py中设置API键后,您可以运行:
make benchmark
或者
python scripts/full_benchmark.py
这将在终端上打印结果,并在datasets/文件夹中倾倒指标和预测。
如果要集成这些模型之一,则可以在notebooks/文件夹中的笔记本上以示例为例。
另外,如果您想集成Ntropy的API,则可能需要查看文档
每个型号有一个笔记本(Ntropy,Openai和Llama)。
我们欢迎并感谢任何建议增强功能或引入新型号,API等的拉动请求,以添加到基准表中。
(返回到顶部)
根据MIT许可分发。有关更多信息,请参见LICENSE 。
(返回到顶部)
主要项目依赖性:
(返回到顶部)