我們在提取以下字段的任務中對Ntropy的API和一組LLM進行了基準測試:標籤,商家和網站。
將Ntropy的API與:
可以在此處找到所使用的數據集: /datasets/100_labeled_consumer_transactions.csv 。所有預測都可以在此處找到: /datasets/benchmark_predictions.csv 。它由100個匿名消費者交易的隨機子集組成。完整的標籤列表可以在此處找到。
| GPT 4 | 美洲駝芬特7B | 美洲駝的13B填充 | ntropy api | |
|---|---|---|---|---|
| 標籤精度 | 0.71 | 0.72 | 0.78 | 0.86 |
| 標籤F1分數 | 0.64 | 0.56 | 0.65 | 0.73 |
| 標籤標籤相似性 * | 0.85 | 0.82 | 0.87 | 0.91 |
| 標籤延遲(S/TX) | 1.47 | 0.27 | 0.34 | 0.01 |
| 商人準確性 | 0.66 | / | / | 0.87 |
| 網站準確性 | 0.69 | / | / | 0.87 |
| 歸一化延遲(S/TX) | 4.45 | / | / | 0.01 |
*:標籤相似性是一個近似度量的度量標準,它使用嵌入式距離來給出比精度更平滑的度量標準(例如:2相似標籤的分數接近1,而2個截然不同的分數在語義上的分數將接近0)。您可以在tests/integration/test_openai::test_label_similarity_score中查看更多詳細信息。
在評估的模型中,Ntropy在準確性和延遲方面證明了最佳的指標。這種優勢可以歸因於幾個因素,包括訪問Web搜索引擎和內部商家數據庫。此外,Ntropy的內部模型專門針對財務任務,有助於其獲得準確的標籤。
我們注意到,當與GPT-4(7分)相比,當對消費者交易中進行了微調,即使在消費者交易中進行了微調,即使沒有訪問有關商人的外部信息,它也會達到更高的準確性。這表明LLM的模型具有有關公司的大量知識,即使直接衡量這些知識可能具有挑戰性。此外,檢索清潔的公司名稱和網站對於這些模型來說似乎更加困難。
基於此數據集,請注意,GPT-4具有生成似乎正確的網站的能力,但實際上並不存在。例如:
注意:在單個A100 GPU上對美洲駝模型進行了測試。
(返回到頂部)
該項目使用python> = 3.10
可以使用詩歌或Pip安裝的Python軟件包:
poetry install
poetry shell
pip install .
根據您要運行的模型,您至少需要以下一個(或全部用於運行完整的基準測試):
對於使用NTROPY API,您需要一個API鍵:
enrichment_models/__init__.py API鍵並將其粘貼:注意:您將獲得帶有免費帳戶的10 000件交易的限額。如果您需要更多,請與我們聯繫。
對於使用OpenAI型號,您需要一個API密鑰:
enrichment_models/__init__.py美洲駝的適配器是開源的,可以從Huggingface Hub中使用。這些模型具有2個變體(7b參數和13b參數,16bits),可以在以下URL上找到:
注意:運行Llama型號需要至少32GB的RAM(如果您可以使用足夠的VRAM訪問某些GPU)
(返回到頂部)
如果要運行完整的基準測試,請在enrichment_models/__init__.py中設置API鍵後,您可以運行:
make benchmark
或者
python scripts/full_benchmark.py
這將在終端上打印結果,並在datasets/文件夾中傾倒指標和預測。
如果要集成這些模型之一,則可以在notebooks/文件夾中的筆記本上以示例為例。
另外,如果您想集成Ntropy的API,則可能需要查看文檔
每個型號有一個筆記本(Ntropy,Openai和Llama)。
我們歡迎並感謝任何建議增強功能或引入新型號,API等的拉動請求,以添加到基準表中。
(返回到頂部)
根據MIT許可分發。有關更多信息,請參見LICENSE 。
(返回到頂部)
主要項目依賴性:
(返回到頂部)