NtropyのAPIと、次のフィールドを抽出するタスクでLLMのセットをベンチマークしました:ラベル、マーチャント、ウェブサイト。
NtropyのAPIは以下と比較されます。
使用されるデータセットは、 /datasets/100_labeled_consumer_transactions.csvにあります。すべての予測は、 /datasets/benchmark_predictions.csv benchmark_predictions.csvにあります。これは、100の匿名化された消費者取引のランダムサブセットで構成されています。完全なラベルリストはこちらをご覧ください。
| GPT 4 | Llama Finetuned 7b | Llama Finetuned 13b | ntropy API | |
|---|---|---|---|---|
| ラベルの精度 | 0.71 | 0.72 | 0.78 | 0.86 |
| ラベルF1スコア | 0.64 | 0.56 | 0.65 | 0.73 |
| ラベルラベルの類似性 * | 0.85 | 0.82 | 0.87 | 0.91 |
| ラベルレイテンシ(s/tx) | 1.47 | 0.27 | 0.34 | 0.01 |
| 商人の精度 | 0.66 | / | / | 0.87 |
| ウェブサイトの正確さ | 0.69 | / | / | 0.87 |
| normalizerレイテンシ(s/tx) | 4.45 | / | / | 0.01 |
*:ラベルの類似性は、埋め込み距離を使用して精度よりも滑らかなメトリックを与える近似メトリックです(例:2の同様のラベルは1に近いスコアを持ち、2つの非常に異なる意味的にスコアは0に近いスコアになります)。詳細は、 tests/integration/test_openai::test_label_similarity_scoreで見ることができます。
評価されたモデルの中で、Ntropyは精度と潜時の観点から最高のメトリックを示しています。この優位性は、Web検索エンジンへのアクセスや内部マーチャントデータベースなど、いくつかの要因に起因する可能性があります。さらに、Ntropyの内部モデルは、財務タスクのために特別に微調整されており、正確なラベルを取得するための有効性に貢献しています。
llamaモデルが消費者取引で微調整されている場合、商人に関する外部情報にアクセスしなくても、GPT-4(7ポイント)と比較してより高い精度を達成することに気付きました。これは、LLMのモデルが企業に関するかなりの量の知識を持っていることを示唆していますが、この知識を直接測定することは困難な場合があります。さらに、クリーン化された会社名とWebサイトを取得することは、これらのモデルにとってより困難であると思われます。
このデータセットに基づいて、GPT-4には一見正しいと思われるが、実際には存在しないWebサイトを生成する機能があることに注意するのは「興味深い」ことです。例えば:
注:Llamaモデルは、単一のA100 GPUでベンチマークされていました。
(トップに戻る)
このプロジェクトでは、Python> = 3.10を使用しています
詩またはPIPを使用してインストールできるPythonパッケージ:
poetry install
poetry shell
pip install .
実行するモデルに応じて、少なくとも1つのモデルが必要です(またはすべてのベンチマークを実行するためにすべて):
Ntropy APIを使用するには、APIキーが必要です。
enrichment_models/__init__.py注:無料アカウントを使用して、10 000トランザクションの制限があります。もっと必要な場合は、お問い合わせください。
OpenAIモデルを使用するには、APIキーが必要です。
enrichment_models/__init__.pyLlamaアダプターはオープンソースであり、Huggingfaceハブから使用できます。モデルには2つのバリアント(7b Params&13b Params、16bits)があり、次のURLで見つけることができます。
注:Llamaモデルを実行するには、最小32GBのRAMが必要です(十分なVRAMを使用してGPUにアクセスできる場合は優れています)
(トップに戻る)
完全なベンチマークを実行したい場合、 enrichment_models/__init__.pyでAPIキーをセットアップした後、実行できます。
make benchmark
または
python scripts/full_benchmark.py
これにより、ターミナルに結果が印刷され、 datasets/フォルダーにメトリックと予測をダンプします。
これらのモデルのいずれかを統合する場合は、 notebooks/フォルダーでノートブックの例を撮ることができます。
また、NtropyのAPIを統合したい場合は、ドキュメントをご覧ください。
モデルごとに1つのノートブック(Ntropy、Openai、Llama)があります。
ベンチマークテーブルに追加するために、新しいモデル、APIなどを紹介するか、新しいモデル、APIなどを紹介するプルリクエストを歓迎し、感謝します。
(トップに戻る)
MITライセンスの下で配布されます。詳細については、 LICENSE参照してください。
(トップに戻る)
主なプロジェクトの依存関係:
(トップに戻る)