Kami membandingkan API Ntropy dan satu set LLM dalam tugas mengekstraksi bidang -bidang berikut: label, pedagang, dan situs web.
API Ntropy dibandingkan dengan:
Dataset yang digunakan dapat ditemukan di sini: /datasets/100_labeled_consumer_transactions.csv . Semua prediksi dapat ditemukan di sini: /datasets/benchmark_predictions.csv . Ini terdiri dari subset acak dari 100 transaksi konsumen yang dianonimkan. Daftar label lengkap dapat ditemukan di sini.
| GPT 4 | Llama finetuned 7b | Llama finetuned 13b | API Ntropy | |
|---|---|---|---|---|
| Akurasi pelabelan | 0.71 | 0.72 | 0.78 | 0.86 |
| Skor Labeler F1 | 0.64 | 0,56 | 0.65 | 0.73 |
| Kesamaan Label Labeler * | 0.85 | 0.82 | 0.87 | 0.91 |
| Latensi labeler (s/tx) | 1.47 | 0.27 | 0.34 | 0,01 |
| Akurasi pedagang | 0.66 | / | / | 0.87 |
| Akurasi situs web | 0.69 | / | / | 0.87 |
| Latensi Normalizer (S/TX) | 4.45 | / | / | 0,01 |
*: Kesamaan label adalah metrik perkiraan yang menggunakan jarak embeddings untuk memberikan metrik yang lebih halus dari akurasi (mis: 2 label serupa akan memiliki skor mendekati 1 sementara 2 yang sangat berbeda secara semantik akan memiliki skor mendekati 0). Anda dapat melihat detail lebih lanjut dalam tests/integration/test_openai::test_label_similarity_score .
Di antara model yang dievaluasi, Ntropy menunjukkan metrik terbaik dalam hal akurasi dan latensi. Keunggulan ini dapat dikaitkan dengan beberapa faktor, termasuk aksesnya ke mesin pencari web dan database pedagang internal. Selain itu, model internal Ntropy telah disesuaikan secara khusus untuk tugas keuangan, berkontribusi pada keefektifannya untuk mendapatkan label yang akurat.
Kami memperhatikan bahwa ketika model LLAMA disesuaikan dengan transaksi konsumen, bahkan tanpa memiliki akses ke informasi eksternal tentang pedagang, ia mencapai akurasi yang lebih tinggi dibandingkan dengan GPT-4 (dengan 7 poin). Ini menunjukkan bahwa model LLM memiliki sejumlah besar pengetahuan tentang perusahaan, meskipun mengukur pengetahuan ini secara langsung dapat menjadi tantangan. Selain itu, mengambil nama dan situs web perusahaan yang dibersihkan tampaknya lebih sulit untuk model -model ini.
Berdasarkan dataset ini, 'menarik' untuk dicatat bahwa GPT-4 memiliki kemampuan untuk menghasilkan situs web yang tampaknya benar pada pandangan pertama tetapi, pada kenyataannya, tidak ada. Misalnya:
Catatan: Model Llama dibandingkan dengan GPU A100 tunggal.
(kembali ke atas)
Proyek ini menggunakan Python> = 3.10
Paket Python yang dapat diinstal baik menggunakan puisi atau pip:
poetry install
poetry shell
pip install .
Tergantung pada model mana yang ingin Anda jalankan, Anda membutuhkan setidaknya satu dari yang berikut (atau semua untuk menjalankan tolok ukur lengkap):
Untuk menggunakan API Ntropy, Anda memerlukan kunci API:
enrichment_models/__init__.pyCatatan: Anda akan mendapatkan batas 10.000 transaksi dengan akun gratis. Jika Anda membutuhkan lebih banyak, silakan hubungi kami.
Untuk menggunakan model OpenAI, Anda akan memerlukan kunci API:
enrichment_models/__init__.pyAdaptor Llama bersumber terbuka dan dapat digunakan dari hub Huggingface. Model memiliki 2 varian (7b params & 13b params, 16bits) dan dapat ditemukan di URL berikut:
Catatan: Minimum 32GB RAM diperlukan untuk menjalankan model LLAMA (lebih baik jika Anda memiliki akses ke beberapa GPU dengan VRAM yang cukup)
(kembali ke atas)
Jika Anda ingin menjalankan tolok ukur lengkap, setelah menyiapkan API Key di enrichment_models/__init__.py , Anda bisa menjalankan:
make benchmark
Atau
python scripts/full_benchmark.py
Ini akan mencetak hasil di terminal serta dumping metrik dan prediksi dalam datasets/ folder.
Jika Anda ingin mengintegrasikan salah satu model ini, Anda dapat mengambil contoh pada buku catatan, di notebooks/ folder.
Juga, jika Anda ingin mengintegrasikan API Ntropy, Anda mungkin ingin melihat dokumentasi
Ada satu buku catatan per model (Ntropy, OpenAi dan Llama).
Kami menyambut dan menghargai permintaan tarik apa pun yang menyarankan peningkatan atau memperkenalkan model baru, API, dan sebagainya untuk ditambahkan ke tabel benchmark.
(kembali ke atas)
Didistribusikan di bawah lisensi MIT. Lihat LICENSE untuk informasi lebih lanjut.
(kembali ke atas)
Ketergantungan Proyek Utama:
(kembali ke atas)