เราเปรียบเทียบ API ของ Ntropy และชุด LLM ในงานที่แยกฟิลด์ต่อไปนี้: ฉลากผู้ค้าและเว็บไซต์
API ของ Ntropy ถูกเปรียบเทียบกับ:
ชุดข้อมูลที่ใช้สามารถพบได้ที่นี่: /datasets/100_labeled_consumer_transactions.csv การคาดการณ์ทั้งหมดสามารถดูได้ที่นี่: /datasets/benchmark_predictions.csv ประกอบด้วยชุดย่อยสุ่มของการทำธุรกรรมผู้บริโภคที่ไม่ระบุชื่อ 100 รายการ รายการฉลากเต็มสามารถพบได้ที่นี่
| GPT 4 | llama finetuned 7b | llama finetuned 13b | ntropy api | |
|---|---|---|---|---|
| ความแม่นยำของฉลาก | 0.71 | 0.72 | 0.78 | 0.86 |
| คะแนนฉลาก F1 | 0.64 | 0.56 | 0.65 | 0.73 |
| ป้ายกำกับฉลากความคล้ายคลึงกัน * | 0.85 | 0.82 | 0.87 | 0.91 |
| LABLEATER LATENCY (S/TX) | 1.47 | 0.27 | 0.34 | 0.01 |
| ความแม่นยำของพ่อค้า | 0.66 | - | - | 0.87 |
| ความแม่นยำของเว็บไซต์ | 0.69 | - | - | 0.87 |
| Latency Normalizer (S/TX) | 4.45 | - | - | 0.01 |
*: ความคล้ายคลึงกันของฉลากเป็นตัวชี้วัดโดยประมาณที่ใช้ระยะทางฝังตัวเพื่อให้ตัวชี้วัดที่ราบรื่นกว่าความแม่นยำ (เช่น: 2 ป้ายที่คล้ายกันจะมีคะแนนใกล้เคียงกับ 1 ในขณะที่ 2 ความหมายที่แตกต่างกันมากจะมีคะแนนใกล้เคียงกับ 0) คุณสามารถดูรายละเอียดเพิ่มเติมใน tests/integration/test_openai::test_label_similarity_score
ในบรรดาแบบจำลองที่ประเมิน NTropy แสดงให้เห็นถึงตัวชี้วัดที่ดีที่สุดในแง่ของความแม่นยำและเวลาแฝง ความเหนือกว่านี้สามารถนำมาประกอบกับปัจจัยหลายประการรวมถึงการเข้าถึงเครื่องมือค้นหาเว็บและฐานข้อมูลผู้ค้าภายใน ยิ่งไปกว่านั้นโมเดลภายในของ NTropy ได้รับการปรับแต่งโดยเฉพาะสำหรับงานทางการเงินซึ่งมีส่วนทำให้ประสิทธิภาพของพวกเขาในการรับฉลากที่ถูกต้อง
เราสังเกตเห็นว่าเมื่อโมเดล Llama ได้รับการปรับแต่งเกี่ยวกับการทำธุรกรรมของผู้บริโภคแม้ว่าจะไม่สามารถเข้าถึงข้อมูลภายนอกเกี่ยวกับพ่อค้าได้ก็จะมีความแม่นยำสูงกว่าเมื่อเทียบกับ GPT-4 (โดย 7 คะแนน) สิ่งนี้ชี้ให้เห็นว่าแบบจำลองของ LLM มีความรู้มากมายเกี่ยวกับ บริษัท แม้ว่าการวัดความรู้นี้อาจเป็นเรื่องท้าทายโดยตรง นอกจากนี้การดึงชื่อ บริษัท และเว็บไซต์ที่ทำความสะอาดดูเหมือนจะยากขึ้นสำหรับรุ่นเหล่านี้
จากชุดข้อมูลนี้มันเป็น 'น่าสนใจ' ที่จะทราบว่า GPT-4 มีความสามารถในการสร้างเว็บไซต์ที่ดูเหมือนจะถูกต้องในครั้งแรก แต่ในความเป็นจริงไม่มีอยู่ ตัวอย่างเช่น:
หมายเหตุ: นางแบบ Llama ถูกเปรียบเทียบกับ A100 GPU เดียว
(กลับไปด้านบน)
โครงการนี้ใช้ Python> = 3.10
แพ็คเกจ Python ที่สามารถติดตั้งได้ทั้งโดยใช้บทกวีหรือ PIP:
poetry install
poetry shell
pip install .
ขึ้นอยู่กับรุ่นที่คุณต้องการเรียกใช้คุณต้องมีอย่างน้อยหนึ่งในต่อไปนี้ (หรือทั้งหมดสำหรับการใช้งานมาตรฐานเต็มรูปแบบ):
สำหรับการใช้ NTROPY API คุณต้องใช้คีย์ API:
enrichment_models/__init__.pyหมายเหตุ: คุณจะได้รับการทำธุรกรรม 10,000 รายการด้วยบัญชีฟรี หากคุณต้องการเพิ่มเติมโปรดติดต่อเรา
สำหรับการใช้โมเดล OpenAI คุณจะต้องมีคีย์ API:
enrichment_models/__init__.pyอะแดปเตอร์ Llama นั้นมีแหล่งเปิดและสามารถใช้งานได้จาก HuggingFace Hub โมเดลมี 2 ตัวแปร (พารามิเตอร์ 7b & 13b พารามิเตอร์ 16BITS) และสามารถพบได้ที่ URL ต่อไปนี้:
หมายเหตุ: จำเป็นต้องใช้ RAM ขั้นต่ำ 32GB เพื่อเรียกใช้รุ่น Llama (ดีกว่าถ้าคุณสามารถเข้าถึง GPU บางตัวที่มี VRAM เพียงพอ)
(กลับไปด้านบน)
หากคุณต้องการเรียกใช้เกณฑ์มาตรฐานเต็มหลังจากตั้งค่า API Key's ใน enrichment_models/__init__.py คุณสามารถเรียกใช้:
make benchmark
หรือ
python scripts/full_benchmark.py
สิ่งนี้จะพิมพ์ผลลัพธ์บนเทอร์มินัลเช่นเดียวกับการทิ้งการวัดและการคาดการณ์ใน datasets/ โฟลเดอร์
หากคุณต้องการรวมหนึ่งในโมเดลเหล่านี้คุณสามารถยกตัวอย่างในสมุดบันทึกใน notebooks/ โฟลเดอร์
นอกจากนี้หากคุณต้องการรวม API ของ Ntropy คุณอาจต้องการดูเอกสารประกอบ
มีหนึ่งโน้ตบุ๊กต่อรุ่น (Ntropy, Openai และ Llama)
เรายินดีต้อนรับและชื่นชมคำขอดึงใด ๆ ที่แนะนำการปรับปรุงหรือแนะนำรุ่นใหม่ APIs และอื่น ๆ เพื่อเพิ่มลงในตารางมาตรฐาน
(กลับไปด้านบน)
แจกจ่ายภายใต้ใบอนุญาต MIT ดู LICENSE สำหรับข้อมูลเพิ่มเติม
(กลับไปด้านบน)
การพึ่งพาโครงการหลัก:
(กลับไปด้านบน)