ดาวน์โหลด enrichment_models - enrichment_models ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

enrichment_models

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

เกณฑ์มาตรฐานการทำธุรกรรมทางการเงิน

พื้นที่เก็บข้อมูลนี้ให้เกณฑ์มาตรฐานของ NTROPY API และโมเดลภาษาขนาดใหญ่ที่แตกต่างกัน (OpenAI ChatGPT และ LLAMA FINETUNED รุ่น) ในงานเสริมการทำธุรกรรม นอกจากนี้ยังมี wrapper ที่ใช้งานง่ายซึ่งช่วยให้การใช้ LLMS เพื่อทำการตกแต่งการทำธุรกรรม อะแดปเตอร์ Llama นั้นมีแหล่งที่มาเปิดและมีอยู่ใน HuggingFace Hub

สารบัญ

เกณฑ์มาตรฐาน
การติดตั้ง
การใช้งาน
การบริจาค
ใบอนุญาต
ติดต่อ
แหล่งที่มา

เกณฑ์มาตรฐาน

เราเปรียบเทียบ API ของ Ntropy และชุด LLM ในงานที่แยกฟิลด์ต่อไปนี้: ฉลากผู้ค้าและเว็บไซต์

API ของ Ntropy ถูกเปรียบเทียบกับ:

LLM ของ Openai (GPT-4) โดยใช้พรอมต์ตรงไปตรงมา
รุ่น Llama Finetuned (พารามิเตอร์ 7B & 13B) ในข้อมูลการทำธุรกรรมของผู้บริโภคด้วยอะแดปเตอร์ LORA

ชุดข้อมูลที่ใช้สามารถพบได้ที่นี่: /datasets/100_labeled_consumer_transactions.csv การคาดการณ์ทั้งหมดสามารถดูได้ที่นี่: /datasets/benchmark_predictions.csv ประกอบด้วยชุดย่อยสุ่มของการทำธุรกรรมผู้บริโภคที่ไม่ระบุชื่อ 100 รายการ รายการฉลากเต็มสามารถพบได้ที่นี่

	GPT 4	llama finetuned 7b	llama finetuned 13b	ntropy api
ความแม่นยำของฉลาก	0.71	0.72	0.78	0.86
คะแนนฉลาก F1	0.64	0.56	0.65	0.73
ป้ายกำกับฉลากความคล้ายคลึงกัน *	0.85	0.82	0.87	0.91
LABLEATER LATENCY (S/TX)	1.47	0.27	0.34	0.01

ความแม่นยำของพ่อค้า	0.66	-	-	0.87
ความแม่นยำของเว็บไซต์	0.69	-	-	0.87
Latency Normalizer (S/TX)	4.45	-	-	0.01

*: ความคล้ายคลึงกันของฉลากเป็นตัวชี้วัดโดยประมาณที่ใช้ระยะทางฝังตัวเพื่อให้ตัวชี้วัดที่ราบรื่นกว่าความแม่นยำ (เช่น: 2 ป้ายที่คล้ายกันจะมีคะแนนใกล้เคียงกับ 1 ในขณะที่ 2 ความหมายที่แตกต่างกันมากจะมีคะแนนใกล้เคียงกับ 0) คุณสามารถดูรายละเอียดเพิ่มเติมใน tests/integration/test_openai::test_label_similarity_score

ในบรรดาแบบจำลองที่ประเมิน NTropy แสดงให้เห็นถึงตัวชี้วัดที่ดีที่สุดในแง่ของความแม่นยำและเวลาแฝง ความเหนือกว่านี้สามารถนำมาประกอบกับปัจจัยหลายประการรวมถึงการเข้าถึงเครื่องมือค้นหาเว็บและฐานข้อมูลผู้ค้าภายใน ยิ่งไปกว่านั้นโมเดลภายในของ NTropy ได้รับการปรับแต่งโดยเฉพาะสำหรับงานทางการเงินซึ่งมีส่วนทำให้ประสิทธิภาพของพวกเขาในการรับฉลากที่ถูกต้อง

เราสังเกตเห็นว่าเมื่อโมเดล Llama ได้รับการปรับแต่งเกี่ยวกับการทำธุรกรรมของผู้บริโภคแม้ว่าจะไม่สามารถเข้าถึงข้อมูลภายนอกเกี่ยวกับพ่อค้าได้ก็จะมีความแม่นยำสูงกว่าเมื่อเทียบกับ GPT-4 (โดย 7 คะแนน) สิ่งนี้ชี้ให้เห็นว่าแบบจำลองของ LLM มีความรู้มากมายเกี่ยวกับ บริษัท แม้ว่าการวัดความรู้นี้อาจเป็นเรื่องท้าทายโดยตรง นอกจากนี้การดึงชื่อ บริษัท และเว็บไซต์ที่ทำความสะอาดดูเหมือนจะยากขึ้นสำหรับรุ่นเหล่านี้

จากชุดข้อมูลนี้มันเป็น 'น่าสนใจ' ที่จะทราบว่า GPT-4 มีความสามารถในการสร้างเว็บไซต์ที่ดูเหมือนจะถูกต้องในครั้งแรก แต่ในความเป็นจริงไม่มีอยู่ ตัวอย่างเช่น:

kwikcash => http://www.kwikcash.com/ (แทนที่จะเป็น https://www.kwikcashonline.com/)
pump--n-shop ของ Clark => https://pumpnshop.com/ (แทนที่จะเป็น https://www.myclarkspns.com/)
-

หมายเหตุ: นางแบบ Llama ถูกเปรียบเทียบกับ A100 GPU เดียว

(กลับไปด้านบน)

การติดตั้ง

โครงการนี้ใช้ Python> = 3.10

แพ็คเกจ Python ที่สามารถติดตั้งได้ทั้งโดยใช้บทกวีหรือ PIP:

บทกวี:

 poetry install
poetry shell

PIP:

 pip install .

ขึ้นอยู่กับรุ่นที่คุณต้องการเรียกใช้คุณต้องมีอย่างน้อยหนึ่งในต่อไปนี้ (หรือทั้งหมดสำหรับการใช้งานมาตรฐานเต็มรูปแบบ):

คีย์ ntropy API

สำหรับการใช้ NTROPY API คุณต้องใช้คีย์ API:

ไปที่ https://dashboard.ntropy.com/
สร้างบัญชี (คุณสามารถเข้าสู่ระบบด้วยบัญชี Google แต่คุณต้องใช้โดเมน บริษัท )
ในเมนูด้านซ้ายคุณสามารถคลิกที่ "API Keys" จากนั้นคลิกที่ "สร้างคีย์ API"
คัดลอกคีย์ API และวางไว้ที่นี่: enrichment_models/__init__.py

หมายเหตุ: คุณจะได้รับการทำธุรกรรม 10,000 รายการด้วยบัญชีฟรี หากคุณต้องการเพิ่มเติมโปรดติดต่อเรา

คีย์ Openai API

สำหรับการใช้โมเดล OpenAI คุณจะต้องมีคีย์ API:

ไปที่ https://platform.openai.com/
สร้างบัญชี
บนเมนูแบบเลื่อนลงคลิกที่ "มุมมอง API Keys"
จากนั้น "สร้างคีย์ลับใหม่"
คัดลอกคีย์ API และวางไว้ที่นี่: enrichment_models/__init__.py

ข้อกำหนดของลามา

อะแดปเตอร์ Llama นั้นมีแหล่งเปิดและสามารถใช้งานได้จาก HuggingFace Hub โมเดลมี 2 ตัวแปร (พารามิเตอร์ 7b & 13b พารามิเตอร์ 16BITS) และสามารถพบได้ที่ URL ต่อไปนี้: