Benchmaramos la API de NTROPY y un conjunto de LLM en la tarea de extraer los siguientes campos: etiqueta, comerciante y sitio web.
La API de NTROPY se compara con:
The dataset used can be found here: /datasets/100_labeled_consumer_transactions.csv . All predictions can be found here: /datasets/benchmark_predictions.csv . Consiste en un subconjunto aleatorio de 100 transacciones de consumo anonimizadas. La lista completa de etiquetas se puede encontrar aquí.
| GPT 4 | Llama Finetuned 7b | Llama Finetuned 13B | API NTROPY | |
|---|---|---|---|---|
| Precisión del etiquetador | 0.71 | 0.72 | 0.78 | 0.86 |
| Puntuación de Labeler F1 | 0.64 | 0.56 | 0.65 | 0.73 |
| Similitud de etiqueta de etiqueta * | 0.85 | 0.82 | 0.87 | 0.91 |
| Lateper Latency (S/TX) | 1.47 | 0.27 | 0.34 | 0.01 |
| Precisión del comerciante | 0.66 | / | / | 0.87 |
| Precisión del sitio web | 0.69 | / | / | 0.87 |
| Latencia normalizador (S/TX) | 4.45 | / | / | 0.01 |
*: La similitud de la etiqueta es una métrica aproximada que utiliza la distancia de incrustaciones para dar una métrica más suave que la precisión (Ej: 2 etiquetas similares tendrán una puntuación cercana a 1, mientras que 2 muy diferente semánticamente tendrá una puntuación cercana a 0). You can see more details in tests/integration/test_openai::test_label_similarity_score .
Entre los modelos evaluados, NTROPY demuestra las mejores métricas en términos de precisión y latencia. Esta superioridad se puede atribuir a varios factores, incluido su acceso a motores de búsqueda web y bases de datos comerciales internas. Además, los modelos internos de NTROPY se han ajustado específicamente para tareas financieras, lo que contribuye a su efectividad para obtener etiquetas precisas.
Notamos que cuando un modelo de llama está ajustado en las transacciones del consumidor, incluso sin tener acceso a información externa sobre comerciantes, logra una mayor precisión en comparación con GPT-4 (por 7 puntos). Esto sugiere que los modelos de LLM poseen una cantidad considerable de conocimiento sobre las empresas, a pesar de que medir este conocimiento directamente puede ser un desafío. Además, recuperar los nombres y sitios web de la empresa limpia parece ser más difícil para estos modelos.
Según este conjunto de datos, es "interesante" tener en cuenta que GPT-4 tiene la capacidad de generar sitios web que parecen ser correctos a primera vista pero, en realidad, no existen. Por ejemplo:
Nota: los modelos de llamas se compararon en una sola GPU A100.
(De vuelta a la cima)
Este proyecto usa Python> = 3.10
El paquete Python que se puede instalar con poesía o PIP:
poetry install
poetry shell
pip install .
Dependiendo del modelo que desee ejecutar, necesita al menos uno de los siguientes (o todo para ejecutar el punto de referencia completo):
Para usar la API NTROPY, necesita una clave API:
enrichment_models/__init__.pyNota: Obtendrá un límite de 10 000 transacciones con una cuenta gratuita. Si necesita más, contáctenos.
Para usar los modelos OpenAI, necesitará una tecla API:
enrichment_models/__init__.pyLos adaptadores de llamas son de origen abierto y se pueden usar desde el Hub Huggingface. Los modelos tienen 2 variantes (parámetros 7b y parámetros 13b, 16 bits) y se pueden encontrar en las siguientes URL:
Nota: Se necesitan 32 GB mínimos de RAM para ejecutar modelos de LLAMA (mejor si tiene acceso a algunas GPU con suficiente VRAM)
(De vuelta a la cima)
If you want to run the full benchmark, after setting up API KEY's in enrichment_models/__init__.py , you can just run:
make benchmark
O
python scripts/full_benchmark.py
This will print results on the terminal as well as dumping metrics and predictions in the datasets/ folder.
If you want to integrate one of these models, you can just take examples on the notebooks, in the notebooks/ folder.
Además, si desea integrar la API de Ntropy, es posible que desee echar un vistazo a la documentación
Hay un cuaderno por modelo (Ntropy, Openai y Llama).
Agradecemos y apreciamos cualquier solicitud de extracción que sugiera mejoras o presente nuevos modelos, API, etc. para agregar a la tabla de referencia.
(De vuelta a la cima)
Distribuido bajo la licencia MIT. See LICENSE for more information.
(De vuelta a la cima)
Dependencias principales del proyecto:
(De vuelta a la cima)