우리는 다음 분야를 추출하는 작업에서 Ntropy의 API와 LLMS 세트를 벤치마킹했습니다 : 레이블, 판매자 및 웹 사이트.
Ntropy의 API는 다음과 비교됩니다.
사용 된 데이터 세트는 여기에서 찾을 수 있습니다 : /datasets/100_labeled_consumer_transactions.csv . 모든 예측은 여기에서 찾을 수 있습니다 : /datasets/benchmark_predictions.csv . 100 개의 익명화 된 소비자 거래의 무작위 하위 집합으로 구성됩니다. 전체 라벨 목록은 여기에서 찾을 수 있습니다.
| GPT 4 | Llama Finetuned 7b | Llama Finetuned 13b | Ntropy API | |
|---|---|---|---|---|
| 라벨러 정확도 | 0.71 | 0.72 | 0.78 | 0.86 |
| 라벨러 F1 점수 | 0.64 | 0.56 | 0.65 | 0.73 |
| 라벨러 레이블 유사성 * | 0.85 | 0.82 | 0.87 | 0.91 |
| 라벨러 대기 시간 (S/TX) | 1.47 | 0.27 | 0.34 | 0.01 |
| 가맹점 정확도 | 0.66 | / | / | 0.87 |
| 웹 사이트 정확도 | 0.69 | / | / | 0.87 |
| 정상화 대기 시간 (S/TX) | 4.45 | / | / | 0.01 |
*: 라벨 유사성은 정확도보다 매끄러운 메트릭을 제공하기 위해 임베딩 거리를 사용하는 대략적인 메트릭입니다 (예 : 2 개의 유사한 레이블은 1에 가까운 점수를 얻는 반면, 매우 다른 2 개는 의미 적으로 0에 가까운 점수를 갖습니다). tests/integration/test_openai::test_label_similarity_score 에서 자세한 내용을 볼 수 있습니다.
평가 된 모델 중에서 NTROPY는 정확도와 대기 시간 측면에서 최상의 지표를 보여줍니다. 이러한 우수성은 웹 검색 엔진 및 내부 판매자 데이터베이스에 대한 액세스를 포함한 여러 요소에 기인 할 수 있습니다. 또한 NTROPY의 내부 모델은 재무 작업을 위해 특별히 조정되어 정확한 레이블을 얻는 효과에 기여했습니다.
우리는 가맹점에 대한 외부 정보에 액세스 할 수없는 경우에도 LLAMA 모델이 소비자 거래에 미세 조정 될 때 GPT-4 (7 점)에 비해 정확도가 높아진다는 것을 알았습니다. 이는 LLM의 모델이 회사에 대한 상당한 양의 지식을 가지고 있음을 시사합니다. 그러나이 지식을 직접 측정하는 것은 어려울 수 있습니다. 또한 청소 된 회사 이름과 웹 사이트를 검색하는 것은 이러한 모델에서 더 어려운 것으로 보입니다.
이 데이터 세트를 기반으로 GPT-4는 언뜻보기에는 올바른 것으로 보이지만 실제로는 존재하지 않는 웹 사이트를 생성 할 수 있다는 점에 주목하는 것이 흥미 롭습니다. 예를 들어:
참고 : LLAMA 모델은 단일 A100 GPU에서 벤치마킹되었습니다.
(뒤로 맨 위로)
이 프로젝트는 Python> = 3.10을 사용합니다
시 또는 PIP를 사용하여 설치할 수있는 파이썬 패키지 :
poetry install
poetry shell
pip install .
실행하려는 모델에 따라 다음 중 하나 이상 (또는 전체 벤치 마크를 실행하기위한 모든 것)이 필요합니다.
Ntropy API를 사용하려면 API 키가 필요합니다.
enrichment_models/__init__.py참고 : 무료 계정으로 10,000 번의 트랜잭션이 제한됩니다. 더 필요한 경우 저희에게 연락하십시오.
OpenAI 모델을 사용하려면 API 키가 필요합니다.
enrichment_models/__init__.py라마 어댑터는 오픈 소스이며 Huggingface 허브에서 사용할 수 있습니다. 모델에는 2 개의 변형 (7B 매개 변수 및 13B 매개 변수, 16Bits)이 있으며 다음 URL에서 찾을 수 있습니다.
참고 : LLAMA 모델을 실행하려면 최소 32GB RAM이 필요합니다 (충분한 VRAM을 가진 GPU에 액세스 할 수있는 경우 더 좋습니다).
(뒤로 맨 위로)
전체 벤치 마크를 실행하려면 enrichment_models/__init__.py 에 API 키를 설정 한 후 다음을 실행할 수 있습니다.
make benchmark
또는
python scripts/full_benchmark.py
이렇게하면 터미널에 결과가 인쇄되고 datasets/ 폴더에 메트릭 및 예측을 덤프합니다.
이 모델 중 하나를 통합하려면 notebooks/ 폴더에서 노트북에서 예제를 가져갈 수 있습니다.
또한 Ntropy의 API를 통합하려면 문서를 살펴 보겠습니다.
모델 당 하나의 노트가 있습니다 (Ntropy, OpenAi 및 Llama).
우리는 새로운 모델, API 등을 제안하거나 벤치 마크 테이블에 추가하기 위해 개선 사항을 제안하거나 소개하는 풀 요청을 환영하고 감사합니다.
(뒤로 맨 위로)
MIT 라이센스에 따라 배포됩니다. 자세한 내용은 LICENSE 참조하십시오.
(뒤로 맨 위로)
주요 프로젝트 종속성 :
(뒤로 맨 위로)