대형 언어 모델은 비싸고 느린 거대이며 거대한 현대 데이터 세트에서 평가하면 악화됩니다.
코퍼스의 의미 있고 작은 하위 집합을 선택하고 매우 정확한 평가를 얻는 방법 만 있으면 .....
잠깐, 베이지안 최적화처럼 들립니다!
Bocoel은 다음 단계에서 작동합니다.
생성 된 평가는 제공된 관리자 유틸리티에 의해 쉽게 관리됩니다.
우리가 아는 한, 이것은 (아마도 동적) 예산으로 평가 중 (벤치마킹) 동안 계산 비용을 줄이기위한 첫 번째 작업입니다.
GPT2 , Pythia , LLAMA 등을 지원합니다.당신이 보는 것처럼? 이 스타를주는 것을 고려하십시오 (★)!
간단히 말해, 베이지안 최적화는 탐사 목표 (이미지의 보라색 영역) 또는 악용 객체 (검은 점의 높이)를 최적화하는 것을 목표로합니다. 가우스 프로세스를 추론의 백본으로 사용하고 획득 기능을 사용하여 다음에 샘플링 할 위치를 결정합니다. 보다 심층적 인 소개는 여기를 참조하십시오.
베이지안 최적화는 고가의 평가 블랙 박스 모델 (Paraphrase : LLM)과 잘 어울리 므로이 특정 사용 사례에 적합합니다. Bocoel은 베이지안 최적화를 코퍼스가 제공하는 임베딩 공간을 탐색하기위한 백본으로 사용하여 코퍼스의 미니 스냅 샷 역할을하는 좋은 서브 세트를 선택할 수 있습니다.
LLM은 시퀀스 생성이 본질적으로 순차적이기 때문에 특히 생성 된 생성 (일반적으로 LLM이라고 함)은 고통스럽게 느립니다.
bocoel 의 전체 코퍼스를 인코딩하기 위해 임베더를 사용하라는 요구 사항에도 불구하고, 임베더는 LLM보다 빠르며 LLM을 평가할 때 실제로 절약에 의해 시간이 되돌아갑니다.
선택적 종속성을 원하지 않습니다.
pip install bocoel
완전한 경험 (모든 선택적 종속성)을 알려주십시오.
pip install "bocoel[all]"
몇 줄의 코드로 시작하기 위해 라이브러리의 단순한 사용법에 대해서는 폴더 예제/gettartsed를 참조하십시오.
사용 예제는 폴더 examples 아래에 있습니다. API 참조는 여기에서 찾을 수 있습니다.
기고자들은 원했습니다! 부끄러워하지 마십시오. 문제와 PR을 자유롭게 제출하십시오. PRS의 경우 기여 및 행동 강령에 대한 안내서를 따르십시오. 개방성과 포용성은 매우 심각하게 받아 들여집니다.
이 코드는 BSD-3 라이센스로 제공됩니다.
이 프로젝트가 연구에 도움이된다면이 작업을 인용하십시오.
@misc{bocoel2024,
title = {BoCoEL: Bayesian Optimization as a Coverage Tool for Evaluating Large Language Models},
url = {https://bocoel.rentruewang.com/research/},
author = {Wang, RenChu},
month = {January},
year = {2024}
}