bocoel
1.0.0
大型語言模型是昂貴且龐然大物的,並且在巨大的現代數據集上對其進行評估只會使情況變得更糟。
如果只有一種方法可以選擇一個有意義的(且小)的子集並獲得高度準確的評估.....
等等,聽起來像貝葉斯優化!
Bocoel在以下步驟中工作:
所產生的評估很容易由提供的經理實用程序管理。
據我們所知,這是旨在通過(可能是動態的)預算在評估(基準測試)期間降低計算成本的第一項工作。
GPT2 , Pythia , LLAMA等喜歡你看到的?請考慮給這個星星(★)!
簡而言之,貝葉斯優化旨在優化勘探目標(圖像中的紫色區域)或剝削對象(黑點的高度)。它使用高斯進程作為推理的骨幹,並使用採集功能來決定接下來在哪裡採樣。請參閱此處,以獲取更深入的介紹。
由於貝葉斯優化與昂貴評估的黑盒型號(釋義:LLM)非常有效,因此非常適合這種特殊用例。 Bocoel使用貝葉斯優化作為骨幹,用於探索我們的語料庫給出的嵌入空間,這使其可以選擇一個充當語料庫迷你快照的好子集。
LLM痛苦慢,尤其是生成型(通常稱為LLM),因為序列產生本質上是順序的。
儘管bocoel要求使用嵌入器編碼整個語料庫,但通過數量級,嵌入式比LLM的速度快,並且通過評估LLM的任何節省的時間來恢復時間。
我不想可選依賴性:
pip install bocoel
給我完整的經驗(所有可選依賴性):
pip install "bocoel[all]"
請參閱文件夾示例/get_started,以簡化庫的用法,以使用幾行代碼開始。
用法示例在文件夾examples下。 API參考可以在此處找到。
貢獻者想要!不要害羞。隨時提交問題和PR。對於PR,請遵循有關貢獻和行為準則的指南。開放性和包容性非常重視。
該代碼可根據BSD-3許可獲得。
如果您發現此項目有助於您的研究,請在
@misc{bocoel2024,
title = {BoCoEL: Bayesian Optimization as a Coverage Tool for Evaluating Large Language Models},
url = {https://bocoel.rentruewang.com/research/},
author = {Wang, RenChu},
month = {January},
year = {2024}
}