bocoel
1.0.0
大型语言模型是昂贵且庞然大物的,并且在巨大的现代数据集上对其进行评估只会使情况变得更糟。
如果只有一种方法可以选择一个有意义的(且小)的子集并获得高度准确的评估.....
等等,听起来像贝叶斯优化!
Bocoel在以下步骤中工作:
所产生的评估很容易由提供的经理实用程序管理。
据我们所知,这是旨在通过(可能是动态的)预算在评估(基准测试)期间降低计算成本的第一项工作。
GPT2 , Pythia , LLAMA等喜欢你看到的?请考虑给这个星星(★)!
简而言之,贝叶斯优化旨在优化勘探目标(图像中的紫色区域)或剥削对象(黑点的高度)。它使用高斯进程作为推理的骨干,并使用采集功能来决定接下来在哪里采样。请参阅此处,以获取更深入的介绍。
由于贝叶斯优化与昂贵评估的黑盒型号(释义:LLM)非常有效,因此非常适合这种特殊用例。 Bocoel使用贝叶斯优化作为骨干,用于探索我们的语料库给出的嵌入空间,这使其可以选择一个充当语料库迷你快照的好子集。
LLM痛苦慢,尤其是生成型(通常称为LLM),因为序列产生本质上是顺序的。
尽管bocoel要求使用嵌入器编码整个语料库,但通过数量级,嵌入式比LLM的速度快,并且通过评估LLM的任何节省的时间来恢复时间。
我不想可选依赖性:
pip install bocoel
给我完整的经验(所有可选依赖性):
pip install "bocoel[all]"
请参阅文件夹示例/get_started,以简化库的用法,以使用几行代码开始。
用法示例在文件夹examples下。 API参考可以在此处找到。
贡献者想要!不要害羞。随时提交问题和PR。对于PR,请遵循有关贡献和行为准则的指南。开放性和包容性非常重视。
该代码可根据BSD-3许可获得。
如果您发现此项目有助于您的研究,请在
@misc{bocoel2024,
title = {BoCoEL: Bayesian Optimization as a Coverage Tool for Evaluating Large Language Models},
url = {https://bocoel.rentruewang.com/research/},
author = {Wang, RenChu},
month = {January},
year = {2024}
}