大規模な言語モデルは高価で遅い巨人であり、巨大な最新のデータセットでそれらを評価することはそれを悪化させるだけです。
コーパスの意味のある(そして小さな)サブセットを選択して、非常に正確な評価を取得する方法がある場合にのみ.....
待って、ベイジアンの最適化のように聞こえます!
Bocoelは次の手順で動作します。
生成された評価は、提供されたマネージャーユーティリティによって簡単に管理できます。
私たちの知る限り、これは(おそらく動的な)予算で評価(ベンチマーク)中の計算コストを削減することを目的とした最初の作業です。
GPT2 、 Pythia 、 LLAMAなどのサポートあなたが見るもののように?これを星(★)にすることを検討してください!
簡単に言えば、ベイジアンの最適化は、探索目標(画像の紫色の領域)または搾取オブジェクト(黒い点の高さ)のいずれかを最適化することを目的としています。ガウスプロセスを推論のためにバックボーンとして使用し、取得関数を使用して次にサンプリングする場所を決定します。より詳細な紹介については、こちらをご覧ください。
Bayesianの最適化は、高価なブラックボックスモデル(Paraphrase:LLM)でうまく機能するため、この特定のユースケースに最適です。 Bocoelは、コーパスから与えられた埋め込みスペースを探索するためのバックボーンとしてベイジアンの最適化を使用しています。これにより、コーパスのミニスナップショットとして機能する優れたサブセットを選択できます。
LLMは痛みを伴うほど遅く、特に生成的なもの(通常はLLMと呼ばれるものです)は、シーケンス生成は本質的に順次的であるためです。
bocoelが埋め込みを使用してコーパス全体をエンコードするという要件にもかかわらず、埋め込み剤はLLMよりも程度速く、LLMSの評価において実質的に節約することで時間が取り戻されます。
オプションの依存関係は必要ありません:
pip install bocoel
完全なエクスペリエンス(すべてのオプションの依存関係)をください:
pip install "bocoel[all]"
フォルダーの例を参照してください/GetS_Startedライブラリの単純な使用法については、ほんの数行のコードで始めるために開始します。
使用例はフォルダーのexamplesの下にあります。 APIリファレンスはこちらをご覧ください。
貢献者が欲しかった!恥ずかしがらないで。問題やPRをお気軽に提出してください。 PRSについては、貢献と行動規範に関するガイドに従ってください。開放性と包括性は非常に真剣に受け止められています。
このコードは、BSD-3ライセンスで利用できます。
このプロジェクトがあなたの研究で役立つと思うなら、この作業をで引用してください
@misc{bocoel2024,
title = {BoCoEL: Bayesian Optimization as a Coverage Tool for Evaluating Large Language Models},
url = {https://bocoel.rentruewang.com/research/},
author = {Wang, RenChu},
month = {January},
year = {2024}
}