Unduh bocoel - Unduh Kode Sumber bocoel

bocoel

Kode Sumber AI

1.0.0

Unduh

☂️ Bocoel

Optimalisasi Bayesian sebagai alat cakupan untuk mengevaluasi model bahasa besar

? Mengapa Bocoel?

Model bahasa besar mahal dan raksasa yang lambat, dan mengevaluasinya pada kumpulan data modern raksasa hanya membuatnya lebih buruk.

Kalau saja ada cara untuk hanya memilih subset yang bermakna ( dan kecil ) dari korpus dan mendapatkan evaluasi yang sangat akurat .....

Tunggu, terdengar seperti optimasi Bayesian!

Bocoel bekerja dalam langkah -langkah berikut:

Mengkodekan entri individu ke dalam embeddings (jauh lebih murah / lebih cepat dari llm dan dapat digunakan kembali).
Gunakan optimasi Bayesian untuk memilih kueri untuk dievaluasi.
Gunakan kueri untuk mengambil dari corpus kami (dengan embeddings yang dikodekan).
Laba.

Evaluasi yang dihasilkan mudah dikelola oleh utilitas manajer yang disediakan.

Sepengetahuan kami, ini adalah pekerjaan pertama yang bertujuan untuk mengurangi biaya perhitungan selama evaluasi (benchmarking) dengan anggaran (mungkin dinamis).

Fitur

Evaluasi model bahasa besar secara akurat dengan hanya puluhan sampel dari korpus yang Anda pilih.
? ‍♂️ Menggunakan kekuatan optimasi Bayesian untuk memilih subset sampel yang optimal untuk dievaluasi oleh model bahasa.
? Mengevaluasi corpus pada model selain mengevaluasi model pada corpus.
? Dukungan untuk GPT2 , Pythia , LLAMA dan Lainnya Melalui Integrasi dengan Transformator dan Dataset Huggingface
? Desain Modular.
? Representasi yang efisien dari corpus / dataset seperti representasi N-sphere atau pemutihan ruang laten untuk menambah kualitas evaluasi.

Beri kami bintang!

Seperti apa yang kamu lihat? Harap pertimbangkan untuk memberikan bintang ini (★)!

♾️ Optimalisasi Bayesian

Sederhananya, optimasi Bayesian bertujuan untuk mengoptimalkan tujuan eksplorasi (area ungu dalam gambar) atau objek eksploitasi (ketinggian titik -titik hitam). Ini menggunakan proses Gaussian sebagai tulang punggung untuk inferensi, dan menggunakan fungsi akuisisi untuk memutuskan di mana harus mencicipi selanjutnya. Lihat di sini untuk pengantar yang lebih mendalam.

Karena optimasi Bayesian bekerja dengan baik dengan model black-box yang mahal untuk dievaluasi (parafrase: LLM) , itu sempurna untuk kasus penggunaan khusus ini. Bocoel menggunakan optimasi Bayesian sebagai tulang punggung untuk menjelajahi ruang embedding yang diberikan oleh korpus kami, yang memungkinkannya untuk memilih subset yang baik yang bertindak sebagai snapshot mini dari korpus.

? ️ Implikasi kinerja

LLM sangat lambat, terutama yang generatif (yang biasanya disebut sebagai LLM), karena generasi urutan pada dasarnya berurutan.

Terlepas dari persyaratan bocoel untuk menggunakan embedder untuk menyandikan seluruh korpus, embedders lebih cepat dari LLMS dengan pesanan besarnya dan waktu diperoleh kembali dengan hampir setiap penghematan dalam mengevaluasi LLMS.

Instalasi

Saya tidak ingin dependensi opsional:

 pip install bocoel

Beri saya pengalaman penuh (semua dependensi opsional):

 pip install "bocoel[all]"

? Penggunaan

Lihat Contoh Folder/Geting_Started untuk penggunaan Perpustakaan yang sederhana untuk memulai dengan hanya beberapa baris kode.

✍️ Kembangkan dengan Bocoel

Contoh penggunaan berada di bawah examples folder. Referensi API dapat ditemukan di sini.

? Berkontribusi

Kontributor Wanted! Jangan malu. Jangan ragu untuk mengajukan masalah dan PR. Untuk PR, silakan ikuti panduan tentang Kontribusi dan Kode Etik. Keterbukaan dan inklusif ditanggapi dengan sangat serius.

? ️ Roadmap: bekerja sedang berlangsung

? Penggunaan yang lebih sederhana. Saya harus memberikan pembungkus tingkat tinggi untuk seluruh evaluasi ST perpustakaan dapat dijalankan dalam satu baris.
Modul visualisasi evaluasi.
? Integrasi metode alternatif (acak, kmedoid ...) dengan proses Gaussian.
? Integrasi dengan lebih banyak backend seperti VLLM dan Openai's API.
? Dukungan untuk Python 3.12+

? ️ Lisensi dan kutipan

Kode ini tersedia di bawah lisensi BSD-3.

Jika Anda menemukan proyek ini bermanfaat dalam penelitian Anda, silakan kutip pekerjaan ini di

 @misc{bocoel2024,
    title = {BoCoEL: Bayesian Optimization as a Coverage Tool for Evaluating Large Language Models},
    url = {https://bocoel.rentruewang.com/research/},
    author = {Wang, RenChu},
    month = {January},
    year = {2024}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-08
ukuran 340.08KB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua