Situs Web • Dokumentasi • Tantangan & Solusi • Kasus Penggunaan
Embedding Studio adalah kerangka kerja open-source yang inovatif yang dirancang untuk mengubah model embedding gabungan dan database vektor menjadi mesin pencari yang komprehensif. Dengan fungsionalitas bawaan untuk koleksi clickstream, peningkatan pengalaman pencarian yang berkelanjutan, dan adaptasi otomatis dari model embedding, ia menawarkan solusi di luar kotak untuk mesin pencari siklus penuh.
| Dukungan Komunitas |
| Studio yang menanamkan tumbuh dengan antusiasme tim kami. Bintang Anda di repositori membantu kami terus berkembang. Bergabunglah dengan kami dalam mencapai tujuan kami: |
(*) - fitur dalam pengembangan
Embedding Studio sangat dapat disesuaikan, sehingga Anda dapat membawa sendiri:
Lebih lanjut tentang itu di sini.
Penafian: Embedding Studio bukan database vektor lain, ini adalah kerangka kerja yang memungkinkan Anda mengubah database vektor Anda menjadi mesin pencari dengan semua nuansa.
Lebih lanjut tentang tantangan dan solusi di sini
Kerangka kerja kami memungkinkan Anda untuk terus menyempurnakan model Anda berdasarkan pengalaman pengguna, memungkinkan Anda untuk membentuk hasil pencarian untuk kueri pengguna lebih cepat dan lebih akurat.

Lihat dokumentasi resmi kami.
Untuk mencoba Studio Embedding, Anda dapat meluncurkan proyek demonstrasi yang telah dikonfigurasi sebelumnya. Kami telah menyiapkan dataset yang disimpan dalam ember S3 publik, emulator untuk klik pengguna, dan skrip dasar untuk menyempurnakan model. Dengan mengadaptasinya dengan kebutuhan Anda, Anda dapat memulai penyesuaian untuk model Anda.
Pastikan Anda memiliki perintah docker compose version yang bekerja pada sistem Anda:
Docker Compose version v2.23.3Anda juga dapat mencoba perintah Versi Komposisi Docker. Bergerak maju, kami akan menggunakan perintah versi Docker Compose yang lebih baru, tetapi perintah Versi Kompose Docker juga dapat bekerja dengan sukses di sistem Anda.
Pertama, angkat semua layanan studio embedding dengan mengeksekusi perintah berikut:
docker compose up -dSetelah semua layanan naik, Anda dapat mulai menggunakan Embedding Studio. Mari kita simulasikan sesi pencarian pengguna. Kami akan menjalankan skrip pra-dibangun yang akan memohon API Studio Embedding dan meniru perilaku pengguna:
docker compose --profile demo_stage_clickstream up -dSetelah eksekusi skrip, Anda dapat memulai penyempurnaan model. Jalankan perintah berikut:
docker compose --profile demo_stage_finetuning up -d Ini akan mengantri tugas yang diproses oleh pekerja yang menyempurnakan. Untuk mengambil semua tugas dalam antrian fine-tuning, kirim permintaan GET ke titik akhir /api/v1/fine-tuning/task :
curl -X GET http://localhost:5000/api/v1/fine-tuning/taskJawabannya adalah sesuatu seperti:
[
{
"fine_tuning_method" : " Default Fine Tuning Method " ,
"status" : " processing " ,
"created_at" : " 2023-12-21T14:30:25.823000 " ,
"updated_at" : " 2023-12-21T14:32:16.673000 " ,
"batch_id" : " 65844a671089823652b83d43 " ,
"id" : " 65844c019fa7cf0957d04758 "
}
] Setelah Anda memiliki ID tugas, Anda dapat secara langsung memantau kemajuan penyempurnaan dengan mengirimkan permintaan GET ke titik akhir /api/v1/fine-tuning/task/{task_id} :
curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758Hasilnya akan mirip dengan apa yang Anda terima saat menanyakan semua tugas. Untuk cara yang lebih nyaman untuk melacak kemajuan, Anda dapat menggunakan MLFLOW di http: // localhost: 5001.
Ini juga bermanfaat untuk memeriksa log fine_tuning_worker untuk memastikan semuanya berfungsi dengan benar. Untuk melakukan ini, daftar semua layanan menggunakan perintah:
docker logs embedding_studio-fine_tuning_worker-1Jika semuanya berhasil selesai, Anda akan melihat log yang mirip dengan:
Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00, 0.17it/s, v_num = 8]
[2023-12-21 14:59:05,931] [PID 7] [Thread-6] [pytorch_lightning.utilities.rank_zero] [INFO] ` Trainer.fit ` stopped: ` max_epochs=3 ` reached.
Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00, 0.17it/s, v_num = 8]
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Save model (best only, current quality: 8.426392069685529e-05)
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Save model for 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:06,009] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [WARNING] No finished experiments found with model uploaded, except initial
[2023-12-21 14:59:16,432] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Upload is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Saving is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current run 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:16,445] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current run is finished
[2023-12-21 14:59:16,656] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current iteration 2
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current iteration is finished
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.worker] [INFO] Fine tuning of the embedding model was completed successfully !Selamat! Anda telah berhasil meningkatkan model!
Untuk mengunduh model terbaik yang dapat Anda gunakan embedding Studio API:
curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758Jika semuanya baik -baik saja, Anda akan melihat output berikut:
{
"fine_tuning_method" : " Default Fine Tuning Method " ,
"status" : " done " ,
"best_model_url" : " http://localhost:5001/get-artifact?path=model%2Fdata%2Fmodel.pth&run_uuid=571304f0c330448aa8cbce831944cfdd " ,
...
} Dan bidang best_model_url berisi file model.pth yang dapat diakses HTTP.
Anda dapat mengunduh file *.pth dengan mengeksekusi perintah berikut:
wget http://localhost:5001/get-artifact ? path=model%2Fdata%2Fmodel.pth & run_uuid=571304f0c330448aa8cbce831944cfddKami menyambut kontribusi untuk menanamkan Studio!
Embedding Studio dilisensikan di bawah lisensi Apache, versi 2.0. Lihat lisensi untuk teks lisensi lengkap.