Proyek yang dibawa pulang ini telah dirancang dalam jangka waktu kurang dari 72 jam, berfungsi sebagai langkah dalam proses perekrutan untuk peran senior MLOPS.
Bundel PDF adalah alat yang dirancang untuk mengekstrak teks dari dokumen PDF yang disimpan dalam ember AWS S3, memecah dokumen -dokumen ini menjadi potongan -potongan yang lebih kecil, dan menghasilkan embeddings vektor menggunakan transformator kalimat. Embeddings ini kemudian disimpan dalam database vektor Pinecone untuk penyimpanan dan pengambilan yang efisien.
Bundel PDF menyediakan antarmuka yang ramah pengguna melalui FASTAPI. Titik akhir query_search memfasilitasi pencarian berbasis cepat, memungkinkan pengguna untuk memasukkan kueri dan dengan cepat mengambil embeddings vektor yang paling mirip. Kesamaan ini ditentukan dengan menggunakan kesamaan kosinus, suatu ukuran yang menangkap kesamaan semantik antar vektor. Saat menyederhanakan respons untuk kegunaan, bundel PDF memastikan transparansi dengan secara otomatis mengunggah respons terperinci terhadap ember S3. Dengan integrasi yang mulus dan fungsionalitas yang kuat, bundel PDF secara efisien mengungkap embeddings vektor yang paling mirip.
Pastikan bahwa server API bundel PDF sedang berjalan di server berikut:
Aplikasi ini digunakan dan dapat diakses di: Railway.
PERINGATAN: tunda spin-down instance gratis
Harap dicatat bahwa instance gratis yang disediakan oleh Render dapat mengalami spin-down karena tidak aktif. Ini dapat mengakibatkan penundaan 50 detik atau lebih saat memproses permintaan. Harap bersabar saat browser web Anda mencoba memuat halaman.
Kirim permintaan posting ke titik akhir API /query_search dengan payload JSON berikut:
{
"prompt" : " your_user_defined_prompt " ,
"n_top" : 5
} Ganti "your_user_defined_prompt" dengan prompt yang ingin Anda gunakan, "n_top" dengan jumlah embeddings serupa yang ingin Anda ambil berdasarkan simuilaritas cosinus.
Menerima respons yang berisi embeddings yang paling mirip dengan prompt yang disediakan.
Kontribusi dipersilakan! Silakan mengirimkan permintaan tarik atau buka masalah jika Anda menemukan bug atau memiliki saran untuk perbaikan.
Untuk pertanyaan atau dukungan apa pun, silakan hubungi [email protected]