Proyek ini memiliki 2 bagian utama:
Bagian pengambilan gambar dari proyek ini menggunakan model klip OpenAI pra-terlatih (https://github.com/openai/clip) untuk mengambil gambar dari dataset yang relevan dengan kueri teks yang diberikan. Dataset yang digunakan untuk proyek ini adalah Dataset Pascal VOC 2012. Dataset berisi sekitar 3500 gambar (kereta + validasi). Model klip digunakan untuk menyandikan kueri teks dan gambar dalam dataset. Kesamaan antara kueri teks dan gambar dihitung menggunakan kesamaan cosinus. Gambar kemudian diperingkat berdasarkan skor kesamaan dan gambar k teratas dikembalikan.
Bagian generasi deskripsi gambar dari proyek menggunakan Mistral-7B pra-terlatih (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) model untuk menghasilkan deskripsi untuk permintaan input.
Untuk menjalankan proyek, ikuti langkah -langkah di bawah ini:
code.ipynb notebook.ipynb Lihat video demo untuk melihat Text2ImageDescription beraksi:
Proyek ini dilisensikan di bawah lisensi MIT - lihat file lisensi untuk detailnya.