Unduh Text2ImageDescription - Unduh Kode Sumber Text2ImageDescription

Text2ImageDescription

Kode sumber lainnya

1.0.0

Unduh

Text2Imagedescription

Proyek ini memiliki 2 bagian utama:

Pengambilan Gambar: Diberikan kueri teks, ambil gambar dari dataset yang relevan dengan kueri.
Generasi Deskripsi Gambar: Diberikan kueri teks, hasilkan deskripsi untuk gambar yang paling relevan dengan kueri.

Pengambilan gambar

Bagian pengambilan gambar dari proyek ini menggunakan model klip OpenAI pra-terlatih (https://github.com/openai/clip) untuk mengambil gambar dari dataset yang relevan dengan kueri teks yang diberikan. Dataset yang digunakan untuk proyek ini adalah Dataset Pascal VOC 2012. Dataset berisi sekitar 3500 gambar (kereta + validasi). Model klip digunakan untuk menyandikan kueri teks dan gambar dalam dataset. Kesamaan antara kueri teks dan gambar dihitung menggunakan kesamaan cosinus. Gambar kemudian diperingkat berdasarkan skor kesamaan dan gambar k teratas dikembalikan.

Pembuatan Deskripsi Gambar

Bagian generasi deskripsi gambar dari proyek menggunakan Mistral-7B pra-terlatih (https://huggingface.co/thebloke/mistral-7b-instruct-v0.1-gguf) model untuk menghasilkan deskripsi untuk permintaan input.

Penggunaan

Untuk menjalankan proyek, ikuti langkah -langkah di bawah ini:

Klon Repositori
Jalankan code.ipynb notebook.ipynb

Pertunjukan

Sumber Daya: 12 GB GPU (NVIDIA T4)
Pencarian Gambar: ~ 50 milidetik.
Generasi Deskripsi: Streaming dimulai dalam waktu sekitar 2,5 detik, mencapai tingkat 40 token per detik.