Repositori ini mengimplementasikan pelatihan pembelajaran mesin dan resimen inferensi, menggunakan AI generatif (Genai) untuk menjawab pertanyaan berdasarkan gambar yang disediakan. Model pra-terlatih ada untuk mencapai tugas-tugas tersebut, namun mereka adalah A) tidak dapat beradaptasi dengan skenario khusus domain-karenanya mengapa kita perlu menyempurnakan dan b) tidak menampilkan kemampuan untuk digunakan ke lingkungan produksi.
Untuk mengatasi masalah ini, posting ini menunjukkan cara mengekstrak atribut produk khusus domain dari gambar produk dengan menyempurnakan VLM (model visi-bahasa) pada dataset mode menggunakan Amazon Sagemaker, dan kemudian menggunakan Amazon Bedrock untuk menghasilkan deskripsi produk menggunakan atribut yang diekstraksi sebagai input.
Untuk panduan terperinci dari repositori ini, silakan merujuk ke posting blog kami.
Data yang digunakan dalam repositori ini diambil dari dataset gambar fashion kaggle dan usecase yang kami coba selesaikan menghasilkan keterangan untuk produk-produk mode ini untuk situs web e-commerce, tugas yang secara historis sangat memakan waktu. Deskripsi produk berkualitas tinggi meningkatkan kemampuan pencarian melalui Search Engine Optimization (SEO), serta meningkatkan kepuasan pelanggan dengan memungkinkan mereka membuat keputusan yang tepat.
Model finetuned dalam repositori ini adalah model Blip-2 dan lebih khusus lagi, variannya menggunakan FLAN-T5-XL.
Diagram berikut mengilustrasikan ikhtisar Blip-2:

Solusinya dapat dipecah menjadi dua bagian, ditandai hijau dan biru dalam achitecture di bawah ini: a) menyempurnakan hijau dan b) inferensi berwarna biru.

Lihat berkontribusi untuk informasi lebih lanjut.
Perpustakaan ini dilisensikan di bawah lisensi MIT-0. Lihat file lisensi.