Unduh clip as service - clip as service Source Code Download

clip as service

Kode sumber lainnya

v0.8.3

Unduh

Logo klip-as-service: Struktur data untuk data yang tidak terstruktur

Clip-as-Service adalah layanan skalabilitas tinggi latensi rendah untuk menanamkan gambar dan teks. Ini dapat dengan mudah diintegrasikan sebagai layanan mikro ke dalam solusi pencarian saraf.

⚡ Cepat : Sajikan model klip dengan Tensorrt, Onnx Runtime dan Pytorch w/o jit dengan 800qps ^[*] . Streaming dupleks non-blocking atas permintaan dan tanggapan, dirancang untuk data besar dan tugas yang sudah berjalan lama.

? Elastic : Skala horizontal naik dan turun beberapa model klip pada GPU tunggal, dengan penyeimbangan beban otomatis.

? Mudah digunakan : Tidak ada kurva belajar, desain minimalis pada klien dan server. API intuitif dan konsisten untuk embedding gambar dan kalimat.

? Modern : Dukungan Klien Async. Beralih dengan mudah antara GRPC, HTTP, protokol WebSocket dengan TLS dan kompresi.

? Integrasi : Integrasi lancar dengan ekosistem pencarian saraf termasuk Jina dan Docarray. Bangun solusi lintas-modal dan multi-modal dalam waktu singkat.

^{[*] dengan konfigurasi default (replika tunggal, pytorch no jit) di geforce rtx 3090.}

Teks & Gambar Tanah

melalui https?

melalui grpc? ⚡⚡

curl 
-X POST https:// < your-inference-address > -http.wolf.jina.ai/post 
-H ' Content-Type: application/json ' 
-H ' Authorization: <your access token> ' 
-d ' {"data":[{"text": "First do it"}, 
    {"text": "then do it right"}, 
    {"text": "then do it better"}, 
    {"uri": "https://picsum.photos/200"}], 
    "execEndpoint":"/"} '

 # pip install clip-client
from clip_client import Client

c = Client (
    'grpcs://<your-inference-address>-grpc.wolf.jina.ai' ,
    credential = { 'Authorization' : '<your access token>' },
)

r = c . encode (
    [
        'First do it' ,
        'then do it right' ,
        'then do it better' ,
        'https://picsum.photos/200' ,
    ]
)
print ( r )

Penalaran visual

Ada empat keterampilan penalaran visual dasar: pengenalan objek, penghitungan objek, pengenalan warna, dan pemahaman hubungan spasial. Mari kita coba beberapa:

Anda perlu menginstal jq (prosesor JSON) untuk melakukan pretifikasi hasilnya.

Gambar	melalui https?
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/1/300/300", "matches": [{"text": "there is a woman in the photo"}, {"text": "there is a man in the photo"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " memberi: `"there is a woman in the photo" 0.626907229423523 "there is a man in the photo" 0.37309277057647705`
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/133/300/300", "matches": [ {"text": "the blue car is on the left, the red car is on the right"}, {"text": "the blue car is on the right, the red car is on the left"}, {"text": "the blue car is on top of the red car"}, {"text": "the blue car is below the red car"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " memberi: `"the blue car is on the left, the red car is on the right" 0.5232442617416382 "the blue car is on the right, the red car is on the left" 0.32878655195236206 "the blue car is below the red car" 0.11064132302999496 "the blue car is on top of the red car" 0.03732786327600479`
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/102/300/300", "matches": [{"text": "this is a photo of one berry"}, {"text": "this is a photo of two berries"}, {"text": "this is a photo of three berries"}, {"text": "this is a photo of four berries"}, {"text": "this is a photo of five berries"}, {"text": "this is a photo of six berries"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " memberi: `"this is a photo of three berries" 0.48507222533226013 "this is a photo of four berries" 0.2377079576253891 "this is a photo of one berry" 0.11304923892021179 "this is a photo of five berries" 0.0731358453631401 "this is a photo of two berries" 0.05045759305357933 "this is a photo of six berries" 0.04057715833187103`

Dokumentasi

Memasang

Klip-as-service terdiri dari dua paket Python clip-server dan clip-client yang dapat diinstal secara mandiri . Keduanya membutuhkan Python 3.7+.

Instal Server

Pytorch Runtime ⚡	Onnx Runtime ⚡⚡	Tensorrt Runtime ⚡⚡⚡
pip install clip-server	pip install " clip-server[onnx] "	pip install nvidia-pyindex pip install " clip-server[tensorrt] "

Anda juga dapat meng -host server di Google Colab, memanfaatkan GPU/TPU gratis.

Instal Klien

pip install clip-client

Cek cepat

Anda dapat menjalankan pemeriksaan konektivitas sederhana setelah pemasangan.

C/s	Memerintah	Harapkan output
Server	python -m clip_server
Klien	from clip_client import Client c = Client ( 'grpc://0.0.0.0:23456' ) c . profile ()

Anda dapat mengubah 0.0.0.0 ke alamat IP intranet atau publik untuk menguji konektivitas melalui jaringan pribadi dan publik.

Mulai

Penggunaan dasar

Mulai server: python -m clip_server . Ingat alamat dan portnya.

Buat klien:

 from clip_client import Client

 c = Client ( 'grpc://0.0.0.0:51000' )

Untuk mendapatkan penyematan kalimat:

 r = c . encode ([ 'First do it' , 'then do it right' , 'then do it better' ])

print ( r . shape )  # [3, 512]

Untuk mendapatkan embedding gambar:

 r = c . encode ([ 'apple.png' ,  # local image 
              'https://clip-as-service.jina.ai/_static/favicon.png' ,  # remote image
              'data:image/gif;base64,R0lGODlhEAAQAMQAAORHHOVSKudfOulrSOp3WOyDZu6QdvCchPGolfO0o/XBs/fNwfjZ0frl3/zy7////wAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACH5BAkAABAALAAAAAAQABAAAAVVICSOZGlCQAosJ6mu7fiyZeKqNKToQGDsM8hBADgUXoGAiqhSvp5QAnQKGIgUhwFUYLCVDFCrKUE1lBavAViFIDlTImbKC5Gm2hB0SlBCBMQiB0UjIQA7' ])  # in image URI

print ( r . shape )  # [3, 512]

Panduan pengguna server dan klien yang lebih komprehensif dapat ditemukan di dokumen.

Pencarian lintas-modal teks-ke-gambar dalam 10 baris

Mari kita bangun pencarian teks-ke-gambar menggunakan clip-as-service. Yaitu, pengguna dapat memasukkan kalimat dan program mengembalikan gambar yang cocok. Kami akan menggunakan paket Dataset dan DocArray yang benar -benar terlihat. Perhatikan bahwa DocArray termasuk dalam clip-client sebagai ketergantungan hulu, jadi Anda tidak perlu menginstalnya secara terpisah.

Muat gambar

Pertama kami memuat gambar. Anda bisa menariknya dari Jina Cloud:

 from docarray import DocumentArray

da = DocumentArray . pull ( 'ttl-original' , show_progress = True , local_cache = True )

atau unduh dataset TTL, unzip, muat secara manual

Atau, Anda dapat benar -benar terlihat seperti situs web resmi, unzip dan memuat gambar:

 from docarray import DocumentArray

da = DocumentArray . from_files ([ 'left/*.jpg' , 'right/*.jpg' ])

Dataset berisi 12.032 gambar, sehingga mungkin perlu waktu untuk menarik. Setelah selesai, Anda dapat memvisualisasikannya dan mendapatkan rasa pertama dari gambar -gambar itu:

 da . plot_image_sprites ()

Visualisasi sprite gambar yang benar -benar terlihat seperti dataset

Mengkodekan gambar

Mulai server dengan python -m clip_server . Katakanlah itu di 0.0.0.0:51000 dengan protokol GRPC (Anda akan mendapatkan informasi ini setelah menjalankan server).

Buat skrip klien Python:

 from clip_client import Client

c = Client ( server = 'grpc://0.0.0.0:51000' )

da = c . encode ( da , show_progress = True )

Bergantung pada GPU Anda dan jaringan klien-server, mungkin perlu beberapa saat untuk menanamkan gambar 12K. Dalam kasus saya, butuh sekitar dua menit.

Unduh dataset yang telah ditiru sebelumnya

Jika Anda tidak sabar atau tidak memiliki GPU, menunggu bisa menjadi neraka. Dalam hal ini, Anda dapat dengan mudah menarik dataset gambar kami yang telah dikodekan:

 from docarray import DocumentArray

da = DocumentArray . pull ( 'ttl-embedding' , show_progress = True , local_cache = True )

Cari melalui kalimat

Mari Bangun Prompt Sederhana untuk Mengizinkan Pengguna Mengetik Kalimat:

 while True :
    vec = c . encode ([ input ( 'sentence> ' )])
    r = da . find ( query = vec , limit = 9 )
    r [ 0 ]. plot_image_sprites ()

Memamerkan

Sekarang Anda dapat memasukkan kalimat bahasa Inggris yang sewenang-wenang dan melihat gambar yang cocok-9 teratas. Pencarian cepat dan naluriah. Mari bersenang -senang:

"kentang bahagia"	"A Super Evil AI"	"Seorang pria yang menikmati burgernya"

"Profesor Cat sangat serius"	"Seorang insinyur ego tinggal bersama orang tua"	"Tidak akan ada hari esok jadi mari kita makan tidak sehat"

Mari simpan hasil embedding untuk contoh kita berikutnya:

 da . save_binary ( 'ttl-image' )

Pencarian lintas-modal gambar-ke-teks dalam 10 baris

Kami juga dapat mengganti input dan output dari program terakhir untuk mencapai pencarian gambar-ke-teks. Tepatnya, diberi gambar kueri menemukan kalimat yang paling menggambarkan gambar.

Mari kita gunakan semua kalimat dari buku "Pride and Prejudice".

 from docarray import Document , DocumentArray

d = Document ( uri = 'https://www.gutenberg.org/files/1342/1342-0.txt' ). load_uri_to_text ()
da = DocumentArray (
    Document ( text = s . strip ()) for s in d . text . replace ( ' r n ' , '' ). split ( '.' ) if s . strip ()
)

Mari kita lihat apa yang kita dapatkan:

 da . summary ()

            Documents Summary            
                                         
  Length                 6403            
  Homogenous Documents   True            
  Common Attributes      ('id', 'text')  
                                         
                     Attributes Summary                     
                                                            
  Attribute   Data type   #Unique values   Has empty value  
 ────────────────────────────────────────────────────────── 
  id          ('str',)    6403             False            
  text        ('str',)    6030             False

Menyandikan kalimat

Sekarang mengkode 6.403 kalimat ini, mungkin butuh 10 detik atau kurang tergantung pada GPU dan jaringan Anda:

 from clip_client import Client

c = Client ( 'grpc://0.0.0.0:51000' )

r = c . encode ( da , show_progress = True )

Unduh dataset yang telah ditiru sebelumnya

Sekali lagi, untuk orang-orang yang tidak sabar atau tidak memiliki GPU, kami telah menyiapkan dataset teks yang telah dikodekan:

 from docarray import DocumentArray

da = DocumentArray . pull ( 'ttl-textual' , show_progress = True , local_cache = True )

Cari melalui gambar

Mari kita muat embedding gambar kami yang sebelumnya disimpan, sampel 10 dokumen gambar secara acak, lalu temukan tetangga terdekat teratas masing-masing.

 from docarray import DocumentArray

img_da = DocumentArray . load_binary ( 'ttl-image' )

for d in img_da . sample ( 10 ):
    print ( da . find ( d . embedding , limit = 1 )[ 0 ]. text )

Memamerkan

Waktu yang menyenangkan! Catatan, tidak seperti contoh sebelumnya, di sini inputnya adalah gambar dan kalimat adalah output. Semua kalimat berasal dari buku "Pride and Prejudice".


Selain itu, ada kebenaran dalam penampilannya	Gardiner tersenyum	Siapa namanya	Namun, pada waktu teh, dosisnya sudah cukup, dan MR	Anda tidak terlihat baik


“Seorang gamester!” dia menangis	Jika Anda menyebutkan nama saya di bel, Anda akan dirawat	Tidak masalah rambut Miss Lizzy	Elizabeth akan segera menjadi istri Tuan	Saya melihat mereka malam sebelumnya

Peringkat gambar-teks cocok melalui model klip

Dari 0.3.0 Clip-as-Service menambahkan titik akhir baru /rank yang menilai ulang kecocokan lintas-modal sesuai dengan kemungkinan bersama mereka dalam model klip. Misalnya, diberi dokumen gambar dengan beberapa pertandingan kalimat yang telah ditentukan seperti di bawah ini:

 from clip_client import Client
from docarray import Document

c = Client ( server = 'grpc://0.0.0.0:51000' )
r = c . rank (
    [
        Document (
            uri = '.github/README-img/rerank.png' ,
            matches = [
                Document ( text = f'a photo of a { p } ' )
                for p in (
                    'control room' ,
                    'lecture room' ,
                    'conference room' ,
                    'podium indoor' ,
                    'television studio' ,
                )
            ],
        )
    ]
)

print ( r [ '@m' , [ 'text' , 'scores__clip_score__value' ]])

 [['a photo of a television studio', 'a photo of a conference room', 'a photo of a lecture room', 'a photo of a control room', 'a photo of a podium indoor'], 
[0.9920725226402283, 0.006038925610482693, 0.0009973491542041302, 0.00078492151806131, 0.00010626466246321797]]

Orang sekarang dapat melihat a photo of a television studio berada di peringkat ke atas dengan skor clip_score di 0.992 . Dalam praktiknya, seseorang dapat menggunakan titik akhir ini untuk menata ulang hasil pencocokan dari sistem pencarian lain, untuk meningkatkan kualitas pencarian lintas-modal.

Peringkat Teks-Image cocok melalui model klip

Dalam proyek aliran Dall · E, klip dipanggil untuk memberi peringkat hasil yang dihasilkan dari dall · e. Ia memiliki pelaksana yang dibungkus di atas clip-client , yang memanggil .arank() - versi async dari .rank() :

 from clip_client import Client
from jina import Executor , requests , DocumentArray


class ReRank ( Executor ):
    def __init__ ( self , clip_server : str , ** kwargs ):
        super (). __init__ ( ** kwargs )
        self . _client = Client ( server = clip_server )

    @ requests ( on = '/' )
    async def rerank ( self , docs : DocumentArray , ** kwargs ):
        return await self . _client . arank ( docs )

Klip-as-service digunakan dalam aliran dalle

Penasaran? Itu hanya menggaruk permukaan apa yang mampu dilakukan oleh klip-as-service. Baca dokumen kami untuk mempelajari lebih lanjut.

Mendukung

Bergabunglah dengan komunitas Discord kami dan mengobrol dengan anggota komunitas lainnya tentang ide.
Tonton rekayasa kami di semua tangan untuk mempelajari fitur-fitur baru Jina dan tetap up-to-date dengan teknik AI terbaru.
Berlangganan tutorial video terbaru di saluran YouTube kami

Bergabunglah dengan kami

Clip-as-Service didukung oleh Jina AI dan dilisensikan di bawah Apache-2.0. Kami secara aktif mempekerjakan insinyur AI, insinyur solusi untuk membangun ekosistem pencarian saraf berikutnya dalam sumber terbuka.

Memperluas

Informasi Tambahan

Versi v0.8.3
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-02
ukuran 11.55MB
Berasal dari Github

Aplikasi Terkait

Inf CLIP

2024-11-03
layanan penuh versi Cina

2023-10-20
sebagai lubang

2023-05-29
sebagai perangkat lunak lubang

2023-05-29
Kepala AS Kode

2022-07-24
Klip Ember

2011-05-24

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua

Gambar	melalui https?
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/1/300/300", "matches": [{"text": "there is a woman in the photo"}, {"text": "there is a man in the photo"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " memberi: `"there is a woman in the photo" 0.626907229423523 "there is a man in the photo" 0.37309277057647705`
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/133/300/300", "matches": [ {"text": "the blue car is on the left, the red car is on the right"}, {"text": "the blue car is on the right, the red car is on the left"}, {"text": "the blue car is on top of the red car"}, {"text": "the blue car is below the red car"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " memberi: `"the blue car is on the left, the red car is on the right" 0.5232442617416382 "the blue car is on the right, the red car is on the left" 0.32878655195236206 "the blue car is below the red car" 0.11064132302999496 "the blue car is on top of the red car" 0.03732786327600479`
	curl -X POST https:// < your-inference-address > -http.wolf.jina.ai/post -H ' Content-Type: application/json ' -H ' Authorization: <your access token> ' -d ' {"data":[{"uri": "https://picsum.photos/id/102/300/300", "matches": [{"text": "this is a photo of one berry"}, {"text": "this is a photo of two berries"}, {"text": "this is a photo of three berries"}, {"text": "this is a photo of four berries"}, {"text": "this is a photo of five berries"}, {"text": "this is a photo of six berries"}]}], "execEndpoint":"/rank"} ' \| jq " .data[].matches[] \| (.text, .scores.clip_score.value) " memberi: `"this is a photo of three berries" 0.48507222533226013 "this is a photo of four berries" 0.2377079576253891 "this is a photo of one berry" 0.11304923892021179 "this is a photo of five berries" 0.0731358453631401 "this is a photo of two berries" 0.05045759305357933 "this is a photo of six berries" 0.04057715833187103`