search engine example text embeddings Unduh - search engine example text embeddings Sumber Code Unduh

search engine example text embeddings

Kode sumber lainnya

1.0.0

Unduh

Tentang

Proyek ini telah dibuat untuk menunjukkan bagaimana kita dapat membangun mesin pencari modern menggunakan struktur embeddings teks langsung (transformator huggingface) dan database vektor.

Sebagai dasar untuk data pencarian, saya menggunakan data situs web CommonCrawl selama enam bulan terakhir merangkak, tetapi karena butuh hampir dua minggu di laptop saya (M1 max) untuk memvektorisasi ~ domain 1MLN, saya berasumsi siapa pun yang akan menggunakan repositori ini tidak akan mencoba untuk memvektor seluruh dataset?

Apa yang Anda Butuhkan

Untuk menjalankan proyek ini secara lokal, Anda akan membutuhkan!

Node.js / npm - untuk data-worker dan webapp (next.js)
Docker, Docker Compose - Untuk menjalankan database MongoDB dan Qdrant
Rust + Cargo - Untuk menyusun dan menjalankan pelukan -pelukan teks -embedding

Proyek ini tidak dioptimalkan untuk produksi, jadi tidak ada implementasi penyebaran produksi "satu perintah". Ini akan menjadi contoh cara membangun pencarian situs web Anda untuk membuat hasil lebih seperti google (jenis ...)

Huggingface Text Embeddings Interface

Anda akan menemukan informasi lebih lanjut tentang penggunaan antarmuka Embeddings Teks Huggingface di halaman GitHub resmi mereka. Namun, untuk konteks repositori ini, saya tertarik untuk menyusunnya untuk MacOS M1 dan menggunakannya dengan GPU logam M1 Max, yang hanya tersedia melalui kompilasi langsung. Anda dapat menggunakan wadah Docker Prosesor berbasis Intel, yang prebuilt dan tersedia untuk NVIDIA GPU.

Perintah di bawah ini akan mengkloning antarmuka Text Embeddings dan membangunnya untuk driver logam MacOS untuk menggunakan M1 Processor GPU.

git clone https://github.com/huggingface/text-embeddings-inference.git
cd text-embeddings-inference
cargo install --path router -F candle -F metal

Mungkin butuh beberapa menit dan 100% dari CPU Anda, jadi ambil kopi sementara ☕️

Pekerja Data CommonCrawl

Direktori data-worker berisi skrip node.js sederhana, yang dirancang untuk mengunduh jangka waktu data CommonCrawl yang ditentukan dan mulai vektorisasi konten teks dari HTML yang dirangkak dan menyimpan hasil sebagai vektori ke database Qdrant dan MongoDB untuk referensi pencarian di kemudian hari.

Penting untuk dicatat bahwa jumlah data sangat besar untuk "lari lokal", jadi jangan mencoba menunggu sampai vektorisasi selesai, akan memakan waktu berbulan -bulan berturut -turut untuk menyelesaikan ini jika akan muat di laptop Anda. Setelah 2 minggu eksekusi, saya baru saja menyerah, karena butuh hampir 300GB penyimpanan dan saya hanya memiliki 4% dari 6 bulan dataset CommonCrawl.

Webapp

webapp itu sendiri sangat sederhana selanjutnya. Aplikasi JS dengan CSS tailwind dan beberapa file khusus di dalam direktori webapp/src/utils , di mana saya memiliki fungsionalitas menghubungkan ke MongoDB, database Qdrant dan juga permintaan ke antarmuka Embeddings SMS untuk memvektori teks pencarian sebelum melakukan permintaan pencarian yang sebenarnya.

Berjalan secara lokal

Perintah -perintah di bawah ini adalah langkah -langkah untuk menjalankan proyek ini secara lokal dan memulai vektorisasi dan mencari dataset CommonCrawl.

Terminal Baru: Jalankan Antarmuka Teks Embeddings Menggunakan Model BAAI/bge-large-en-v1.5 MTEB untuk Vektorisasi

 cd text-embeddings-inference
text-embeddings-router --model-id BAAI/bge-large-en-v1.5 --max-client-batch-size 5000 --port 8888

2. Terminal Baru: Klon Repositori ini dan jalankan layanan Docker Compose untuk MongoDB dan Qdrant

git clone [email protected]:tigranbs/search-engine-example-text-embeddings.git
cd search-engine-example-text-embeddings
docker compose up -d

3. Terminal Baru: Jalankan Pekerja Data untuk memulai vektorisasi data pencarian dengan mengunduh file CommonCrawl dan mengirimkannya ke antarmuka Embeddings Teks

 cd search-engine-example-text-embeddings
cd data-worker
npm i
npm start

4 Terminal Baru: Jalankan Webapp untuk mulai mencari

 cd search-engine-example-text-embeddings
cd webapp
npm i
npm run dev

Setelah langkah -langkah itu, Anda harus dapat menavigasi ke http: // localhost: 3000 dan melihat halaman pencarian, yang akan bekerja langsung dengan mongoDB dan qdrant di atas teks yang sudah disinkronkan yang sudah Anda miliki.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-05-26
ukuran 76.06KB
Berasal dari Github

Aplikasi Terkait

Pencarian Kata 800

2024-11-08
wsl actions example

2024-11-04
Teks Dengan Yesus

2023-08-17
Teks atau Mati

2023-07-03
Mesin Pencari Hanfox

2012-03-15
Mesin DataLife

2011-05-16

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua