Ini adalah proyek pemula dasar untuk membangun dengan alat dan API berikut:
Ketika saya mulai menyelam ke dalam semua ini, saya merasa sementara saya memahami beberapa bagian individu, sulit untuk menyatukan semuanya ke dalam proyek yang kohesif. Saya harap proyek ini berguna bagi siapa pun yang ingin membangun dengan tumpukan ini, dan hanya membutuhkan sesuatu untuk memulai.
Kami sedang membangun aplikasi yang mengambil teks (file teks), menanamkannya ke dalam vektor, menyimpannya ke pinecone, dan memungkinkan pencarian data semantik.
Bagi siapa pun yang bertanya -tanya apa pencarian semantik, berikut adalah gambaran umum (diambil langsung dari chatgpt4):
Pencarian semantik mengacu pada pendekatan pencarian yang memahami niat pengguna dan makna kontekstual dari permintaan pencarian, alih -alih hanya mencocokkan kata kunci.
Ini menggunakan pemrosesan bahasa alami dan pembelajaran mesin untuk menafsirkan semantik, atau makna, di balik pertanyaan. Ini menghasilkan hasil pencarian yang lebih akurat dan relevan. Pencarian semantik dapat mempertimbangkan niat pengguna, konteks kueri, pengakuan sinonim, dan pemahaman bahasa alami. Aplikasinya berkisar dari mesin pencari web hingga sistem rekomendasi yang dipersonalisasi.
Di bagian ini saya akan memandu Anda melalui cara menggunakan dan menjalankan aplikasi ini.
Untuk menjalankan aplikasi ini, Anda membutuhkan yang berikut:
Untuk menjalankan aplikasi secara lokal, ikuti langkah -langkah ini:
git clone [email protected]:dabit3/semantic-search-nextjs-pinecone-langchain-chatgpt.gitUbah ke direktori dan instal dependensi menggunakan NPM atau benang
Salin .example.env.local ke file baru yang disebut .env.local dan perbarui dengan kunci dan lingkungan API Anda.
Pastikan lingkungan Anda adalah lingkungan aktual yang diberikan kepada Anda oleh Pinecone, seperti us-west4-gcp-free
(Opsional) - Tambahkan teks khusus Anda sendiri atau file penurunan harga ke folder /documents .
Jalankan aplikasi:
npm run dev Saat membuat embeddings dan indeks, dapat memakan waktu hingga 2-4 menit untuk indeks untuk menginisialisasi sepenuhnya. Ada fungsi penyelesaian 180 detik di utils yang menunggu indeks dibuat.
Jika inisialisasi memakan waktu lebih lama, maka itu akan gagal saat pertama kali Anda mencoba membuat embeddings. Jika ini terjadi, kunjungi konsol Pinecone untuk menonton dan menunggu status indeks Anda dibuat untuk menyelesaikan, kemudian jalankan fungsi lagi.
Data aplikasi yang telah dikonfigurasi sebelumnya adalah tentang dokumentasi pengembang protokol lensa, sehingga hanya akan memahami pertanyaan tentang hal itu kecuali Anda menggantinya dengan data Anda sendiri. Berikut adalah beberapa pertanyaan yang mungkin Anda tanyakan dengan data default
Basis proyek ini dipandu oleh tutorial Node.js ini, dengan beberapa restrukturisasi dan diangkut ke Next.js. Anda juga dapat mengikuti mereka di sini di Twitter!
Saya merekomendasikan untuk memeriksa pemuat repositori GPT yang membuatnya mudah untuk mengubah repo github menjadi format teks, melestarikan struktur file dan konten file, membuatnya mudah untuk memotong dan menyimpan ke Pinecone menggunakan basis kode saya.