這是一個使用以下工具和API構建的基本入門項目:
當我開始深入研究所有這些時,我感到,當我了解一些單獨的作品時,很難將所有內容拼湊成一個凝聚力的項目。我希望這個項目對於希望使用此堆棧建造的任何人都有用,而只需要一些東西就開始。
我們正在構建一個應用文本(文本文件),將它們嵌入向量,將其存儲到Pinecone中並允許對數據進行語義搜索的應用程序。
對於任何想知道哪種語義搜索的人來說,這裡是一個概述(直接從chatgpt4獲取):
語義搜索是指了解用戶意圖和搜索查詢的上下文含義的搜索方法,而不僅僅是匹配關鍵字。
它使用自然語言處理和機器學習來解釋查詢背後的語義或含義。這將產生更準確和相關的搜索結果。語義搜索可以考慮用戶意圖,查詢上下文,同義詞識別和自然語言理解。它的應用程序從網絡搜索引擎到個性化推薦系統。
在本節中,我將引導您完成如何部署和運行此應用程序。
要運行此應用,您需要以下內容:
要在本地運行該應用程序,請按照以下步驟:
git clone [email protected]:dabit3/semantic-search-nextjs-pinecone-langchain-chatgpt.git更改為目錄並使用NPM或紗線安裝依賴項
複製.example.env.local到一個名為.env.local的新文件,並使用您的API鍵和環境進行更新。
確保您的環境是Pinecone給您的實際環境,例如us-west4-gcp-free
(可選) - 在/documents文件夾中添加您自己的自定義文本或標記文件。
運行應用程序:
npm run dev在創建嵌入式和索引時,最多可能需要2-4分鐘才能完全初始化索引。 utils中有180秒的Settimeout函數等待創建索引。
如果初始化需要更長的時間,那麼它將在您第一次嘗試創建嵌入式時失敗。如果發生這種情況,請訪問Pinecone控制台觀看並等待創建的索引狀態以完成,然後再次運行該功能。
預配置的應用程序數據與鏡頭協議開發人員文檔有關,因此,除非您用自己的數據替換,否則它只會理解有關它的問題。這是您可能與默認數據一起問的幾個問題
該項目的基礎是該節點的指導。您也可以在Twitter上關注他們!
我建議檢查GPT存儲庫加載程序,這使得將任何GitHub存儲庫變成文本格式變得容易,從而保留文件和文件內容的結構,從而易於使用我的代碼庫將其切碎並保存到Pinecone中。