該項目利用AI代理進行自動數據提取和處理。該系統允許用戶上傳CSV文件或連接到Google表,然後使用自然語言查詢與數據進行交互。代理根據查詢生成Python代碼,執行代碼來操縱數據,並以各種格式(例如表,繪圖或字符串)呈現結果,或為您的文件刮擦有用的數據。
要運行此項目,您需要Python 3.7或更高版本。該項目使用幾個可以通過PIP安裝的第三方庫。
git clone https://github.com/UjjawalGusain/CheatSheet-Langchain-Project.git
cd Langchain-Web-Agent python3 -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
pip install -r requirements.txt設置Google表API:
運行應用程序:
streamlit run dashboard.py運行此命令後,該應用程序將啟動,您可以通過瀏覽器訪問它。
該項目利用多個API來處理不同的操作,包括數據刮擦和與模型的互動。集成的API是:
GROQ API:
型號:Llama-3.1-70B反相
目的:GROQ API用於與大語言模型進行交互,以生成響應,在數據集上執行操作以及處理複雜的查詢。模型Llama-3.1-70B反復用於有效的自然語言理解和生成,幫助處理查詢並產生可行的結果。
用法:
API被要求處理與數據相關的查詢,包括提取,過濾和生成摘要等操作。該模型的響應有助於塑造應用於數據集的操作。
用於模型的提示以特定格式構造,以確保所需的響應並避免執行過程中的錯誤。
SCRAPER API:
目的:刮板API用於從外部來源收集其他數據,並將此數據附加到數據集。
用法:
從側邊欄中選擇數據源:上傳CSV或連接Google表格。
輸入查詢:
查看結果:
及時的格式和復雜性:一個重大挑戰是確保將傳遞給模型的提示正確格式化和由系統處理。基於查詢的結構和復雜性生成準確響應所需的模型。保持信息的清晰度和一致性也很重要。
使用LLMS管理安全風險:利用大型語言模型(LLMS)引入了潛在的安全風險,尤其是有關數據隱私和敏感信息的處理。確保在與模型互動時無意間沒有機密或私人數據是開發過程的關鍵方面。我們必須實施保障措施,以最大程度地降低這些風險,同時使用LLMS生成代碼和處理數據。