このプロジェクトは、自動化されたデータ抽出と処理のためにAIエージェントを活用します。このシステムを使用すると、ユーザーはCSVファイルをアップロードしたり、Googleシートに接続してから、自然言語クエリを使用してデータと対話できます。エージェントは、クエリに基づいてPythonコードを生成し、コードを実行してデータを操作し、テーブル、プロット、文字列、またはファイルの便利なデータを削るなどのさまざまな形式で結果を提示します。
このプロジェクトを実行するには、Python 3.7以降が必要です。このプロジェクトでは、PIP経由でインストールできるいくつかのサードパーティライブラリを使用しています。
git clone https://github.com/UjjawalGusain/CheatSheet-Langchain-Project.git
cd Langchain-Web-Agent python3 -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
pip install -r requirements.txtGoogleシートAPIをセットアップします:
アプリケーションを実行します:
streamlit run dashboard.pyこのコマンドを実行した後、アプリケーションが開始され、ブラウザを介してアクセスできます。
このプロジェクトでは、データの削減やモデルとの相互作用など、複数のAPIを使用してさまざまな操作を処理します。統合されたAPIは次のとおりです。
GROQ API:
モデル:llama-3.1-70b-versatile
目的:GROQ APIは、応答を生成するための大規模な言語モデルと対話し、データセットで操作を実行し、複雑なクエリを処理するために使用されます。モデルのllama-3.1-70b- ververatileは、効率的な自然言語の理解と生成のために利用され、クエリの処理を支援し、実用的な結果を生み出します。
使用法:
APIは、抽出、フィルタリング、概要の生成などの操作など、データに関連するクエリを処理するために呼び出されます。モデルからの応答は、データセットに適用される操作の形成に役立ちます。
モデルに使用されるプロンプトは、目的の応答を確保し、実行中のエラーを回避するために特定の形式で構成されています。
スクレーパーAPI:
目的:スクレーパーAPIは、外部ソースから追加のデータを収集し、このデータをデータセットに追加するために使用されます。
使用法:
サイドバーからデータソースを選択します。CSVをアップロードするか、Googleシートを接続します。
クエリを入力してください:
結果を表示:
プロンプトのフォーマットと複雑さ:重要な課題は、モデルに渡されたプロンプトがシステムによって正しくフォーマットされ、処理されることを保証することでした。このモデルは、クエリの構造と複雑さに基づいて正確な応答を生成するために必要でした。また、特に複雑なクエリを使用して、ユーザーに情報の抽出と提示方法の明確さと一貫性を維持することも重要でした。
LLMSでセキュリティリスクの管理:大規模な言語モデル(LLM)を活用すると、特にデータプライバシーと機密情報の処理に関するセキュリティリスクが潜在的に導入されました。モデルとの対話中に、機密データやプライベートデータが不注意に公開されなかったことを確認することは、開発プロセスの重要な側面でした。これらのリスクを最小限に抑えるために、コードデータを生成して処理するためにLLMを使用しながら、これらのリスクを最小限に抑えるために保護手段を実装する必要がありました。