BambooAIダウンロード - BambooAIソースコードのダウンロード

竹

大規模な言語モデル（LLM）を利用して、データとの会話を可能にする研究およびデータ分析アシスタントのように、自然言語の相互作用機能を提供する軽量ライブラリ。独自のデータセットを提供するか、ライブラリがデータを見つけてフェッチできるようにすることができます。インターネット検索と外部APIインタラクションをサポートします。

客観的

Bambooaiライブラリは、データ分析を容易にするために大規模な言語モデル（LLM）を利用する実験的で軽量なツールであり、プログラミングの専門知識を含むユーザーがよりアクセスしやすくします。これは、研究およびデータ分析のアシスタントとして機能し、ユーザーが自然言語を介してデータと対話できるようにします。ユーザーは独自のデータセットを提供することができます。また、このツールはインターネット検索を統合し、外部APIにアクセスして機能を強化します。

Bambooaiは、データセットに関する自然言語クエリを処理し、データ分析と視覚化のためにPythonコードを生成および実行できます。これにより、ユーザーは広範なコーディング知識なしにデータから洞察を導き出すことができます。ユーザーはデータセットを入力し、単純な英語で質問をするだけで、Bambooaiはデータをよりよく理解するために、必要に応じて視覚化とともに回答を提供します。

Bambooaiは、あらゆるレベルでデータアナリストの機能を強化することを目指しています。データ分析と視覚化を簡素化し、ワークフローの合理化に役立ちます。ライブラリは、さまざまなニーズを満たすためにユーザーフレンドリーで効率的で、適応性があるように設計されています。

プレビュー

Google Colabで試してみてください：

提供されたデータフレームを使用した機械学習の例：

 !pip install pandas
!pip install bambooai

import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('titanic.csv')
bamboo = BambooAI(df, debug=False, vector_db=False, search_tool=True)
bamboo.pd_agent_converse()

Jupyterノートブック：

タスク：タイタニックの乗客の生存を予測するために、機械学習モデルを考案してください。モデルの精度を出力します。混乱マトリックス、相関マトリックス、およびその他の関連するメトリックをプロットします。このタスクへの最良のアプローチをインターネットを検索してください。

titanic_ml.mp4

Web UI：

タスク：スポーツデータ分析に関連するさまざまなクエリ

bambooi_demo_ui.mp4

それがどのように機能するか

Bambooaiエージェントは、ユーザーと対話して応答を生成するために、いくつかの重要な手順を介して動作します。

1。開始

ユーザーは、質問でBambooaiエージェントを起動します。
最初の質問が提供されていない場合、エージェントはユーザーに質問または「終了」コマンドを求めてプログラムを終了します。
次に、エージェントはループを入力し、提供された各質問に応答し、完了すると、次の質問をユーザーに促します。このループは、ユーザーがプログラムを終了することを選択するまで続きます。

2。タスク評価

エージェントは、受け取った質問を保存し、大規模な言語モデル（LLM）を利用してそれを評価および分類します。
LLMは、質問がテキストの回答、追加情報（Google検索：https：//serper.dev/）を必要とするか、コードを使用して解決できるかどうかを決定します。
タスクの評価と分類に応じて、エージェントは適切なエージェントを呼び出します。

3。動的プロンプトビルド

質問をコードで解決できる場合、エージェントは、必要なデータが提供されたデータセット内に含まれているかどうか、外部ソースからのダウンロードが必要かどうか、または質問が一般的な性質であり、データが必要ないかどうかを決定します。
その後、エージェントはそれに応じてアプローチを選択します。分析の青写真として機能するように、タスクリストとして表されるアルゴリズムを策定します。
元の質問は、このアルゴリズムに合わせて変更されます。エージェントは、同様の質問に対してベクトルデータベースに対してセマンティック検索を実行します。
見つかった一致する質問は、例としてプロンプトに追加されます。 GPT-3.5、GPT-4、またはローカルOSSモデルを使用して、アルゴリズムに基づいてコードを生成します。

4。デバッグ、実行、およびエラー修正

生成されたコードにデバッグが必要な場合、GPT-4が関与しています。
コードが実行され、エラーが発生した場合、エージェントはエラーメッセージを記録し、修正のためにLLMに戻します。
このプロセスは、コード実行が成功するまで続きます。

5。結果、ランキング、および知識ベースのビルド

成功した実行を投稿して、GPT-4を使用して答えをランク付けします。
ランクが設定されたしきい値を上回る場合、質問、回答、コード、およびランクがPinecone Vectorデータベースに保存されます。
ランクに関係なく、最終的な回答または視覚化がフォーマットされ、ユーザーに提示されます。

6。人間のフィードバックとループの継続

エージェントは、ユーザーからのフィードバックを求めています。
ユーザーが自動生成ランキングを検証した場合、質問/回答ペアはベクトルデータベースに保存されます。
そうでない場合は、新しい実行ループが始まります。

このプロセス全体を通して、エージェントはユーザー入力を継続的に求め、コンテキストのメッセージを保存し、コードを生成および実行して最適な結果を確保します。このプロセスでは、さまざまなAIモデルとベクトルデータベースが採用されており、ユーザーの質問に対する正確で有益な回答を提供しています。

フローチャート（一般的なエージェントフロー）：

サポートされているベンダー/モデル

ライブラリは、APIまたはLocalyを介して、さまざまなオープンソースまたは独自のモデルの使用をサポートしています。

API：

Openai-すべてのモデル
Google-ジェミニモデル
人類 - すべてのモデル
GROQ-すべてのモデル
ミストラル - すべてのモデル

地元：

Ollama-すべてのモデル
ローカルモデルの選択（以下の詳細）

llm_configファイルのコンテンツを変更して、特定のエージェントに使用するベンダー/モデルを指定して、デフォルトのOpenAIモデル名をModel and Vendor of Choiceeに置き換えることができます。例えば。 {"agent": "Code Generator", "details": {"model": "open-mixtral-8x22b", "provider":"mistral","max_tokens": 4000, "temperature": 0}} 。 LLM_CONFIGの目的については、以下で詳しく説明します。

使い方

インストール

 pip install bambooai

使用法

パラメーター

 df: pd.DataFrame - Dataframe (It will try to source the data from internet, if 'df' is not provided)

max_conversations: int - Number of "user:assistant" conversation pairs to keep in memory for a context. Default=4

debug: bool - If True, the received code is sent back to the LLM for evaluation of its relevance to the user's question, along with code error checking and debugging.

search_tool: bool - If True, the Planner agent will use a "google search API: https://serper.dev/" if the required information is not available or satisfactory. By default it only support HTML sites, but can be enhanced with Selenium if the ChromeDriver exists on the system (details below).

vector_db: bool - If True, each answer will first be ranked from 1 to 10. If the rank surpasses a certain threshold (8), the corresponding question (vectorised), plan, code, and rank (metadata) are all stored in the Pinecone database. Each time a new question is asked, these records will be searched. If the similarity score is above 0.9, they will be offered as examples and included in the prompt (in a one-shot learning scenario)

df_onthology: bool - If True, the onthology defined in the module `df_onthology.py` will be used to inform LLM of the dataframe structure, metrics, record frequency, keys, joins, abstract functions etc. The onthology is custom for each dataframe type, and needs to be defined by the user. Sample onthology is included. This feature signifficantly improves performance, and quality of the solutions.

exploratory: bool - If set to True, the LLM will evaluate the user's question and select an "Expert" that is best suited to address the question (experts: Research Specialist, Data Analyst). In addition, if the task involves code generation/execution, it will generate a task list detailing the steps, which will subsequently be sent to the LLM as a part of the prompt for the next action. This method is particularly effective for vague user prompts, but it might not perform as efficiently with more specific prompts. The default setting is True.

e.g. bamboo = BambooAI(df, debug=True, vector_db=True, search_tool=True, exploratory=True)
     bamboo = BambooAI(df,debug=False, vector_db=False, exploratory=True, search_tool=True)

非推奨通知（2023年10月25日）： 「LLM」、「local_code_model」、「llm_switch_plan "、および「llm_switch_code」パラメーターがv 0.3.29の時点で廃止されたことに注意してください。エージェントへのモデルとモデルパラメーターの割り当ては、LLM_CONFIGを介して処理されます。これは、環境変数として、またはワーキングディレクトリのLLM_CONFIG.JSONファイルを介して設定できます。以下の詳細をご覧ください

LLM config

エージェント固有のLLM構成は、 LLM_CONFIG Environment変数、またはBambooaiのワーキングディレクトリに保存する必要がある「LLM_CONFIG.JSONファイルに保存されます。構成は辞書のJSONリストの形式であり、モデル名、プロバイダー、温度、MAX_TOKENSを指定します。「Env var」も「LLM_CONFIG.JSON」も存在しない場合、すべてのエージェントに「GPT-3.5-Turbo」を使用するデフォルトのハードコード化された構成を使用します。

プロンプトテンプレート

Bambooaiライブラリは、各エージェントにデフォルトのハードコードされたプロンプトテンプレートのセットを使用します。それらを試してみたい場合は、提供された「prompt_templates_sample.json」ファイルを変更できます。「_sampleの名前から_sampleを作業ディレクトリに削除できます。その後、変更された「prosped_templates.json」のコンテンツは、ハードコードされたデフォルトの代わりに使用されます。

使用例：ループで実行します

 # Run in a loop remembering the conversation history
import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('test_activity_data.csv')
bamboo = BambooAI(df)
bamboo.pd_agent_converse()

使用例：単一の実行

 # Run programaticaly (Single execution).
import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('test_activity_data.csv')
bamboo = BambooAI(df)
bamboo.pd_agent_converse("Calculate 30, 50, 75 and 90 percentiles of the heart rate column")

環境変数

ライブラリには、OpenAI LLMSに接続するには、OpenAI APIアカウントとAPIキーが必要です。 OpenAI APIキーは、 OPENAI_API_KEY環境変数に保存する必要があります。キーはここから取得できます：https：//platform.openai.com/account/api-keys。

Openaiモデルに加えて、さまざまなプロバイダーからのモデルの選択もサポートされています（Groq、Gemini、Mistral、人類）。 APIキーは、次の形式<VENDOR_NAME>_API_KEYで環境変数に保存する必要があります。 Google GeminiモデルにはGEMINI_API_KEY使用する必要があります。

上記のように、LLM構成は、 LLM_CONFIG環境変数の文字列形式で保存できます。提供されたllm_config_sample.jsonのコンテンツを出発点として使用し、アクセスするモデルに応じて、好みに応じて変更できます。

Pincone Vector DBはオプションです。あなたがそれを使いたいなら、あなたは何もする必要はありません。 Pineconeを使用してアカウントがあり、ナレッジベースとランキング機能を使用したい場合は、 PINECONE_API_KEY Endisooment変数をセットアップし、「Vector_DB」パラメーターをTRUEに設定する必要があります。 Vector DBインデックスは、最初の実行時に作成されます。

Google検索もオプションです。あなたがそれを使いたいなら、あなたは何もする必要はありません。 SERPERを使用してアカウントを持っていて、Google検索機能を使用したい場合は、「：https：//serper.dev/」でセットアップしてアカウントが必要になり、 SERPER_API_KEY環境変数を設定し、 'search_tool'パラメーターをtrueに設定します。デフォルトでは、BambooaiはHTMLコンテンツを使用してWebサイトのみをこすります。ただし、ChromedriverでSeleniumを使用することもできます。これははるかに強力です。この機能を有効にするには、Chromeブラウザのバージョンに一致するChromedriverのバージョンを手動でダウンロードし、ファイルシステムに保存し、ChromeDriverへのパスで環境変数SELENIUM_WEBDRIVER_PATHを作成する必要があります。 Bambooai WilはAutomaticalyを拾い上げ、すべてのスクレイピングタスクにセレンを使用します。

ローカルオープンソースモデル

ライブラリは現在、次のオープンソースモデルを直接サポートしています。現在、Humaneval Benchmarkで最高のスコアを獲得したモデルを選択しました。

wizardcoder（wizardlm）： wizardcoder-15b-v1.0、wizardcoder-python-7b-v1.0、wizardcoder-python-13b-v1.0、wizardcoder-python-34b-v1.0
WizardCoder GPTQ（TheBloke）： WizardCoder-15B-1.0-GPTQ、WizardCoder-Python73B-V1.0-GPTQ、WizardCoder-Python-13B-V1.0-GPTQ、WizardCoder-Python-34B-V1.0-GPTQ
Codellama Instruct（TheBloke）： Codellama-7B-Instruct-FP16、Codellama-13B-Instruct-FP16、Codellama-34-Instruct-FP16
Codellama Instruct（Phind）： Phind-Codellama-34B-V2
Codellama Complete（TheBloke）： Codellama-7B-Python-FP16、Codellama-13B-Python-FP16、Codellama-34B-Python-FP16

特定のエージェントにローカルモデルを使用する場合は、OpenAIモデル名をローカルモデル名に置き換えるLLM_CONFIGコンテンツを変更し、プロバイダー値を「ローカル」に変更します。例えば。 {"agent": "Code Generator", "details": {"model": "Phind-CodeLlama-34B-v2", "provider":"local","max_tokens": 2000, "temperature": 0}}現在、コード生成タスクのようなすべてのコードコードのようなタスクのように、コード生成タスクのようなすべてのコード生成タスクのように、すべてのコード生成タスクのようなものを使用することをお勧めします。選択したOpenaiモデル。このモデルは、その後の実行のためにHuggingfaceとキャッシュされたローカリからダウンロードされます。合理的なパフォーマンスには、CUDA対応GPUとCUDAバージョンと互換性のあるPytorchライブラリが必要です。以下は、パッケージに含まれていない必要なライブラリで、独立してインストールする必要があります。

 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 (Adjust to match your CUDA version. This library is already included in Colab notebooks)
pip install auto-gptq (Only required if using WizardCoder-15B-1.0-GPTQ model)
pip install accelerate
pip install einops
pip install xformers
pip install bitsandbytes

ローカルモデルの設定とパラメーターは、local_models.pyモジュールにあり、特定の構成または設定に合わせて調整できます。

オラマ

ライブラリは、Ollama https://ollama.com/およびすべてのモデルの使用もサポートしています。特定のエージェントにローカルOllamaモデルを使用する場合は、Openaiモデル名をOllamaモデル名に置き換えるLLM_CONFIGコンテンツを変更し、プロバイダーの値を「Ollama」に変更します。例えば。 {"agent": "Code Generator", "details": {"model": "llama3:70b", "provider":"ollama","max_tokens": 2000, "temperature": 0}}

ロギング

すべてのLLMインタラクション（ローカルまたはAPIを介して）は、 bambooai_consolidated_log.jsonファイルに記録されています。ログファイルのサイズが5 MBに達すると、新しいログファイルが作成されます。最古のファイルが上書きされる前に、合計3つのログファイルがファイルシステムに保持されます。

次の詳細がキャプチャされます。

チェーンID
チェーン内のすべてのLLM呼び出し（ステップ） 。たとえば、各呼び出しの詳細を含む。エージェント名、タイムスタンプ、モデル、プロンプト（コンテキストメモリ）、応答、トークンの使用、コスト、トークンあたりのトークンなど。
トークンの使用、コスト、LLMコールのカウント、1秒あたりのトークンなどを含むチェーンの概要。
トークンの使用、コスト、通話数、1秒あたりのトークンなどを含むLLMごとの概要。

ログ構造：

 - chain_id: 1695375585
  ├─ chain_details (LLM Calls)
  │   ├─ List of Dictionaries (Multiple Steps)
  │       ├─ Call 1
  │       │   ├─ agent (String)
  │       │   ├─ chain_id (Integer)
  │       │   ├─ timestamp (String)
  │       │   ├─ model (String)
  │       │   ├─ messages (List)
  │       │   │   └─ role (String)
  │       │   │   └─ content (String)
  │       │   └─ Other Fields (content, prompt_tokens, completion_tokens, total_tokens, elapsed_time, tokens_per_second, cost)
  │       ├─ Call 2
  │       │   └─ ... (Similar Fields)
  │       └─ ... (Call 3, Call 4, Call 5 ...)
  │
  ├─ chain_summary
  │   ├─ Dictionary
  │       ├─ Total LLM Calls (Integer)
  │       ├─ Prompt Tokens (Integer)
  │       ├─ Completion Tokens (Integer)
  │       ├─ Total Tokens (Integer)
  │       ├─ Total Time (Float)
  │       ├─ Tokens per Second (Float)
  │       ├─ Total Cost (Float)
  │
  ├─ summary_per_model
      ├─ Dictionary
          ├─ LLM 1 (Dictionary)
          │   ├─ LLM Calls (Integer)
          │   ├─ Prompt Tokens (Integer)
          │   ├─ Completion Tokens (Integer)
          │   ├─ Total Tokens (Integer)
          │   ├─ Total Time (Float)
          │   ├─ Tokens per Second (Float)
          │   ├─ Total Cost (Float)
          ├─ LLM 2
          |   └─ ... (Similar Fields)
          └─ ... (LLM 3, LLM 4, LLM 5 ...)

パフォーマンス比較（2024年5月3日）

タスク：機械学習モデルを考案して、タイタニックの乗客の生存を予測します。出力には、モデルの精度と混乱マトリックス、相関マトリックス、およびその他の関連するメトリックの視覚化が含まれている必要があります。

データセット： Titanic.csv

モデル： GPT-4-Turbo

OpenaiアシスタントAPI（コードインタープレーター）

結果：
- 混乱マトリックス：
  - 真のネガティブ（TN）： 90人の乗客が生き残っていないと正しく予測されました。
  - True Positive（TP）： 56人の乗客が生き残っていると正しく予測されました。
  - 偽陰性（FN）： 18人の乗客が生き残っていないと誤って予測されました。
  - FALSE陽性（FP）： 15人の乗客が生き残っていると誤って予測されました。

メトリック	価値
実行時間	77.12秒
入力トークン	7128
出力トークン	1215
総コスト	0.1077ドル

Bambooai（計画なし、Google検索またはベクターDB）

結果：
- 混乱マトリックス：
  - 真のネガティブ（TN）： 92人の乗客が生き残っていないと正しく予測されました。
  - True Positive（TP）： 55人の乗客が生き残っていると正しく予測されました。
  - 偽陰性（FN）： 19人の乗客が生き残っていないと誤って予測されました。
  - FALSE陽性（FP）： 13人の乗客が生き残っていると誤って予測されました。

メトリック	価値
実行時間	47.39秒
入力トークン	722
出力トークン	931
総コスト	0.0353ドル

評価レポート2024年8月18日

スポーツデータ分析のためのAIツールの客観的評価_ Maxwell-V2対Generic LLMS.PDF

メモ

ライブラリは現在、OpenAIチャットモデルをサポートしています。 GPT-3.5-TurboとGPT-4の両方でテストされています。 GPT-3.5-ターボは、よりシンプルなタスクではOKを実行しているようであり、10倍低いコストのために優れた開始/探索オプションです。
また、APIを介して次のベンダーのモデルで使用することもできます。人類、ミストラル、グーグル・ジェミニ、groq。必要なのはAPIキーだけです。
また、オラマとそのすべてのモデルの使用もサポートされています。 Llama 3 Finetunesが着陸を開始しようとしているので、これは非常に便利です。
タスクのコーディングについては、CodellamaやWizardCoderなどのSOTAオープンソースコードモデルもサポートします。
ライブラリはLLMで生成されたPythonコードを実行します。これは、LLM生成されたPythonコードが有害である場合に悪い場合があります。慎重に使用してください。
トークンの使用を監視してください。執筆時点では、1K入力トークンあたりのコストは、GPT-4ターボで0.01米ドル、GPT-3.5-ターボで0.001米ドルです。特により高価なモデルを使用する場合、ライブラリを使用する場合、これらのコストを念頭に置いておくことが重要です。
サポートされているOpenAIモデル： GPT-3.5-TURBO、GPT-3.5-TURBO-613、GPT-3.5-TURBO-16K、GPT-4、GPT-4-TURBO。
サポートされているオープンソースモデル： WizardCoder-15B-V1.0、WizardCoder-Python-7B-V1.0、WizardCoder-Python-13B-V1.0、WizardCoder-Python-34B-V1.0、WizardCoder-15B-1.0-GPTQ、WizardCoder-Pyther-Pyther Pyther73B1.0-GPTQ、 wizardcoder-python-13b-v1.0-gptq、wizardcoder-python-34b-v1.0-gptq、codellama-7b-instruct-fp16、codellama-13b-instruct-fp16、codellama-34b-intruct-fp16、codellama-7b-python-fpph16、codellama-fpppph16 Codellama-34B-Python-FP16、Phind-Codellama-34B-V2。

貢献

貢献は大歓迎です。プルリクエストを自由に開いてください。私たちの目標は、読みやすさの高い簡潔なコードベースを維持することであることに注意してください。

トト

たくさん：-）

拡大する

BambooAI

竹

客観的

プレビュー

それがどのように機能するか

サポートされているベンダー/モデル

使い方

パフォーマンス比較（2024年5月3日）

OpenaiアシスタントAPI（コードインタープレーター）

Bambooai（計画なし、Google検索またはベクターDB）

評価レポート2024年8月18日

メモ

貢献

トト

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf