BambooAI 다운로드 - BambooAI 소스 코드 다운로드

Bambooi

LLMS (Large Language Models)를 사용하여 데이터 분석 어시스턴트와 마찬가지로 자연 언어 상호 작용 기능을 제공하기 위해 LLM (Lange Language Models)을 사용하는 가벼운 라이브러리. 귀하는 자신의 데이터 세트를 제공하거나 라이브러리가 귀하를 위해 데이터를 찾아서 가져 오도록 허용 할 수 있습니다. 인터넷 검색 및 외부 API 상호 작용을 지원합니다.

목적

Bambooi Library는 LLM (Large Language Model)을 사용하여 데이터 분석을 용이하게하여 프로그래밍 전문 지식이없는 사용자를 포함하여 사용자가보다 액세스 할 수 있도록 실험적이고 Lightweigh 도구입니다. 연구 및 데이터 분석의 보조원으로 기능하여 사용자가 자연어를 통해 데이터와 상호 작용할 수 있습니다. 사용자는 자신의 데이터 세트를 제공하거나 Bambooai가 필요한 데이터를 소싱하는 데 도움이 될 수 있습니다. 이 도구는 또한 인터넷 검색을 통합하고 외부 API에 액세스하여 기능을 향상시킵니다.

Bambooi는 데이터 세트에 대한 자연어 쿼리를 처리하고 데이터 분석 및 시각화를 위해 Python 코드를 생성하고 실행할 수 있습니다. 이를 통해 사용자는 광범위한 코딩 지식없이 데이터에서 통찰력을 도출 할 수 있습니다. 사용자는 단순히 데이터 세트를 입력하고 간단한 영어로 질문을하며 Bambooi는 데이터를 더 잘 이해하는 데 도움이되는 경우에 대한 시각화와 함께 답변을 제공합니다.

Bambooi는 모든 수준에서 데이터 분석가의 기능을 강화하는 것을 목표로합니다. 데이터 분석 및 시각화를 단순화하여 워크 플로를 간소화하는 데 도움이됩니다. 이 라이브러리는 다양한 요구를 충족시키기 위해 사용자 친화적이고 효율적이며 적응할 수 있도록 설계되었습니다.

시사

Google Colab에서 사용해보십시오.

제공된 데이터 프레임을 사용한 기계 학습 예 :

 !pip install pandas
!pip install bambooai

import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('titanic.csv')
bamboo = BambooAI(df, debug=False, vector_db=False, search_tool=True)
bamboo.pd_agent_converse()

Jupyter 노트 :

작업 : 타이타닉에서 승객의 생존을 예측하기 위해 기계 학습 모델을 고안 해 주시겠습니까? 모델의 정확도를 출력하십시오. 혼란 매트릭스, 상관 행렬 및 기타 관련 메트릭을 플로팅하십시오. 이 작업에 대한 최상의 접근 방식을 위해 인터넷을 검색하십시오.

Titanic_ml.mp4

웹 UI :

작업 : 스포츠 데이터 분석과 관련된 다양한 쿼리

bambooi_demo_ui.mp4

작동 방식

Bambooi Agent는 몇 가지 주요 단계를 통해 작동하여 사용자와 상호 작용하고 응답을 생성합니다.

1. 시작

사용자는 질문으로 Bambooai 에이전트를 출시합니다.
초기 질문이 제공되지 않으면 에이전트는 프로그램을 종료하기 위해 질문이나 '종료'명령을 사용자에게 유도합니다.
그런 다음 에이전트는 제공된 각 질문에 응답하는 루프로 들어가서 완료되면 다음 질문을 사용자에게 유사합니다. 이 루프는 사용자가 프로그램을 종료하기로 선택할 때까지 계속됩니다.

2. 작업 평가

에이전트는 수신 된 질문을 저장하고 대형 언어 모델 (LLM)을 사용하여이를 평가하고 분류합니다.
LLM은 질문에 텍스트 응답, 추가 정보 (Google 검색 : https://serper.dev/)가 필요한지 또는 코드를 사용하여 해결할 수 있는지 결정합니다.
작업 평가 및 분류에 따라 에이전트는 적절한 에이전트를 호출합니다.

3. 동적 프롬프트 빌드

질문을 코드로 해결할 수있는 경우, 에이전트는 필요한 데이터가 제공된 데이터 세트 내에 포함되어 있는지, 외부 소스에서 다운로드 해야하는지 또는 질문이 일반적인 특성이며 데이터가 필요하지 않은지 결정합니다.
그런 다음 에이전트는 그에 따라 접근 방식을 선택합니다. 그것은 분석의 청사진 역할을하기 위해 작업 목록으로 표현 된 알고리즘을 공식화합니다.
원래 질문은이 알고리즘과 일치하도록 수정되었습니다. 에이전트는 유사한 질문에 대해 벡터 데이터베이스에 대한 의미 검색을 수행합니다.
발견 된 모든 질문은 예제로 프롬프트에 추가됩니다. 그런 다음 GPT-3.5, GPT-4 또는 로컬 OSS 모델을 사용하여 알고리즘을 기반으로 코드를 생성합니다.

4. 디버깅, 실행 및 오류 수정

생성 된 코드에 디버깅이 필요하면 GPT-4가 참여합니다.
코드가 실행되고 오류가 발생하면 에이전트가 오류 메시지를 기록하고 수정을 위해 LLM에 다시 참조합니다.
이 프로세스는 성공적인 코드 실행까지 계속됩니다.

5. 결과, 순위 및 지식 기반 구축

성공적인 실행 후 GPT-4는 답을 평가하는 데 사용됩니다.
순위가 설정 임계 값을 능가하면 질문, 답변, 코드 및 순위는 Pinecone 벡터 데이터베이스에 저장됩니다.
순위에 관계없이 최종 답변 또는 시각화는 포맷되어 사용자에게 제시됩니다.

6. 인간 피드백 및 루프 연속

에이전트는 사용자로부터 피드백을 추구합니다.
사용자가 자동 생성 순위를 검증하면 질문/답변 쌍이 벡터 데이터베이스에 저장됩니다.
그렇지 않다면 새로운 실행 루프가 시작됩니다.

이 프로세스를 통해 에이전트는 사용자 입력을 지속적으로 요청하고 컨텍스트를 위해 메시지를 저장하고 코드를 생성하고 실행하여 최적의 결과를 보장합니다. 이 프로세스에는 다양한 AI 모델과 벡터 데이터베이스가 사용되어 사용자의 질문에 대한 정확하고 유용한 응답을 제공합니다.

흐름도 (일반 에이전트 흐름) :

지원되는 공급 업체/모델

라이브러리는 API 또는 Localy를 통해 다양한 오픈 소스 또는 독점 모델의 사용을 지원합니다.

API :

Openai- 모든 모델
Google- 쌍둥이 자리 모델
인류 - 모든 모델
Groq- 모든 모델
MISTRAL- 모든 모델

현지의:

Ollama- 모든 모델
로컬 모델 선택 (아래의 추가 정보)

LLM_CONFIG 파일의 컨텐츠를 수정하여 기본 OpenAI 모델 이름을 선택의 모델 및 공급 업체로 대체하여 특정 에이전트에 사용할 공급 업체/모델을 지정할 수 있습니다. 예를 들어. {"agent": "Code Generator", "details": {"model": "open-mixtral-8x22b", "provider":"mistral","max_tokens": 4000, "temperature": 0}} . LLM_CONFIG의 목적은 아래에 자세히 설명되어 있습니다.

사용 방법

설치

 pip install bambooai

용법

매개 변수

 df: pd.DataFrame - Dataframe (It will try to source the data from internet, if 'df' is not provided)

max_conversations: int - Number of "user:assistant" conversation pairs to keep in memory for a context. Default=4

debug: bool - If True, the received code is sent back to the LLM for evaluation of its relevance to the user's question, along with code error checking and debugging.

search_tool: bool - If True, the Planner agent will use a "google search API: https://serper.dev/" if the required information is not available or satisfactory. By default it only support HTML sites, but can be enhanced with Selenium if the ChromeDriver exists on the system (details below).

vector_db: bool - If True, each answer will first be ranked from 1 to 10. If the rank surpasses a certain threshold (8), the corresponding question (vectorised), plan, code, and rank (metadata) are all stored in the Pinecone database. Each time a new question is asked, these records will be searched. If the similarity score is above 0.9, they will be offered as examples and included in the prompt (in a one-shot learning scenario)

df_onthology: bool - If True, the onthology defined in the module `df_onthology.py` will be used to inform LLM of the dataframe structure, metrics, record frequency, keys, joins, abstract functions etc. The onthology is custom for each dataframe type, and needs to be defined by the user. Sample onthology is included. This feature signifficantly improves performance, and quality of the solutions.

exploratory: bool - If set to True, the LLM will evaluate the user's question and select an "Expert" that is best suited to address the question (experts: Research Specialist, Data Analyst). In addition, if the task involves code generation/execution, it will generate a task list detailing the steps, which will subsequently be sent to the LLM as a part of the prompt for the next action. This method is particularly effective for vague user prompts, but it might not perform as efficiently with more specific prompts. The default setting is True.

e.g. bamboo = BambooAI(df, debug=True, vector_db=True, search_tool=True, exploratory=True)
     bamboo = BambooAI(df,debug=False, vector_db=False, exploratory=True, search_tool=True)

감가 상각 통지 (2023 년 10 월 25 일) : "llm", "local_code_model", "llm_switch_plan"및 "llm_switch_code"매개 변수는 v 0.3.29 기준으로 더 이상 사용되지 않았습니다. 에이전트에 모델 및 모델 매개 변수의 할당은 이제 LLM_Config를 통해 처리됩니다. 이것은 작업 디렉토리의 환경 변수 또는 llm_config.json 파일을 통해 설정할 수 있습니다. 아래 세부 사항을 참조하십시오

LLM 구성

에이전트 특정 LLM 구성은 LLM_CONFIG 환경 변수 또는 Bambooi의 작업 디렉토리에 저장 해야하는 "LLM_CONFIG.JSON 파일에 저장됩니다. 구성은 Dictionaries의 JSON 목록 형식이며 모델 이름, 공급자, 온도 및 MAX_TOKENS를 지정할 수 있습니다. 선호도를 반영하도록 구성을 수정하십시오. "Env var"나 "llm_config.json"이 존재하지 않으면 Bambooi는 모든 에이전트에 대해 "gpt-3.5-turbo"를 사용하는 기본 하드 코드 구성을 사용합니다.

프롬프트 템플릿

Bambooi Library는 각 에이전트에 대한 기본 하드 코드 된 프롬프트 템플릿 세트를 사용합니다. 그들과 함께 실험하려면 제공된 "prompt_templates_sample.json"파일을 수정하고 "이름에서 _sample을 제거하고 작업 디렉토리에 저장할 수 있습니다. 그 후, 수정 된"prompt_templates.json "의 내용은 하드 코드 된 기본값 대신 항상 사용될 수 있습니다. "prompt_templates.json".

예제 사용 : 루프에서 실행됩니다

 # Run in a loop remembering the conversation history
import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('test_activity_data.csv')
bamboo = BambooAI(df)
bamboo.pd_agent_converse()

예제 사용 : 단일 실행

 # Run programaticaly (Single execution).
import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('test_activity_data.csv')
bamboo = BambooAI(df)
bamboo.pd_agent_converse("Calculate 30, 50, 75 and 90 percentiles of the heart rate column")

환경 변수

라이브러리에는 OpenAI API 계정과 API 키가 OpenAI LLMS에 연결해야합니다. OpenAI API 키는 OPENAI_API_KEY 환경 변수에 저장해야합니다. 키는 https://platform.openai.com/account/api-keys에서 얻을 수 있습니다.

OpenAI 모델 외에도 다양한 제공 업체의 모델이 지원됩니다 (Groq, Gemini, Mistral, Anthropic). API 키는 다음 형식 <VENDOR_NAME>_API_KEY 형식으로 환경 변수에 저장해야합니다. Google Gemini 모델에는 GEMINI_API_KEY 사용해야합니다.

위에서 언급했듯이 LLM 구성은 LLM_CONFIG 환경 변수의 문자열 형식으로 저장 될 수 있습니다. 제공된 LLM_CONFIG_SAMPE.JSON의 내용을 시작점으로 사용하고 액세스 할 수있는 모델에 따라 선호도를 수정할 수 있습니다.

Pincone 벡터 DB는 선택 사항입니다. 당신이 그것을 사용하고 싶지 않다면, 당신은 아무것도 할 필요가 없습니다. Pinecone이있는 계정이 있고 지식 기반 및 순위 기능을 사용하려면 PINECONE_API_KEY Envirooment 변수를 설정하고 'vector_db'매개 변수를 true로 설정해야합니다. 벡터 DB 인덱스는 첫 번째 실행시 생성됩니다.

Google 검색도 선택 사항입니다. 당신이 그것을 사용하고 싶지 않다면, 당신은 아무것도 할 필요가 없습니다. Serper와 계정이 있고 Google 검색 기능을 사용하려면 ": https://serper.dev/"로 설정하고 계정을 설정하고 SERPER_API_KEY 환경 변수를 설정하고 'Search_Tool'매개 변수를 true로 설정해야합니다. Bambooai는 기본적으로 HTML 컨텐츠로 웹 사이트 만 긁을 수 있습니다. 그러나 훨씬 더 강력한 Chromedriver와 함께 셀레늄을 사용할 수도 있습니다. 이 기능을 활성화하려면 Chrome 브라우저 버전과 일치하는 Chromedriver 버전을 수동으로 다운로드하고 파일 시스템에 저장하고 Chromedriver로가는 경로로 환경 변수 SELENIUM_WEBDRIVER_PATH 작성하십시오. Bambooaai는 자동적으로 집어 들고 모든 스크래핑 작업에 셀레늄을 사용합니다.

로컬 오픈 소스 모델

라이브러리는 현재 다음 오픈 소스 모델을 직접 지원합니다. 현재 HumaneVal 벤치 마크에서 가장 높은 점수를받는 모델을 선택했습니다.

WizardCoder (WizardCoder) : WizardCoder-15B-V1.0, WizardCoder-Python-7B-V1.0, WizardCoder-Python-13B-V1.0, WizardCoder-Python-34B-V1.0
WizardCoder GPTQ (TheBloke) : WizardCoder-15B-1.0-GPTQ, WizardCoder-Python73B-V1.0-GPTQ, WizardCoder-Python-13B-V1.0-GPTQ, WizardCoder-Python-34B-V1.0-GPTQ
Codellama instruct (TheBloke) : Codellama-7B-Instruct-FP16, Codellama-13B-Instruct-FP16, Codellama-34B-Instruct-FP16
Codellama Instruct (Phind) : Phind-Codellama-34B-V2
Codellama 완성 (TheBloke) : Codellama-7B-Python-FP16, Codellama-13B-Python-FP16, Codellama-34B-Python-FP16

특정 에이전트의 로컬 모델을 사용하려면 OpenAI 모델 이름을 로컬 모델 이름으로 대체하는 LLM_CONFIG 컨텐츠를 수정하고 제공자 값을 '로컬'으로 변경하십시오. 예를 들어. {"agent": "Code Generator", "details": {"model": "Phind-CodeLlama-34B-v2", "provider":"local","max_tokens": 2000, "temperature": 0}} 현재 코드 생성 작업에만 지역 모델을 사용하는 것이 좋습니다. 선택의 여지가 있습니다. 이 모델은 후속 실행을 위해 Huggingface 및 Cached Localy에서 다운로드됩니다. 합리적인 성능을 얻으려면 CUDA가 활성화 된 GPU 및 CUDA 버전과 호환되는 Pytorch 라이브러리가 필요합니다. 아래는 패키지에 포함되지 않았으며 독립적으로 설치 해야하는 필수 라이브러리입니다.

 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 (Adjust to match your CUDA version. This library is already included in Colab notebooks)
pip install auto-gptq (Only required if using WizardCoder-15B-1.0-GPTQ model)
pip install accelerate
pip install einops
pip install xformers
pip install bitsandbytes

로컬 모델의 설정 및 매개 변수는 local_models.py 모듈에 있으며 특정 구성 또는 기본 설정에 맞게 조정할 수 있습니다.

올라마

도서관은 또한 Ollama https://ollama.com/의 사용 및 모든 모델의 사용을 지원합니다. 특정 에이전트에 로컬 Ollama 모델을 사용하려면 OpenAI 모델 이름을 Ollama 모델 이름으로 대체하는 LLM_CONFIG 컨텐츠를 수정하고 제공자 값을 'Ollama'로 변경하십시오. 예를 들어. {"agent": "Code Generator", "details": {"model": "llama3:70b", "provider":"ollama","max_tokens": 2000, "temperature": 0}}

벌채 반출

모든 LLM 상호 작용 (로컬 또는 API)은 bambooai_consolidated_log.json 파일에 로그인됩니다. 로그 파일의 크기가 5MB에 도달하면 새 로그 파일이 생성됩니다. 가장 오래된 파일을 덮어 쓰기 전에 총 3 개의 로그 파일이 파일 시스템에 보관됩니다.

다음 세부 사항이 캡처됩니다.

체인 ID
각 통화의 세부 사항을 포함하여 체인 내의 모든 LLM 호출 (단계) . 에이전트 이름, 타임 스탬프, 모델, 프롬프트 (컨텍스트 메모리), 응답, 토큰 사용, 비용, 초당 토큰 등
토큰 사용, 비용, LLM 통화 수, 초당 토큰 등을 포함한 체인 요약 .
토큰 사용, 비용, 통화 수, 초당 토큰 등을 포함한 LLM 당 요약 .

로그 구조 :

 - chain_id: 1695375585
  ├─ chain_details (LLM Calls)
  │   ├─ List of Dictionaries (Multiple Steps)
  │       ├─ Call 1
  │       │   ├─ agent (String)
  │       │   ├─ chain_id (Integer)
  │       │   ├─ timestamp (String)
  │       │   ├─ model (String)
  │       │   ├─ messages (List)
  │       │   │   └─ role (String)
  │       │   │   └─ content (String)
  │       │   └─ Other Fields (content, prompt_tokens, completion_tokens, total_tokens, elapsed_time, tokens_per_second, cost)
  │       ├─ Call 2
  │       │   └─ ... (Similar Fields)
  │       └─ ... (Call 3, Call 4, Call 5 ...)
  │
  ├─ chain_summary
  │   ├─ Dictionary
  │       ├─ Total LLM Calls (Integer)
  │       ├─ Prompt Tokens (Integer)
  │       ├─ Completion Tokens (Integer)
  │       ├─ Total Tokens (Integer)
  │       ├─ Total Time (Float)
  │       ├─ Tokens per Second (Float)
  │       ├─ Total Cost (Float)
  │
  ├─ summary_per_model
      ├─ Dictionary
          ├─ LLM 1 (Dictionary)
          │   ├─ LLM Calls (Integer)
          │   ├─ Prompt Tokens (Integer)
          │   ├─ Completion Tokens (Integer)
          │   ├─ Total Tokens (Integer)
          │   ├─ Total Time (Float)
          │   ├─ Tokens per Second (Float)
          │   ├─ Total Cost (Float)
          ├─ LLM 2
          |   └─ ... (Similar Fields)
          └─ ... (LLM 3, LLM 4, LLM 5 ...)

성능 비교 (2024 년 5 월 3 일)

작업 : 타이타닉에서 승객의 생존을 예측하기 위해 기계 학습 모델을 고안하십시오. 출력에는 모델의 정확도 및 혼동 행렬의 시각화, 상관 매트릭스 및 기타 관련 메트릭이 포함되어야합니다.

데이터 세트 : Titanic.csv

모델 : GPT-4-TURBO

Openai Assistants API (코드 통역사)

결과:
- 혼란 매트릭스 :
  - True Negative (TN) : 90 명의 승객이 생존하지 않은 것으로 올바르게 예측되었습니다.
  - True Positive (TP) : 56 명의 승객이 생존하는 것으로 올바르게 예측되었습니다.
  - False Negative (FN) : 18 명의 승객이 생존하지 않은 것으로 잘못 예측되었습니다.
  - 거짓 긍정적 (FP) : 15 명의 승객이 생존 할 것으로 잘못 예측되었습니다.

메트릭	값
실행 시간	77.12 초
입력 토큰	7128
출력 토큰	1215
총 비용	$ 0.1077

Bambooi (계획 없음, Google 검색 또는 Vector DB)

결과:
- 혼란 매트릭스 :
  - True Negative (TN) : 92 명의 승객이 생존하지 않은 것으로 올바르게 예측되었습니다.
  - True Positive (TP) : 55 명의 승객이 생존하는 것으로 올바르게 예측되었습니다.
  - False Negative (FN) : 19 명의 승객이 생존하지 않은 것으로 잘못 예측되었습니다.
  - 거짓 긍정적 (FP) : 13 명의 승객이 생존 할 것으로 잘못 예측되었습니다.

메트릭	값
실행 시간	47.39 초
입력 토큰	722
출력 토큰	931
총 비용	$ 0.0353

평가 보고서 2024 년 8 월 18 일

스포츠 데이터 분석을위한 AI 도구의 객관적인 평가 _ Maxwell-V2 vs. Generic LLMS.pdf

메모

라이브러리는 현재 OpenAI 채팅 모델을 지원합니다. GPT-3.5-Turbo 및 GPT-4로 테스트되었습니다. GPT-3.5-Turbo는 더 간단한 작업에 적합한 것으로 보이며 10 배 낮은 비용으로 인해 좋은 시작/탐사 옵션입니다.
API를 통해 다음 공급 업체의 모델과 함께 사용할 수도 있습니다. Anthropic, Mistral, Google Gemini, Groq. API 키 만 있으면됩니다.
또한 Ollama와 모든 모델의 사용이 지원됩니다. Llama 3 Finetunes의 Buch가 착륙을 시작하기 때문에 이것은 매우 편리 할 수 있습니다.
코딩 작업의 경우 Codellama 및 WizardCoder와 같은 SOTA 오픈 소스 코드 모델도 지원합니다.
라이브러리는 LLM 생성 된 Python 코드를 실행합니다. LLM 생성 된 Python 코드가 유해한 경우 나빠질 수 있습니다. 조심스럽게 사용하십시오.
토큰 사용량을 모니터링하십시오. 작성 당시 1K 입력 토큰 당 비용은 GPT-4 터보의 경우 $ 0.01 USD, GPT-3.5-Turbo의 경우 $ 0.001 USD입니다. 라이브러리를 사용할 때, 특히 더 비싼 모델을 사용할 때 이러한 비용을 염두에 두는 것이 중요합니다.
지원되는 OpenAI 모델 : GPT-3.5-Turbo, GPT-3.5-Turbo-613, GPT-3.5-Turbo-16K, GPT-4, GPT-4-Turbo.
지원되는 오픈 소스 모델 : WizardCoder-15B-V1.0, WizardCoder-Python-7B-V1.0, WizardCoder-Python-13B-V1.0, WizardCoder-Python-34B-V1.0, WizardCoder-15B-1.0-GPTQ, WizardCoder 73b-Python73b-V-V-V-1.0-gython 73b-v-1.0-gpty. WizardCoder-Python-13B-V1.0-GPTQ, WizardCoder-Python-34B-V1.0-GPTQ, Codellama-7B-Instruct-FP16, Codellama-13B-Instruct-FP16, Codellama-34B-Instruct-FP16, Codellama-11b-Python-FP16, Codellama-11b-Python-FP16. Codellama-34B-Python-FP16, Phind-Codellama-34B-V2.

기여

기부금을 환영합니다. 풀 요청을 자유롭게 열어주세요. 우리의 목표는 가독성이 높은 간결한 코드베이스를 유지하는 것입니다.

TODO

많이 :-)

확장하다

BambooAI

Bambooi

목적

시사

작동 방식

지원되는 공급 업체/모델

사용 방법

성능 비교 (2024 년 5 월 3 일)

Openai Assistants API (코드 통역사)

Bambooi (계획 없음, Google 검색 또는 Vector DB)

평가 보고서 2024 년 8 월 18 일

메모

기여

TODO

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf