BambooAI скачать - загрузка исходного кода BambooAI

Бамбук

Легкая библиотека, использующая крупные языковые модели (LLMS) для обеспечения возможностей взаимодействия с естественным языком, очень похожие на исследователь и анализ данных, позволяющий беседовать с вашими данными. Вы можете либо предоставить свои собственные наборы данных, либо позволить библиотеке найти и извлекать данные для вас. Он поддерживает поиск в Интернете и внешние взаимодействия API.

Цель

Библиотека Bambooai - это экспериментальный, LightWeigh Tool, который использует крупные языковые модели (LLMS) для облегчения анализа данных, что делает его более доступным для пользователей, включая тех, у кого нет опыта программирования. Он функционирует в качестве помощника для исследований и анализа данных, позволяя пользователям взаимодействовать со своими данными через естественный язык. Пользователи могут предоставить свои собственные наборы данных, или Bambooai может помочь в поиске необходимых данных. Инструмент также интегрирует поиск в Интернете и доступ к внешним API для улучшения его функциональности.

Bambooai обрабатывает запросы естественного языка о наборах данных и может генерировать и выполнять код Python для анализа и визуализации данных. Это позволяет пользователям получать информацию из своих данных без обширных знаний о кодировании. Пользователи просто вводят свой набор данных, задают вопросы на простом английском языке, а Bambooai предоставляет ответы, а также визуализации, если это необходимо, чтобы помочь лучше понять данные.

Bambooai стремится расширить возможности аналитиков данных на всех уровнях. Он упрощает анализ и визуализацию данных, помогая оптимизировать рабочие процессы. Библиотека предназначена для удобства для пользователя, эффективной и адаптируемой для удовлетворения различных потребностей.

Предварительный просмотр

Попробуйте это в Google Colab:

Пример машинного обучения с использованием предоставленного DataFrame:

 !pip install pandas
!pip install bambooai

import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('titanic.csv')
bamboo = BambooAI(df, debug=False, vector_db=False, search_tool=True)
bamboo.pd_agent_converse()

Журпина Jupyter:

Задача: Не могли бы вы разработать модель Machine Learnig, чтобы предсказать выживание пассажиров на Титанике? Выводит точность модели. Постройте матрицу путаницы, корреляционную матрицу и другие соответствующие метрики. Поиск в Интернете для лучшего подхода к этой задаче.

Titanic_ml.mp4

Веб -интерфейс:

Задача: различные запросы, связанные с анализом спортивных данных

Bambooai_demo_ui.mp4

Как это работает

Агент Bambooai работает через несколько ключевых шагов для взаимодействия с пользователями и генерации ответов:

1. Посвящение

Пользователь запускает агента Bambooai с вопросом.
Если первоначальный вопрос не указан, агент побуждает пользователя за вопрос или команду «выхода» для прекращения программы.
Затем агент входит в цикл, где он отвечает на каждый предоставленный вопрос, и после завершения побуждает пользователя на следующий вопрос. Этот цикл продолжается до тех пор, пока пользователь не решит выйти из программы.

2. Оценка задачи

Агент хранит полученный вопрос и использует большую языковую модель (LLM) для оценки и классификации его.
LLM определяет, требует ли вопрос текстовый ответ, дополнительную информацию (Google Search: https://serper.dev/) или может быть разрешена с помощью кода.
В зависимости от оценки задачи и классификации агент вызывает соответствующего агента.

3. Динамическая подсказка

Если вопрос может быть решен с помощью кода, агент определяет, содержатся ли необходимые данные в предоставленном наборе данных, требует загрузки из внешнего источника, или вопрос об общем характере, и данные не требуются.
Затем агент выбирает свой подход соответственно. Он формулирует алгоритм, выраженный в качестве списка задач, чтобы служить планом для анализа.
Первоначальный вопрос изменен, чтобы соответствовать этому алгоритму. Агент выполняет семантический поиск по векторной базе данных по аналогичным вопросам.
Любые соответствующие вопросы добавляются к приведению в качестве примеров. GPT-3.5, GPT-4 или локальная модель OSS затем используется для генерации кода на основе алгоритма.

4. Отладка, выполнение и исправление ошибок

Если сгенерированный код нуждается в отладке, GPT-4 задействован.
Код выполняется, и если возникают ошибки, агент регистрирует сообщение об ошибке и ссылается на LLM для коррекции.
Этот процесс продолжается до успешного выполнения кода.

5. Результаты, рейтинг и сборка базы знаний

Опубликовать успешное выполнение, GPT-4 используется для ранжирования ответа.
Если ранга превосходит установленную порог, вопрос, ответ, код и ранг хранятся в базе данных Vector Pinecone.
Независимо от ранга, окончательный ответ или визуализация отформатируется и представлен пользователю.

6. Человеческая обратная связь и продолжение петли

Агент ищет отзывы пользователя.
Если пользователь проверяет автоматическое ранжирование, пара вопросов/ответов хранится в векторной базе данных.
Если нет, начинается новый цикл исполнения.

На протяжении всего этого процесса агент непрерывно вызывает пользовательский ввод, хранит сообщения для контекста и генерирует и выполняет код для обеспечения оптимальных результатов. Различные модели ИИ и векторная база данных используются в этом процессе для предоставления точных и полезных ответов на вопросы пользователя.

Блок -схема (поток общего агента):

Поддерживаемые поставщики/модели

Библиотека поддерживает использование различных моделей с открытым исходным кодом или проприетарных моделей, либо через API, либо Localy.

API:

OpenAI - все модели
Google - Модели Близнецов
Антропический - все модели
Groq - все модели
Мистраль - все модели

Местный:

Оллама - все модели
Выбор локальных моделей (подробнее ниже)

Вы можете указать, какой поставщик/модель вы хотите использовать для конкретного агента, изменяя содержимое файла LLM_CONFIG, заменив имя модели OpenAI по умолчанию моделью и поставщиком вашего выбора. например. {"agent": "Code Generator", "details": {"model": "open-mixtral-8x22b", "provider":"mistral","max_tokens": 4000, "temperature": 0}} . Цель LLM_CONFIG описана более подробно ниже.

Как использовать

Установка

 pip install bambooai

Использование

Параметры

 df: pd.DataFrame - Dataframe (It will try to source the data from internet, if 'df' is not provided)

max_conversations: int - Number of "user:assistant" conversation pairs to keep in memory for a context. Default=4

debug: bool - If True, the received code is sent back to the LLM for evaluation of its relevance to the user's question, along with code error checking and debugging.

search_tool: bool - If True, the Planner agent will use a "google search API: https://serper.dev/" if the required information is not available or satisfactory. By default it only support HTML sites, but can be enhanced with Selenium if the ChromeDriver exists on the system (details below).

vector_db: bool - If True, each answer will first be ranked from 1 to 10. If the rank surpasses a certain threshold (8), the corresponding question (vectorised), plan, code, and rank (metadata) are all stored in the Pinecone database. Each time a new question is asked, these records will be searched. If the similarity score is above 0.9, they will be offered as examples and included in the prompt (in a one-shot learning scenario)

df_onthology: bool - If True, the onthology defined in the module `df_onthology.py` will be used to inform LLM of the dataframe structure, metrics, record frequency, keys, joins, abstract functions etc. The onthology is custom for each dataframe type, and needs to be defined by the user. Sample onthology is included. This feature signifficantly improves performance, and quality of the solutions.

exploratory: bool - If set to True, the LLM will evaluate the user's question and select an "Expert" that is best suited to address the question (experts: Research Specialist, Data Analyst). In addition, if the task involves code generation/execution, it will generate a task list detailing the steps, which will subsequently be sent to the LLM as a part of the prompt for the next action. This method is particularly effective for vague user prompts, but it might not perform as efficiently with more specific prompts. The default setting is True.

e.g. bamboo = BambooAI(df, debug=True, vector_db=True, search_tool=True, exploratory=True)
     bamboo = BambooAI(df,debug=False, vector_db=False, exploratory=True, search_tool=True)

Уведомление об исчезновении (25 октября 2023 г.): Обратите внимание, что «llm», «local_code_model», «llm_switch_plan» и «llm_switch_code» Параметры установились с V 0.3.29. Назначение моделей и параметров модели для агентов теперь обрабатывается через llm_config. Это может быть установлено либо в качестве переменной среды, либо через файл llm_config.json в рабочем каталоге. Пожалуйста, смотрите данные ниже

LLM config

Конфигурация специфики для агента LLM сохраняется в переменной среды LLM_CONFIG или в файле «LLM_CONFIG.JSON, который необходимо хранить в рабочем каталоге Bambooai. Конфигурация, чтобы отразить ваши предпочтения.

Быстрые шаблоны

Библиотека Bambooai использует жестко -кодированный набор шаблонов приглашения по умолчанию для каждого агента. Если вы хотите поэкспериментировать с ними, вы можете изменить предоставленный файл «recavle_templates_sample.json», удалите «_Sample с его имени и хранить в рабочем каталоге. Впоследствии содержание модифицированного« recavel_templates.json »будет использоваться вместо того, чтобы быть призванным.

Пример использования: запустите в цикле

 # Run in a loop remembering the conversation history
import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('test_activity_data.csv')
bamboo = BambooAI(df)
bamboo.pd_agent_converse()

Пример использования: одиночное исполнение

 # Run programaticaly (Single execution).
import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('test_activity_data.csv')
bamboo = BambooAI(df)
bamboo.pd_agent_converse("Calculate 30, 50, 75 and 90 percentiles of the heart rate column")

Переменные среды

Библиотека требует учетной записи API OpenAI и ключа API для подключения к OpenAI LLMS. Ключ API OpenAI должен храниться в переменной среды OPENAI_API_KEY . Ключ можно получить отсюда: https://platform.openai.com/account/api-keys.

В дополнение к моделям Openai также поддерживается выбор моделей из разных поставщиков (Groq, Gemini, Mistral, Anpropic). Ключи API должны храниться в переменных среды в следующем формате <VENDOR_NAME>_API_KEY . Вам нужно использовать GEMINI_API_KEY для моделей Google Gemini.

Как упомянуто выше, конфигурация LLM может храниться в формате строки в переменной среды LLM_CONFIG . Вы можете использовать содержимое предоставленного LLM_CONFIG_SAMPLE.JSON в качестве отправной точки и изменить ваше предпочтение, в зависимости от того, к каким моделям у вас есть доступ.

Pincone Vector DB является необязательным. Если вы не хотите использовать его, вам не нужно ничего делать. Если у вас есть учетная запись в Pinecone и вы хотите использовать базу знаний и функции ранжирования, вам потребуется настроить переменную inviroment invirooment PINECONE_API_KEY и установить параметр «vector_db» на true. Индекс Vector DB создается при первом выполнении.

Поиск Google также необязательный. Если вы не хотите использовать его, вам не нужно ничего делать. Если у вас есть учетная запись с Serper и вы хотите использовать функции поиска Google, вам потребуется настроить и учетную запись с помощью ": https://serper.dev/" и установить переменную среды SERPER_API_KEY и установить параметр «search_tool 'для true. По умолчанию Bambooai может соскребить веб -сайты только с HTML -контентом. Однако он также способен использовать селен с хромидривером, который гораздо более мощный. Чтобы включить эту функциональность, вам нужно будет Munualy скачать версию Chromedriver, которая соответствует вашей версии браузера Chrome, хранить ее в файловой системе и создать переменную среды SELENIUM_WEBDRIVER_PATH с пути к вашему хромаредриверу. Bambooai будет выберет его автоматизирование и используйте селен для всех задач по цене.

Местные модели с открытым исходным кодом

Библиотека в настоящее время напрямую поддерживает следующие модели с открытым исходным кодом. Я выбрал модели, которые в настоящее время оценивают самые высокие на эталоне Humaneval.

Wizardcoder (Wizardlm): WizardCoder-15B-V1.0, WizardCoder-Python-7B-V1.0, WizardCoder-Python-13b-V1.0, WizardCoder-Python-34B-V1.0
WizardCoder GPTQ (TheBloke): WizardCoder-15B-1.0-GPTQ, WizardCoder-Python73b-V1.0-GPTQ, WizardCoder-Python-13b-V1.0-GPTQ, Wizardcoder-Python-34b-V1.0-gptq
Codellama Instruct (Thebloke): Codellama-7B-Instruct-FP16, Codellama-13b-Instruct-FP16, Codellama-34B-Instruct-FP16
Codellama Instruct (Phind): Phind-Codellama-34B-V2
Коделлама завершение (TheBloke): Codellama-7b-Python-FP16, Codellama-13b-Python-FP16, Codellama-34B-Python-FP16

Если вы хотите использовать локальную модель для конкретного агента, измените содержание LLM_CONFIG, заменяющую имя модели OpenAI на имя локальной модели и измените значение поставщика на «локальный». например. {"agent": "Code Generator", "details": {"model": "Phind-CodeLlama-34B-v2", "provider":"local","max_tokens": 2000, "temperature": 0}} В настоящее время рекомендуется использовать локальные модели только для генерации кода, все другие, такие как общие коды, все еще должны быть обойдными, и все еще обойдя, и все еще определяются, и все еще будут обозначать, и все еще обозначают, и все еще будут обозначать, и все еще будут обозначать, и все еще будут обозначать, и все еще будут обозначать, и все еще будут обозначать, и все еще будут обозначать, как и все еще. Openai модели выбора. Модель загружается из Huggingface и Cach Localy для последующих выполнений. Для разумной производительности требуется, чтобы графический процессор с поддержкой CUDA и библиотека Pytorch совместимы с версией CUDA. Ниже приведены необходимые библиотеки, которые не включены в пакет и должны быть установлены независимо:

 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 (Adjust to match your CUDA version. This library is already included in Colab notebooks)
pip install auto-gptq (Only required if using WizardCoder-15B-1.0-GPTQ model)
pip install accelerate
pip install einops
pip install xformers
pip install bitsandbytes

Настройки и параметры для локальных моделей расположены в модуле local_models.py и могут быть скорректированы в соответствии с вашей конкретной конфигурацией или предпочтениями.

Оллама

Библиотека также поддерживает использование Ollama https://ollama.com/ и все его модели. Если вы хотите использовать локальную модель OLLAMA для конкретного агента, измените содержание LLM_CONFIG, заменяющую имя модели OpenAI на имя модели Ollama и измените значение поставщика на «Ollama». например. {"agent": "Code Generator", "details": {"model": "llama3:70b", "provider":"ollama","max_tokens": 2000, "temperature": 0}}

Регистрация

Все взаимодействия LLM (локальные или через API) регистрируются в файле bambooai_consolidated_log.json . Когда размер файла журнала достигает 5 МБ, создается новый файл журнала. В общей сложности 3 файла журнала хранятся в файловой системе до того, как самый старый файл перезаписывается.

Следующие детали зафиксированы:

Цепочка
Все вызовы LLM (шаги) в цепочке , включая детали каждого вызова, например. Имя агента, временная метка, модель, подсказка (контекстная память), ответ, использование токенов, стоимость, токены в секунду и т. Д.
Сводка цепи , включая использование токенов, стоимость, подсчет звонков LLM, токены в секунду и т. Д.
Резюме на LLM , включая использование токенов, стоимость, количество вызовов, токенов в секунду и т. Д.

Структура журнала:

 - chain_id: 1695375585
  ├─ chain_details (LLM Calls)
  │   ├─ List of Dictionaries (Multiple Steps)
  │       ├─ Call 1
  │       │   ├─ agent (String)
  │       │   ├─ chain_id (Integer)
  │       │   ├─ timestamp (String)
  │       │   ├─ model (String)
  │       │   ├─ messages (List)
  │       │   │   └─ role (String)
  │       │   │   └─ content (String)
  │       │   └─ Other Fields (content, prompt_tokens, completion_tokens, total_tokens, elapsed_time, tokens_per_second, cost)
  │       ├─ Call 2
  │       │   └─ ... (Similar Fields)
  │       └─ ... (Call 3, Call 4, Call 5 ...)
  │
  ├─ chain_summary
  │   ├─ Dictionary
  │       ├─ Total LLM Calls (Integer)
  │       ├─ Prompt Tokens (Integer)
  │       ├─ Completion Tokens (Integer)
  │       ├─ Total Tokens (Integer)
  │       ├─ Total Time (Float)
  │       ├─ Tokens per Second (Float)
  │       ├─ Total Cost (Float)
  │
  ├─ summary_per_model
      ├─ Dictionary
          ├─ LLM 1 (Dictionary)
          │   ├─ LLM Calls (Integer)
          │   ├─ Prompt Tokens (Integer)
          │   ├─ Completion Tokens (Integer)
          │   ├─ Total Tokens (Integer)
          │   ├─ Total Time (Float)
          │   ├─ Tokens per Second (Float)
          │   ├─ Total Cost (Float)
          ├─ LLM 2
          |   └─ ... (Similar Fields)
          └─ ... (LLM 3, LLM 4, LLM 5 ...)

Сравнение производительности (3 мая 2024 г.)

Задача: разработать модель машинного обучения, чтобы предсказать выживание пассажиров на Титанике. Вывод должен включать точность модели и визуализацию матрицы путаницы, корреляционной матрицы и других соответствующих метрик.

Набор данных: titanic.csv

Модель: GPT-4-Turbo

API API OpenAI (интерпретатор кода)

Результат:
- Матрица путаницы:
  - Истинный отрицательный (TN): 90 пассажиров были правильно предсказаны как не выживающие.
  - Истинный положительный (TP): 56 пассажиров были правильно предсказаны как выживание.
  - Ложный негативный (FN): 18 пассажиров были неправильно предсказаны как не выживающие.
  - Неверно положительный (FP): 15 пассажиров были неправильно предсказаны как выживание.

Показатель	Ценить
Время исполнения	77,12 секунды
Входные токены	7128
Выходные токены	1215
Общая стоимость	$ 0,1077

Bambooai (без планирования, поиск Google или вектор DB)

Результат:
- Матрица путаницы:
  - Истинный отрицательный (TN): 92 пассажира были правильно предсказаны как не выживающие.
  - Истинный положительный (TP): 55 пассажиров были правильно предсказаны как выживание.
  - Ложный негативный (FN): 19 пассажиров были неправильно предсказаны как не выживающие.
  - Неверно положительный (FP): 13 пассажиров были неправильно предсказаны как выживание.

Показатель	Ценить
Время исполнения	47,39 секунды
Входные токены	722
Выходные токены	931
Общая стоимость	$ 0,0353

Оценка отчета 18 августа 2024 г.

Объективная оценка инструментов AI для спортивных данных Analytics_ Maxwell-V2 против generic llms.pdf

Примечания

Библиотека в настоящее время поддерживает модели чата Openai. Он был протестирован с GPT-3,5-Turbo и GPT-4. GPT-3.5-Turbo, кажется, выполняет OK для более простых задач и является хорошей вариантом запуска/разведки из-за его 10-кратной более низкой стоимости.
Его также можно использовать с моделями из следующих поставщиков через API. Антропический, Мистраль, Google Gemini, Groq. Все, что вам нужно, это ключ API.
Также поддерживается использование Ollama и всех его моделей. Это может быть довольно удобно, поскольку Buch of Llama 3 Finetunes собираются начать посадку.
Для задач кодирования он также поддерживает модели SOTA с открытым исходным кодом, такие как Codellama и WizardCoder.
Библиотека выполняет сгенерированный LLM -код Python, это может быть плохо, если код сгенерированного LLM вреден. Используйте осторожно.
Обязательно следите за использованием токена. На момент написания стоимости в 1K входных токенах составляет 0,01 доллара США за GPT-4-Turbo и 0,001 доллара США за GPT-3,5-Турбо. Важно помнить об этих затратах при использовании библиотеки, особенно при использовании более дорогих моделей.
Поддерживаемые модели OpenAI: GPT-3,5-Turbo, GPT-3.5-Turbo-613, GPT-3,5-Turbo-16K, GPT-4, GPT-4-Turbo.
Поддерживаемые модели с открытым исходным кодом: WizardCoder-15B-V1.0, WizardCoder-Python-7B-V1.0, WizardCoder-Python-13B-V1.0, WizardCoder-Python-34B-V1.0, WizardCoder-15B-1.0-GPTQ, Wizardcoder-Python73B-V1.0-gptQ, Wizardcoder-Python73B-V1.0-gptq, wizardcoder-python73b-v WizardCoder-Python-13B-V1.0-GPTQ, WizardCoder-Python-34B-V1.0-GPTQ, CodeLlama-7B-Instruct-fp16, CodeLlama-13B-Instruct-fp16, CodeLlama-34B-Instruct-fp16, CodeLlama-7B-Python-fp16, CodeLlama-13B-Python-fp16, Codellama-34B-Python-FP16, Phind-Codellama-34B-V2.

Внося

Взносы приветствуются; Пожалуйста, не стесняйтесь открыть запрос на тягу. Имейте в виду, что наша цель - поддерживать краткую кодовую базу с высокой читаемостью.