Unduh BambooAI - Unduh Kode Sumber BambooAI

Bambooai

Perpustakaan ringan yang menggunakan model bahasa besar (LLM) untuk memberikan kemampuan interaksi bahasa alami, seperti asisten penelitian dan analisis data yang memungkinkan percakapan dengan data Anda. Anda dapat memberikan set data Anda sendiri, atau memungkinkan perpustakaan menemukan dan mengambil data untuk Anda. Ini mendukung pencarian internet dan interaksi API eksternal.

Tujuan

Perpustakaan Bambooai adalah alat eksperimental, Lightweigh yang memanfaatkan model bahasa besar (LLM) untuk memfasilitasi analisis data, membuatnya lebih mudah diakses oleh pengguna, termasuk yang tanpa keahlian pemrograman. Fungsi sebagai asisten untuk penelitian dan analisis data, memungkinkan pengguna untuk berinteraksi dengan data mereka melalui bahasa alami. Pengguna dapat menyediakan kumpulan data mereka sendiri atau bambooai dapat membantu dalam mencari data yang diperlukan. Alat ini juga mengintegrasikan pencarian Internet dan mengakses API eksternal untuk meningkatkan fungsinya.

Bambooai memproses kueri bahasa alami tentang dataset dan dapat menghasilkan dan menjalankan kode Python untuk analisis dan visualisasi data. Ini memungkinkan pengguna untuk memperoleh wawasan dari data mereka tanpa pengetahuan pengkodean yang luas. Pengguna hanya memasukkan dataset mereka, mengajukan pertanyaan dalam bahasa Inggris sederhana, dan Bambooai memberikan jawabannya, bersama dengan visualisasi jika diperlukan, untuk membantu memahami data dengan lebih baik.

Bambooai bertujuan untuk menambah kemampuan analis data di semua tingkatan. Ini menyederhanakan analisis dan visualisasi data, membantu merampingkan alur kerja. Perpustakaan ini dirancang untuk ramah pengguna, efisien, dan mudah beradaptasi untuk memenuhi berbagai kebutuhan.

Pratinjau

Cobalah di Google Colab:

Contoh pembelajaran mesin menggunakan DataFrame yang disediakan:

 !pip install pandas
!pip install bambooai

import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('titanic.csv')
bamboo = BambooAI(df, debug=False, vector_db=False, search_tool=True)
bamboo.pd_agent_converse()

Jupyter Notebook:

Tugas: Bisakah Anda menyusun model pembelajaran mesin untuk memprediksi kelangsungan hidup penumpang di Titanic? Keluaran akurasi model. Plot matriks kebingungan, matriks korelasi, dan metrik lainnya yang relevan. Cari Internet untuk pendekatan terbaik untuk tugas ini.

Titanic_ml.mp4

Web UI:

Tugas: Berbagai pertanyaan yang terkait dengan analisis data olahraga

Bambooai_demo_ui.mp4

Cara kerjanya

Agen Bambooai beroperasi melalui beberapa langkah kunci untuk berinteraksi dengan pengguna dan menghasilkan tanggapan:

1. Inisiasi

Pengguna meluncurkan agen Bambooai dengan pertanyaan.
Jika tidak ada pertanyaan awal yang diberikan, agen meminta pengguna untuk pertanyaan atau perintah 'keluar' untuk mengakhiri program.
Agen kemudian memasuki loop di mana ia menanggapi setiap pertanyaan yang diberikan, dan setelah selesai, meminta pengguna untuk pertanyaan berikutnya. Loop ini berlanjut sampai pengguna memilih untuk keluar dari program.

2. Evaluasi tugas

Agen menyimpan pertanyaan yang diterima dan menggunakan model bahasa besar (LLM) untuk mengevaluasi dan mengkategorikannya.
LLM menentukan apakah pertanyaan tersebut memerlukan respons tekstual, informasi tambahan (pencarian Google: https://serper.dev/), atau dapat diselesaikan menggunakan kode.
Bergantung pada evaluasi dan klasifikasi tugas, agen memanggil agen yang sesuai.

3. Dinamis Prompt Build

Jika pertanyaan dapat diselesaikan dengan kode, agen menentukan apakah data yang diperlukan terkandung dalam dataset yang disediakan, memerlukan pengunduhan dari sumber eksternal, atau apakah pertanyaannya bersifat generik dan data tidak diperlukan.
Agen kemudian memilih pendekatannya sesuai. Ini merumuskan suatu algoritma, dinyatakan sebagai daftar tugas, untuk berfungsi sebagai cetak biru untuk analisis.
Pertanyaan asli dimodifikasi untuk menyelaraskan dengan algoritma ini. Agen melakukan pencarian semantik terhadap database vektor untuk pertanyaan serupa.
Setiap pertanyaan pencocokan yang ditemukan ditambahkan ke prompt sebagai contoh. GPT-3.5, GPT-4 atau model OSS lokal kemudian digunakan untuk menghasilkan kode berdasarkan algoritma.

4. Debugging, eksekusi, dan koreksi kesalahan

Jika kode yang dihasilkan membutuhkan debugging, GPT-4 terlibat.
Kode dijalankan, dan jika kesalahan terjadi, agen mencatat pesan kesalahan dan merujuknya kembali ke LLM untuk koreksi.
Proses ini berlanjut sampai eksekusi kode yang berhasil.

5. Hasil, Peringkat, dan Basis Pengetahuan Bangunan

Posting eksekusi yang berhasil, GPT-4 digunakan untuk memberi peringkat jawabannya.
Jika peringkat melampaui ambang batas yang ditetapkan, pertanyaan, jawaban, kode, dan peringkat disimpan dalam database vektor Pinecone.
Terlepas dari peringkatnya, jawaban atau visualisasi akhir diformat dan disajikan kepada pengguna.

6. Umpan balik manusia dan kelanjutan loop

Agen mencari umpan balik dari pengguna.
Jika pengguna memvalidasi peringkat yang dihasilkan otomatis, pasangan tanya jawab disimpan dalam database vektor.
Jika tidak, loop eksekusi baru dimulai.

Sepanjang proses ini, agen terus -menerus meminta input pengguna, menyimpan pesan untuk konteks, dan menghasilkan dan menjalankan kode untuk memastikan hasil yang optimal. Berbagai model AI dan basis data vektor digunakan dalam proses ini untuk memberikan tanggapan yang akurat dan bermanfaat terhadap pertanyaan pengguna.

Bagan Aliran (Aliran Agen Umum):

Vendor/model yang didukung

Perpustakaan mendukung penggunaan berbagai model open source atau kepemilikan, baik melalui API atau Localy.

API:

Openai - Semua Model
Google - Model Gemini
Antropik - semua model
Groq - semua model
Mistral - semua model

Lokal:

Ollama - semua model
Pilihan model lokal (info lebih lanjut di bawah)

Anda dapat menentukan vendor/model apa yang ingin Anda gunakan untuk agen tertentu dengan memodifikasi konten file llm_config, mengganti nama model OpenAI default dengan model dan vendor pemilih Anda. misalnya. {"agent": "Code Generator", "details": {"model": "open-mixtral-8x22b", "provider":"mistral","max_tokens": 4000, "temperature": 0}} . Tujuan LLM_Config dijelaskan secara lebih rinci di bawah ini.

Cara menggunakan

Instalasi

 pip install bambooai

Penggunaan

Parameter

 df: pd.DataFrame - Dataframe (It will try to source the data from internet, if 'df' is not provided)

max_conversations: int - Number of "user:assistant" conversation pairs to keep in memory for a context. Default=4

debug: bool - If True, the received code is sent back to the LLM for evaluation of its relevance to the user's question, along with code error checking and debugging.

search_tool: bool - If True, the Planner agent will use a "google search API: https://serper.dev/" if the required information is not available or satisfactory. By default it only support HTML sites, but can be enhanced with Selenium if the ChromeDriver exists on the system (details below).

vector_db: bool - If True, each answer will first be ranked from 1 to 10. If the rank surpasses a certain threshold (8), the corresponding question (vectorised), plan, code, and rank (metadata) are all stored in the Pinecone database. Each time a new question is asked, these records will be searched. If the similarity score is above 0.9, they will be offered as examples and included in the prompt (in a one-shot learning scenario)

df_onthology: bool - If True, the onthology defined in the module `df_onthology.py` will be used to inform LLM of the dataframe structure, metrics, record frequency, keys, joins, abstract functions etc. The onthology is custom for each dataframe type, and needs to be defined by the user. Sample onthology is included. This feature signifficantly improves performance, and quality of the solutions.

exploratory: bool - If set to True, the LLM will evaluate the user's question and select an "Expert" that is best suited to address the question (experts: Research Specialist, Data Analyst). In addition, if the task involves code generation/execution, it will generate a task list detailing the steps, which will subsequently be sent to the LLM as a part of the prompt for the next action. This method is particularly effective for vague user prompts, but it might not perform as efficiently with more specific prompts. The default setting is True.

e.g. bamboo = BambooAI(df, debug=True, vector_db=True, search_tool=True, exploratory=True)
     bamboo = BambooAI(df,debug=False, vector_db=False, exploratory=True, search_tool=True)

PEMBERITAHUAN PEMBERITAHUAN (25 Oktober 2023): Harap dicatat bahwa "llm", "local_code_model", "llm_switch_plan", dan parameter "llm_switch_code" telah telah diamerikan pada v 0.3.29. Penugasan model dan parameter model untuk agen sekarang ditangani melalui llm_config. Ini dapat ditetapkan sebagai variabel lingkungan atau melalui file llm_config.json di direktori kerja. Silakan lihat detailnya di bawah

Konfigurasi llm

Konfigurasi LLM spesifik agen disimpan dalam variabel lingkungan LLM_CONFIG , atau dalam file "llm_config.json yang perlu disimpan dalam direktori kerja bambooai. Konfigurasi dalam bentuk json dan menentukan nama model, suhu, suhu, suhu, dan maxon. Konfigurasi untuk mencerminkan preferensi Anda. Jika tidak ada "Env var" maupun "llm_config.json", Bambooai akan menggunakan konfigurasi hardcoded default yang menggunakan "GPT-3.5-turbo" untuk semua agen.

Template cepat

Perpustakaan Bambooai menggunakan set templat prompt yang hardcoded default untuk masing -masing agen. Jika Anda ingin bereksperimen dengan mereka, Anda dapat memodifikasi file "prompt_templates_sample.json" yang disediakan, menghapus "_Sample dari namanya dan menyimpan di direktori kerja. Selanjutnya, konten yang dimodifikasi" Anda dapat dikembalikan.

Contoh Penggunaan: Jalankan dalam satu lingkaran

 # Run in a loop remembering the conversation history
import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('test_activity_data.csv')
bamboo = BambooAI(df)
bamboo.pd_agent_converse()

Contoh Penggunaan: Eksekusi Tunggal

 # Run programaticaly (Single execution).
import pandas as pd
from bambooai import BambooAI

df = pd.read_csv('test_activity_data.csv')
bamboo = BambooAI(df)
bamboo.pd_agent_converse("Calculate 30, 50, 75 and 90 percentiles of the heart rate column")

Variabel Lingkungan

Perpustakaan memerlukan akun API OpenAI dan kunci API untuk terhubung ke OpenAI LLMS. Kunci API OpenAI perlu disimpan dalam variabel lingkungan OPENAI_API_KEY . Kuncinya dapat diperoleh dari sini: https://platform.openai.com/account/api-keys.

Selain model OpenAI, pilihan model dari penyedia yang berbeda juga didukung (GROQ, Gemini, Mistral, Anthropic). Kunci API perlu disimpan dalam variabel lingkungan dalam format berikut <VENDOR_NAME>_API_KEY . Anda perlu menggunakan GEMINI_API_KEY untuk model Google Gemini.

Seperti disebutkan di atas, konfigurasi LLM dapat disimpan dalam format string dalam variabel lingkungan LLM_CONFIG . Anda dapat menggunakan konten LLM_Config_Sample.json yang disediakan sebagai titik awal dan memodifikasi ke preferensi Anda, tergantung pada model apa yang Anda akses.

DB vektor pincone adalah opsional. Jika Anda tidak ingin menggunakannya, Anda tidak perlu melakukan apa pun. Jika Anda memiliki akun dengan Pinecone dan ingin menggunakan basis pengetahuan dan fitur peringkat, Anda akan diminta untuk mengatur variabel lingkungan PINECONE_API_KEY , dan atur parameter 'Vector_DB' ke True. Indeks DB vektor dibuat pada saat eksekusi pertama.

Pencarian Google juga opsional. Jika Anda tidak ingin menggunakannya, Anda tidak perlu melakukan apa pun. Jika Anda memiliki akun dengan Serper dan ingin menggunakan fungsionalitas pencarian Google, Anda akan diminta untuk mengatur dan akun dengan ": https://serper.dev/", dan mengatur variabel lingkungan SERPER_API_KEY , dan mengatur parameter 'search_tool' ke true. Secara default Bambooai hanya dapat mengikis situs web dengan konten HTML. Namun itu juga mampu menggunakan selenium dengan chromedriver, yang jauh lebih kuat. Untuk mengaktifkan fungsionalitas ini, Anda perlu memang -ngas mendownload versi ChromedRiver yang cocok dengan versi Anda dari browser Chrome, menyimpannya pada sistem file dan membuat variabel lingkungan SELENIUM_WEBDRIVER_PATH dengan jalur ke chromedriver Anda. Bambooai akan mengambilnya secara otomatis, dan menggunakan selenium untuk semua tugas pengikis.

Model Sumber Terbuka Lokal

Perpustakaan saat ini secara langsung mendukung model sumber terbuka berikut. Saya telah memilih model yang saat ini mendapat skor tertinggi pada tolok ukur manusia.

WizardCoder (Wizardlm): WizardCoder-15B-V1.0, WizardCoder-Python-7b-V1.0, WizardCoder-Python-13b-V1.0, WizardCoder-Python-34b-V1.0
WizardCoder GPTQ (TheBloke): WizardCoder-15B-1.0-GPTQ, wizardcoder-python73b-v1.0-gptq, wizardcoder-python-13b-v1.0-gptq, wizardcoder-python-34b-v1.0-gpt
Codellama Instruct (TheBloke): Codellama-7b-instruct-Fp16, Codellama-13b-instruct-Fp16, Codellama-34b-instruct-Fp16
Codellama Instruct (Phind): Phind-Codellama-34b-V2
Penyelesaian Codellama (TheBloke): Codellama-7b-Python-Fp16, Codellama-13b-Python-Fp16, Codellama-34b-Python-Fp16

Jika Anda ingin menggunakan model lokal untuk agen tertentu, ubah konten LLM_CONFIG menggantikan nama model OpenAI dengan nama model lokal dan ubah nilai penyedia menjadi 'lokal'. misalnya. {"agent": "Code Generator", "details": {"model": "Phind-CodeLlama-34B-v2", "provider":"local","max_tokens": 2000, "temperature": 0}} Kode yang disarankan pada saat ini. Model pilihan openai. Model ini diunduh dari Huggingface dan Discached Localy untuk eksekusi berikutnya. Untuk kinerja yang wajar, ia membutuhkan GPU yang diaktifkan CUDA dan pustaka Pytorch yang kompatibel dengan versi CUDA. Di bawah ini adalah perpustakaan yang diperlukan yang tidak termasuk dalam paket dan perlu diinstal secara independen:

 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 (Adjust to match your CUDA version. This library is already included in Colab notebooks)
pip install auto-gptq (Only required if using WizardCoder-15B-1.0-GPTQ model)
pip install accelerate
pip install einops
pip install xformers
pip install bitsandbytes

Pengaturan dan parameter untuk model lokal terletak di modul local_models.py dan dapat disesuaikan agar sesuai dengan konfigurasi atau preferensi khusus Anda.

Ollama

Perpustakaan juga mendukung penggunaan Ollama https://ollama.com/ dan semua modelnya. Jika Anda ingin menggunakan model Ollama lokal untuk agen tertentu, ubah konten LLM_CONFIG menggantikan nama model OpenAI dengan nama model Ollama dan ubah nilai penyedia menjadi 'ollama'. misalnya. {"agent": "Code Generator", "details": {"model": "llama3:70b", "provider":"ollama","max_tokens": 2000, "temperature": 0}}

Logging

Semua interaksi LLM (lokal atau melalui API) dicatat dalam file bambooai_consolidated_log.json . Ketika ukuran file log mencapai 5 MB, file log baru dibuat. Sebanyak 3 file log disimpan pada sistem file sebelum file tertua ditimpa.

Detail berikut ditangkap:

ID Rantai
Semua panggilan LLM (langkah) dalam rantai , termasuk rincian setiap panggilan misalnya. Nama agen, cap waktu, model, prompt (memori konteks), respons, penggunaan token, biaya, token per detik dll.
Ringkasan rantai , termasuk penggunaan token, biaya, hitungan panggilan LLM, token per detik dll.
Ringkasan per llm , termasuk penggunaan token, biaya, jumlah panggilan, token per detik dll.

Struktur log:

 - chain_id: 1695375585
  ├─ chain_details (LLM Calls)
  │   ├─ List of Dictionaries (Multiple Steps)
  │       ├─ Call 1
  │       │   ├─ agent (String)
  │       │   ├─ chain_id (Integer)
  │       │   ├─ timestamp (String)
  │       │   ├─ model (String)
  │       │   ├─ messages (List)
  │       │   │   └─ role (String)
  │       │   │   └─ content (String)
  │       │   └─ Other Fields (content, prompt_tokens, completion_tokens, total_tokens, elapsed_time, tokens_per_second, cost)
  │       ├─ Call 2
  │       │   └─ ... (Similar Fields)
  │       └─ ... (Call 3, Call 4, Call 5 ...)
  │
  ├─ chain_summary
  │   ├─ Dictionary
  │       ├─ Total LLM Calls (Integer)
  │       ├─ Prompt Tokens (Integer)
  │       ├─ Completion Tokens (Integer)
  │       ├─ Total Tokens (Integer)
  │       ├─ Total Time (Float)
  │       ├─ Tokens per Second (Float)
  │       ├─ Total Cost (Float)
  │
  ├─ summary_per_model
      ├─ Dictionary
          ├─ LLM 1 (Dictionary)
          │   ├─ LLM Calls (Integer)
          │   ├─ Prompt Tokens (Integer)
          │   ├─ Completion Tokens (Integer)
          │   ├─ Total Tokens (Integer)
          │   ├─ Total Time (Float)
          │   ├─ Tokens per Second (Float)
          │   ├─ Total Cost (Float)
          ├─ LLM 2
          |   └─ ... (Similar Fields)
          └─ ... (LLM 3, LLM 4, LLM 5 ...)

Perbandingan Kinerja (3 Mei 2024)

Tugas: Rancang model pembelajaran mesin untuk memprediksi kelangsungan hidup penumpang di Titanic. Output harus mencakup keakuratan model dan visualisasi matriks kebingungan, matriks korelasi, dan metrik terkait lainnya.

Dataset: Titanic.csv

Model: GPT-4-Turbo

Openai Assistants API (Interpreter Kode)

Hasil:
- Matriks Kebingungan:
  - True negative (TN): 90 penumpang diprediksi dengan benar tidak bertahan.
  - True Positive (TP): 56 Penumpang diprediksi dengan benar sebagai bertahan hidup.
  - FALSE NEGATIF (FN): 18 Penumpang secara tidak benar diprediksi sebagai tidak bertahan hidup.
  - False Positive (FP): 15 penumpang secara tidak benar diprediksi sebagai bertahan hidup.

Metrik	Nilai
Waktu pelaksanaan	77.12 detik
Input token	7128
Token output	1215
Total biaya	$ 0,1077

Bambooai (Tanpa Perencanaan, Pencarian Google atau DB Vektor)

Hasil:
- Matriks Kebingungan:
  - True negative (TN): 92 Penumpang diprediksi dengan benar tidak bertahan.
  - True Positive (TP): 55 penumpang diprediksi dengan benar sebagai bertahan hidup.
  - FALSE NEGATIF (FN): 19 Penumpang secara tidak benar diprediksi sebagai tidak bertahan hidup.
  - False Positive (FP): 13 Penumpang secara tidak benar diprediksi sebagai bertahan hidup.

Metrik	Nilai
Waktu pelaksanaan	47.39 detik
Input token	722
Token output	931
Total biaya	$ 0,0353

Laporan Eval 18 Agustus 2024

Penilaian Objektif Alat AI untuk Analisis Data Olahraga_ Maxwell-V2 vs Generic LLMs.pdf

Catatan

Perpustakaan saat ini mendukung model obrolan OpenAI. Ini telah diuji dengan GPT-3.5-turbo dan GPT-4. GPT-3.5-turbo tampaknya melakukan OK untuk tugas yang lebih sederhana dan merupakan opsi awal/eksplorasi yang baik karena biaya 10x lebih rendah.
Ini juga dapat digunakan dengan model dari vendor berikut melalui API. Antropik, Mistral, Google Gemini, Groq. Yang Anda butuhkan hanyalah kunci API.
Juga penggunaan Ollama dan semua modelnya didukung. Ini bisa sangat berguna karena Buch dari Llama 3 Finetunes akan mulai mendarat.
Untuk tugas pengkodean ini juga mendukung model kode sumber terbuka SOTA seperti Codellama dan WizardCoder.
Perpustakaan mengeksekusi kode Python yang dihasilkan LLM, ini bisa buruk jika kode Python yang dihasilkan LLM berbahaya. Gunakan dengan hati -hati.
Pastikan untuk memantau penggunaan token Anda. Pada saat penulisan, biaya per 1K input token adalah $ 0,01 USD untuk GPT-4-Turbo dan $ 0,001 USD untuk GPT-3,5-turbo. Penting untuk mengingat biaya -biaya ini saat menggunakan perpustakaan, terutama saat menggunakan model yang lebih mahal.
Model OpenAI yang didukung: GPT-3.5-Turbo, GPT-3.5-Turbo-613, GPT-3.5-Turbo-16K, GPT-4, GPT-4-Turbo.
Model Sumber Terbuka yang Didukung: WizardCoder-15B-V1.0, WizardCoder-Python-7B-V1.0, WizardCoder-Python-13b-V1.0, WizardCoder-Python-34b-V1.0, WizardCoder-15B-10-GPTQ, GTON0-GPTC-GPTC-V1.0 Wizardcoder-python-13b-v1.0-gptq, wizardcoder-python-34b-v1.0-gptq, codellama-7b-instruct-fp16, codellama-13b-instruct-fp16, codellama-34b-instruct-fp16, codellama-7b-7b-pyhon-pyhon-34b-instruct-fp16, codellama-7b-7b-7b-7bon-python Codellama-34b-python-fp16, phind-codellama-34b-v2.

Berkontribusi

Kontribusi dipersilakan; Silakan membuka permintaan tarik. Perlu diingat bahwa tujuan kami adalah mempertahankan basis kode ringkas dengan keterbacaan tinggi.