Classgpt
Chatgpt untuk slide kuliah saya

Dibangun dengan Streamlit, didukung oleh Llamaindex dan Langchain.
Menggunakan chatgpt API terbaru dari openai.
Terinspirasi oleh Athensgpt
Demo aplikasi
demo.mp4
Bagaimana ini bekerja
- Parses PDF dengan PYPDF
- Konstruksi Indeks dengan
GPTSimpleVectorIndex Llamaindex- Model
text-embedding-ada-002 digunakan untuk membuat embeddings - Lihat halaman indeks vektor toko untuk mempelajari lebih lanjut
- Berikut indeks sampel
- Indeks dan file disimpan di S3
- Meminta indeks
- menggunakan model chatgpt terbaru
gpt-3.5-turbo
Penggunaan
Konfigurasi dan Rahasia
- Konfigurasikan AWS (QuickStart)
Buat ember S3 dengan nama yang unik
Ubah nama bucket di basis kode (cari bucket_name = "classgpt" ke apa pun yang Anda buat.
ganti nama [.env.local.example] ke .env dan tambahkan kredensial openai Anda
Secara lokal
- Buat Python Env
conda create -n classgpt python=3.9
conda activate classgpt- instal dependensi
pip install -r requirements.txt
- Jalankan Aplikasi StreamLit
cd app/
streamlit run app/01_❓_Ask.py Buruh pelabuhan
Alternatif, Anda dapat menggunakan Docker
Kemudian buka tab baru dan navigasikan ke http: // localhost: 8501/
Todo
FAQ
Token
Token dapat dianggap sebagai potongan kata. Sebelum API memproses prompt, input dipecah menjadi token. Token ini tidak dipotong tepat di mana kata -kata dimulai atau akhir - token dapat mencakup ruang trailing dan bahkan sub -kata. Berikut adalah beberapa aturan praktis yang bermanfaat untuk memahami token dalam hal panjang:
- 1 token ~ = 4 chars dalam bahasa Inggris
- 1 token ~ = ¾ kata
- 100 token ~ = 75 kata
- 1-2 kalimat ~ = 30 token
- 1 paragraf ~ = 100 token
- 1.500 kata ~ = 2048 token
Coba Alat Tokenizer Openai
Sumber
Embeddings
Embedding adalah vektor (daftar) dari angka floating point. Jarak antara dua vektor mengukur keterkaitannya. Jarak kecil menunjukkan keterkaitan tinggi dan jarak besar menunjukkan keterkaitan rendah.
Untuk text-embedding-ada-002 , biaya adalah $ 0,0004 / 1K token atau 3000 halaman / dolar
- Embeddings - Openai API
- Apa itu embedding kata dan kalimat?
Model
Untuk biaya gpt-3.5-turbo Model (Chatgptapi) adalah $0.002 / 1K tokens
Untuk model text-davinci-003 , biaya adalah $0.02 / 1K tokens
- Penyelesaian Obrolan - API Openai
Referensi
Streamlit
- Tingkatkan batasan unggahan St.File_Uploader
- St.Cache_resource - Dokumen StreamLit
- Keadaan sesi
- Hayabhay/Whisper-Ui: Streamlit UI untuk Whisper Openai
Deplyoment
- Panduan Penerapan StreamLit (Wiki) - Penyebaran - StreamLit
- Bagaimana cara menggunakan aplikasi yang diuntungkan ke AWS? Bagian-3
Llamaindex
- Pola penggunaan llamaindex
- Indeks menghemat
Memuat data
- PDF Loader
- Llama-Hub Github Repo
- Kelas Dokumen
- Kelas PDFREADER
multimodal
- llama_index/multimodal.ipynb di Main
Chatgpt
- GPT_INDEX/SIMPLEDEnDExDemo-Chatgpt.ipynb
Langchain
- gpt_index/langchaindemo.ipynb
- OpenaiChat
Boto3
- boto3 file_upload apakah itu memeriksa apakah ada file
- Boto 3: Sumber Daya vs Klien
- Menulis JSON untuk mengajukan di S3 Bucket
Barang buruh pelabuhan
- Amazon Web Services - Apa cara terbaik untuk meneruskan kredensial AWS ke wadah Docker?
- Docker-Compose Up Gagal Karena: Kesalahan: Tidak Dapat Menemukan Rust Compiler · Masalah #572 · ACHEONG08/CHATGPT
- Linux - Saat menginstal Rust Toolchain di Docker, perintah Bash
source tidak berfungsi - Instalasi Perangkat Lunak - Cara Menginstal Paket dengan APT tanpa "Apakah Anda ingin melanjutkan [Y/N]?" mengingatkan? - Tanyakan Ubuntu
- Bagaimana cara menggunakan sudo di dalam wadah Docker?