Clase
Chatgpt para mis diapositivas de conferencias

Construido con racionalización, impulsado por Llamaindex y Langchain.
Utiliza la última API de ChatGPT de OpenAI.
Inspirado por Athensgpt
Demostración de la aplicación
demo.mp4
Cómo funciona esto
- Analizador PDF con PYPDF
- Construcción del índice con
GPTSimpleVectorIndex de Llamaindex- El modelo
text-embedding-ada-002 se utiliza para crear incrustaciones - Consulte la página del índice de la tienda Vector para obtener más información
- Aquí hay un índice de muestra
- Los índices y los archivos se almacenan en S3
- Consulta el índice
- Utiliza el último modelo de chatgpt
gpt-3.5-turbo
Uso
Configuración y secretos
- Configurar AWS (QuickStart)
crear un cubo S3 con un nombre único
Cambie el nombre del cubo en la base de código (busque bucket_name = "classgpt" a lo que haya creado.
renombrar [.env.local.example] a .env y agregue sus credenciales de OpenAI
En la zona
- Crea Python Env
conda create -n classgpt python=3.9
conda activate classgpt- Instalar dependencias
pip install -r requirements.txt
- Ejecutar la aplicación Streamlit
cd app/
streamlit run app/01_❓_Ask.py Estibador
Alternativa, puede usar Docker
Luego abra una nueva pestaña y navegue a http: // localhost: 8501/
HACER
Preguntas frecuentes
Tokens
Los tokens pueden considerarse como piezas de palabras. Antes de que la API procese las indicaciones, la entrada se descompone en tokens. Estos tokens no se cortan exactamente donde las palabras comienzan o terminan: los fichas pueden incluir espacios finales e incluso sub -palabras. Aquí hay algunas reglas útiles útiles para comprender los tokens en términos de longitudes:
- 1 token ~ = 4 caracteres en inglés
- 1 token ~ = ¾ palabras
- 100 tokens ~ = 75 palabras
- 1-2 oración ~ = 30 tokens
- 1 párrafo ~ = 100 tokens
- 1.500 palabras ~ = 2048 fichas
Prueba la herramienta Tokenizer OpenAI
Fuente
Incrustaciones
Una incrustación es un vector (lista) de números de puntos flotantes. La distancia entre dos vectores mide su relación. Las pequeñas distancias sugieren alta relación y grandes distancias sugieren baja relación.
Para text-embedding-ada-002 , el costo es de $ 0.0004 / 1k tokens o 3000 páginas / dólar
- Incruscaciones - API OPERAI
- ¿Qué son las incrustaciones de palabras y oraciones?
Modelos
Para el costo del modelo gpt-3.5-turbo (chatgptapi) es de $0.002 / 1K tokens
Para el modelo text-davinci-003 , el costo es de $0.02 / 1K tokens
- Finalización del chat - API OPERAI
Referencias
Racionalizar
- Aumentar el límite de carga de St.File_uploader
- St.Cache_Resource - Docios aerodinámicos
- Estado de sesión
- Hayabhay/Whisper-ui: UI aerodinámico para el susurro de Openai
Deplyomente
- Guía de implementación de transmisión por línea (Wiki) - Implementación - Streamlit
- ¿Cómo implementar una aplicación de optimización en AWS? Parte 3
Llamado
- Patrón de uso de llameindex
- Índice de ahorro
Carga de datos
- Cargador pdf
- Repo Github-Hub de Llama
- clase de documento
- Clase PDFeader
multimodal
- llama_index/multimodal.ipynb en main
Chatgpt
- GPT_INDEX/SimpleIndexDemo-Chatgpt.ipynb
Langchain
- gpt_index/langchaindemo.ipynb
- OpenAichat
Boto3
- Boto3 file_upload lo verifica si existe el archivo
- Boto 3: Recurso vs Cliente
- Escribir JSON para archivar en S3 Bucket
Cosas de Docker
- Amazon Web Services: ¿Cuál es la mejor manera de pasar las credenciales de AWS a un contenedor Docker?
- Docker-Compose Up Falling debido a: Error: No se puede encontrar el compilador de óxido · Problema #572 · Acheong08/chatgpt
- Linux: al instalar Rust Toolchin en Docker, el comando
source bash no funciona - Instalación del software: cómo instalar un paquete con APT sin el "¿Quieres continuar [y/n]?" ¿inmediato? - Pregúntale a Ubuntu
- ¿Cómo usar sudo dentro de un contenedor Docker?