ClassGPT
Chatgpt для моей лекции слайды

Построенный из потоковой линии, питается Lmamaindex и Langchain.
Использует последнюю API CHATGPT от OpenAI.
Вдохновлен Athensgpt
Приложение демо
Demo.mp4
Как это работает
- Подбор PDF с PYPDF
- Индекс строительство с
GPTSimpleVectorIndex LmamainDex- Модель
text-embedding-ada-002 используется для создания встраиваний - См. Страницу индекса векторного хранилища, чтобы узнать больше
- Вот пример индекса
- Индексы и файлы хранятся на S3
- Запросить индекс
- использует новейшую модель CatGPT
gpt-3.5-turbo
Использование
Конфигурация и секреты
- Настройка AWS (QuickStart)
Создайте ведро S3 с уникальным именем
Измените имя ведра в кодовой базе (ищите bucket_name = "classgpt" на все, что вы создали.
Переименовать [.env.local.example] в .env и добавить свои учетные данные Openai
Локально
- Создать Python Env
conda create -n classgpt python=3.9
conda activate classgpt- установить зависимости
pip install -r requirements.txt
- Запустите приложение Streamlit
cd app/
streamlit run app/01_❓_Ask.py Докер
Альтернатива, вы можете использовать Docker
Затем откройте новую вкладку и перейдите к http: // localhost: 8501/
Тодо
Часто задаваемые вопросы
Токены
Жетоны можно рассматривать как кусочки слов. Перед обработкой API подсказки, вход разбивается на токены. Эти токены не разрезаны точно там, где слова начинаются или заканчиваются - токены могут включать в себя зацепленные пространства и даже подвески. Вот некоторые полезные правила эмпиатра для понимания токенов с точки зрения длины:
- 1 токен ~ = 4 Chars на английском языке
- 1 токен ~ = ¾ слова
- 100 токенов ~ = 75 слов
- 1-2 предложение ~ = 30 токенов
- 1 абзац ~ = 100 токенов
- 1500 слов ~ = 2048 токены
Попробуйте инструмент Openai Tokenizer
Источник
Внедрения
Встроение - это вектор (список) номеров с плавающей запятой. Расстояние между двумя векторами измеряет их родство. Небольшие расстояния предполагают высокое родство, а большие расстояния предполагают низкую родственность.
Для text-embedding-ada-002 стоимость составляет 0,0004 долл. США / 1K токены или 3000 страниц / доллар
- Enterdings - OpenAI API
- Что такое слово и предложения встраиваемых?
Модели
Для модели gpt-3.5-turbo (Chatgptapi) составляет $0.002 / 1K tokens
Для модели text-davinci-003 стоимость составляет $0.02 / 1K tokens
- Завершение чата - API OpenAI
Ссылки
Поток
- Увеличить предел загрузки St.file_uploader
- St.Cache_Resource - DOCS
- Состояние сессии
- Hayabhay/Whisper-Ui: Wiremlit UI для Whisper Openai
Подготовка
- Руководство по развертыванию ручья (Wiki) - развертывание -
- Как развернуть приложение для AWS? Часть 3
Lmamaindex
- Схема использования LmamainDex
- Индекс сохранения
Загрузка данных
- PDF -погрузчик
- Llama-Hub Github Repo
- документ класс
- PDFReader Class
мультимодальный
- llama_index/multimodal.ipynb at main
Чатгпт
- gpt_index/simpleIndexDemo-chatgpt.ipynb
Лангхейн
- gpt_index/langchaindemo.ipynb
- OpenAichat
Бото3
- boto3 file_upload проверяет, существует ли файл
- Бото 3: ресурс против клиента
- Написание JSON для подачи в ведро S3
Docker Stuff
- Amazon Web Services - Как лучше всего передать учетные данные AWS в контейнер Docker?
- Docker-Compose Up сбой из-за: ошибки: невозможно найти компилятор ржавчины · Выпуск № 572 · Acheong08/Catgpt
- Linux - При установке Rust chanse Intustry в Docker команда Bash
source не работает - Установка программного обеспечения - Как установить пакет с APT без «Хотите продолжить [Y/N]?» быстрый? - Спросите Ubuntu
- Как использовать Sudo в контейнере Docker?