Докталк?
Doctalk -это веб-приложение на основе потока, которое позволяет пользователям загружать и взаимодействовать со своими документами (PDF, DOCX, TXT), используя запросы естественного языка. Приложение использует модель Openai GPT-4O-Mini для проверки запросов и чата, а также в перемещении текста-3-Small для понимания и ответа на пользовательские запросы на основе содержимого загруженных документов.
Функции
- Загрузить и обрабатывать документы : загрузить файлы PDF, DOCX и TXT для извлечения и обработки текста.
- Пользовательский подсчет Chunking & Token : Пользовательский подготовка документов для улучшения поиска контекста и генерации ответов. Использует предложение NLTK для предложения для предложения токенизировать документы, а затем подсчет токенов с использованием Tiktoken для управления размерами чанков.
- Общайтесь с документами : Задайте вопросы о ваших загруженных документах и получите ответы с учетом контекста.
- Сходство косинуса для поиска контекста : использует сходство косинуса, чтобы найти наиболее соответствующие куски документа в ответ на запросы пользователей.
- Проверка запроса : использует вторичный вызов API, чтобы подтвердить, нужен ли запросу контекста документа, в конечном итоге сохранение токенов и снижение затрат.
- Простая аутентификация пароля приложения : Доступ к приложению защищен пас -кодом, чтобы гарантировать, что только авторизованные пользователи могут взаимодействовать с документами.
Установка
Клонировать репозиторий :
git clone https://github.com/kmaurinjones/doc-talk.git
cd doc-talk
Создайте виртуальную среду (необязательно, но рекомендуется):
python3 -m venv env
source env/bin/activate
Установите необходимые пакеты :
pip install -r requirements.txt
Переменные среды
Создайте файл .env в корне вашего проекта и добавьте следующие переменные среды:
SIMPLE_AUTH_PASSCODE=your_passcode
OPENAI_API_KEY=your_openai_api_key
Бег на местном уровне
Чтобы запустить приложение локально, используйте следующую команду:
Это запустит сервер Streamlit, и вы можете получить доступ к приложению по http://localhost:8501 .
Доступ к приложению развернутого
Приложение также развернуто и может быть доступно через следующее URL: Doctalk Deployment
Использование
- Загрузите документы : загрузите файлы PDF, DOCX или TXT, используя загрузчик файла в приложении.
- Процесс документов : нажмите кнопку «Процесс документов», чтобы извлечь и обработать текст из загруженных файлов.
- Общайтесь с документами : используйте ввод чата, чтобы задать вопросы о содержании загруженных документов. Приложение предоставит ответы на основе обработанного текста и контекста из документов.
Примеры
Вот несколько скриншотов приложения Doctalk в использовании:
Простая аутентификация пользователя пароля

Загрузка и обработка документов

Контекст запроса и ответа

Внося
Взносы приветствуются! Пожалуйста, откройте проблему или отправьте запрос на привлечение на любые улучшения или исправления ошибок.
Лицензия
Этот проект лицензирован по лицензии MIT. Смотрите файл LICENSE для получения подробной информации.
Контакт
По любым вопросам или вопросам, пожалуйста, свяжитесь со мной по адресу [email protected]