Doctalk?
Doctalk adalah aplikasi Web berbasis-lurus yang memungkinkan pengguna mengunggah dan berinteraksi dengan dokumen mereka (PDF, DOCX, TXT) menggunakan kueri bahasa alami. Aplikasi ini memanfaatkan model GPT-4O-Mini Openai untuk validasi dan obrolan kueri, dan teks-embedding-3-small untuk memahami dan menanggapi kueri pengguna berdasarkan konten dokumen yang diunggah.
Fitur
- Dokumen Unggah dan Proses : Unggah PDF, DOCX, dan file TXT untuk ekstraksi dan pemrosesan teks.
- Penghitungan Chunking & Token Kustom : Kustom chunking dokumen untuk meningkatkan pengambilan konteks dan pembuatan respons. Menggunakan Tokenizer Kalimat NLTK untuk Kalimat Tokenisasi Dokumen, Diikuti oleh Penghitungan Token Menggunakan TikToken untuk Mengelola Ukuran Potongan.
- Obrolan dengan dokumen : Ajukan pertanyaan tentang dokumen Anda yang diunggah dan terima tanggapan yang sadar konteks.
- Kesamaan kosinus untuk pengambilan konteks : Memanfaatkan kesamaan kosinus untuk menemukan potongan dokumen yang paling relevan sebagai respons terhadap kueri pengguna.
- Validasi kueri : Menggunakan panggilan API sekunder untuk memvalidasi jika kueri membutuhkan konteks dokumen, pada akhirnya menghemat token dan mengurangi biaya.
- Otentikasi kode sandi aplikasi sederhana : Akses ke aplikasi dilindungi oleh kode sandi untuk memastikan hanya pengguna yang berwenang yang dapat berinteraksi dengan dokumen.
Instalasi
Klon Repositori :
git clone https://github.com/kmaurinjones/doc-talk.git
cd doc-talk
Buat lingkungan virtual (opsional tetapi direkomendasikan):
python3 -m venv env
source env/bin/activate
Pasang paket yang diperlukan :
pip install -r requirements.txt
Variabel Lingkungan
Buat file .env di root proyek Anda dan tambahkan variabel lingkungan berikut:
SIMPLE_AUTH_PASSCODE=your_passcode
OPENAI_API_KEY=your_openai_api_key
Berjalan secara lokal
Untuk menjalankan aplikasi secara lokal, gunakan perintah berikut:
Ini akan memulai server streamlit, dan Anda dapat mengakses aplikasi di http://localhost:8501 .
Mengakses aplikasi yang digunakan
Aplikasi ini juga digunakan dan dapat diakses melalui URL berikut: Penyebaran Doctalk
Penggunaan
- Unggah dokumen : Unggah PDF, DOCX, atau file TXT menggunakan pengunggah file di aplikasi.
- Dokumen Proses : Klik tombol "Dokumen Proses" untuk mengekstrak dan memproses teks dari file yang diunggah.
- Obrolan dengan dokumen : Gunakan input obrolan untuk mengajukan pertanyaan tentang konten dokumen yang diunggah. Aplikasi ini akan memberikan tanggapan berdasarkan teks dan konteks yang diproses dari dokumen.
Contoh
Berikut adalah beberapa tangkapan layar dari aplikasi Doctalk yang digunakan:
Otentikasi pengguna kode sandi sederhana

Mengunggah dan memproses dokumen

Konteks permintaan dan respons

Berkontribusi
Kontribusi dipersilakan! Harap buka masalah atau kirimkan permintaan tarik untuk perbaikan atau perbaikan bug.
Lisensi
Proyek ini dilisensikan di bawah lisensi MIT. Lihat file LICENSE untuk detailnya.
Kontak
Untuk pertanyaan atau masalah, silakan hubungi saya di [email protected]