ask discord - ask discord

Unduh

Tanya-Discord

Pencarian semantik cepat yang menyala untuk saluran perselisihan

ask-discord memungkinkan pengguna untuk mencari secara semantik melalui dataset pesan perselisihan. Ada dua mode pencarian utama:

RAW : Menampilkan pesan yang paling mirip berdasarkan kesamaan JST dan cosinus.
LLM : Mengumpulkan hasil mentah ke dalam LLM untuk menghasilkan respons seperti chatbot.

Klon Repositori :

git clone https://github.com/yourusername/ask-discord.git
cd ask-discord

Instal dependensi :
```
pip install -r requirements.txt
```
Mengatur Variabel Lingkungan : Buat file .env di direktori root dan tambahkan kunci API openai Anda:
```
 OPENAI_KEY = your_openai_api_key
```
Mulai Milvus : Ikuti Panduan Instalasi Milvus untuk mengatur dan memulai Milvus. (Membutuhkan instalasi Docker baru -baru ini)

Hasilkan Data : Unduh saluran minat Anda menggunakan Discord Chat Exportir. Baca panduan ini jika Anda kesulitan mendapatkan token dan saluran ID Anda. Ini bukan dukungan karena saluran pengunduhan dapat melanggar perselisihan.
Muat data : Pastikan file data JSON berada di jalur yang benar yang ditentukan dalam configs . Ubah jalur di file utama jika diperlukan.
Jalankan aplikasi streamLit :
```
streamlit run ask-discord.py
```
Akses aplikasi : Buka browser web Anda dan buka http://localhost:8501 .

ask-discord.py : Titik masuk utama ke dalam aplikasi streamlit. Ini menginisialisasi konfigurasi, terhubung ke Milvus dan OpenAi, dan mengatur database dan chatbot.
load_data.py : Menangani pemuatan dan pemrosesan data perselisihan JSON, dan mengelola pengumpulan milvus.
chatbot.py : Berisi kelas Chatbot yang menangani permintaan milvus dan berinteraksi dengan mode mentah/llm.

Konfigurasi dikelola melalui kamus di ask-discord.py . Ini termasuk:

OPENAI_CLIENT : Instance Openai Client.
CHAT_MODEL : Model yang akan digunakan untuk obrolan (misalnya, gpt-4o ).
EMBEDDING_MODEL : Model yang akan digunakan untuk menghasilkan embeddings.
JSON_DATA_PATH : jalur ke file data JSON.
EMBEDDING_DIMENSIONS : dimensi vektor.
MAX_MESSAGE_LENGTH : Jumlah karakter maksimum dalam pesan yang harus dipertimbangkan.
MIN_MESSAGE_LENGTH : Jumlah minimum karakter dalam pesan yang harus dipertimbangkan.
COLLECTION_NAME : Nama koleksi Milvus.
MAX_SIMILAR_EXAMPLES : Jumlah maksimum pesan serupa untuk diambil.
SIMILARITY_SCORE_CUTOFF : cutoff untuk skor kesamaan.