Isi
- Nama Repositori
- Judul proyek
- Deskripsi Singkat Proyek
- Tujuan proyek
- Nama dataset
- Deskripsi dataset
- Tujuan proyek menggunakan dataset ini
- Ukuran dataset
- Algoritma yang digunakan sebagai bagian dari penyelidikan kami
- Persyaratan proyek
- Penggunaan proyek
- Arsitektur chatbot mana yang harus digunakan pengguna
- Penulis
Nama Repositori
SmartChat-Conversational-Chatbot
Judul proyek
SmartChat: Agen percakapan yang sadar konteks
Deskripsi Singkat Proyek
Kembangkan chatbot yang dapat secara efektif beradaptasi dengan konteks dan pergeseran topik dalam percakapan, memanfaatkan dataset menjawab pertanyaan Stanford untuk memberikan tanggapan yang terinformasi dan relevan, dan dengan demikian meningkatkan kepuasan dan keterlibatan pengguna.
Tujuan proyek
Buat antarmuka web atau aplikasi yang ramah pengguna yang memungkinkan pengguna untuk melakukan percakapan alami dan koheren dengan chatbot, dengan peringkat kepuasan tinggi.
Nama dataset
Dataset yang digunakan dalam proyek ini adalah Stanford Question menjawab dataset .
Sumber Data: Kaggle
Jenis Dataset: Teks
Deskripsi dataset
Dataset Penjawab pertanyaan Stanford (Skuad) adalah dataset pemahaman membaca yang terdiri dari pertanyaan yang diajukan oleh pekerja kerumunan pada satu set artikel Wikipedia. Jawaban untuk setiap pertanyaan adalah segmen teks, atau rentang, dari bagian membaca yang sesuai. Ada 100.000+ pasangan tanya jawab pada 500+ artikel. Informasi lebih lanjut dapat ditemukan di: https://rajpurkar.github.io/squad-explorer/
Tujuan proyek menggunakan dataset ini
- Tujuan dari proyek ini adalah untuk mengembangkan chatbot yang dapat melakukan percakapan multi-turn, beradaptasi dengan konteks, dan menangani berbagai topik.
Ukuran dataset:
- Dataset memiliki 2 file JSON. Satu untuk pelatihan dan yang lainnya adalah untuk pengujian
- dev-v1.1.json-4.9 MB
- Train-V1.1.json-30.3 MB
Algoritma yang digunakan sebagai bagian dari penyelidikan kami
- 2 arsitektur berbeda digunakan:
- Arsitektur GPT2-Medium Menggunakan Lora dan Peft
- Bert (Bert-Base-Incased)
Persyaratan proyek
- Python3
- kumpulan data
- obor
- peft
- Transformer
- mengevaluasi
- Safetensors
- Numpy
- panda
- matplotlib
- scikit-learn
- yg keturunan dr laut
- nltk
- SCORE ROUGE
- Rouge
- gradio
- TQDM
Penggunaan proyek
- Preprocessing Dataset Skuad Goto dan memastikan bahwa Anda memiliki file
train-v1.1.json dan dev-v1.1.json .- Jika Anda tidak memilikinya, Anda dapat mengunduhnya di sini dan di sini
- GOTO Squad Dataset Preprocessing File dan jalankan semua sel.
- Untuk mengeksekusi dan melihat hasil pendekatan Bert (Bert-Base-Ancased), silakan melalui instruksi yang disediakan di file squad_chatbot_using_bert-base-uncased_readme.md.
- Untuk mengeksekusi dan melihat hasil pendekatan GPT (GPT2-Medium menggunakan LORA dan PEFT), silakan melalui instruksi yang disediakan di file squad_chatbot_using_gpt2-medium_readme.md.
Arsitektur chatbot mana yang harus digunakan pengguna
- Sebenarnya, kedua chatbot berjalan dengan baik.
- Squad_using_gpt2-medium menghasilkan jawaban tetapi sebagian besar waktu memiliki masalah.
- Untuk informasi lebih lanjut tentang pengamatan dan detail teknis, rujuk file pelatihan dan validasi.
- Squad_using_bert-base-funcased bekerja sangat baik seperti yang diharapkan.
- Kesimpulan Akhir adalah: Pengguna dapat menggunakan chatbot apa pun. Tetapi untuk generasi jawaban yang sempurna, memanfaatkan squad_using_bert-base-base-ucas.
Penulis