Inhalt
- Repository -Name
- Titel des Projekts
- Kurze Beschreibung des Projekts
- Ziele des Projekts
- Name des Datensatzes
- Beschreibung des Datensatzes
- Ziel des Projekts mit diesem Datensatz
- Größe des Datensatzes
- Algorithmen, die als Teil unserer Untersuchung verwendet werden
- Projektanforderungen
- Nutzung des Projekts
- Welche Chatbot -Architektur sollte die Benutzer verwenden?
- Autoren
Repository -Name
SmartChat-Converation-Chatbot
Titel des Projekts
SmartChat: Ein kontextbewusster Konversationsagent
Kurze Beschreibung des Projekts
Entwickeln Sie einen Chatbot, der sich effektiv an Kontext- und Themenverschiebungen in einer Konversation anpassen kann, wodurch das Stanford -Fragen zur Beantwortung des Datensatzes nutzt, um fundierte und relevante Antworten bereitzustellen und damit die Zufriedenheit und das Engagement der Benutzer zu erhöhen.
Ziele des Projekts
Erstellen Sie eine benutzerfreundliche Web- oder App-Oberfläche, mit der Benutzer natürliche und kohärente Konversationen mit dem Chatbot mit hoher Zufriedenheitsbewertung führen können.
Name des Datensatzes
Der in diesem Projekt verwendete Datensatz ist Stanford Frage, der den Datensatz beantwortet .
Datenquelle: Kaggle
Typ des Datensatzes: Text
Beschreibung des Datensatzes
Der Stanford -Frage, der den Datensatz (Squad) beantwortet hat, ist ein Datensatz für das Leseverständnis, das aus Fragen, die von Menschenarbeitern auf einer Reihe von Wikipedia -Artikeln gestellt wurden, bestehen. Die Antwort auf jede Frage ist ein Segment von Text oder Spannweite aus der entsprechenden Lesepassage. Es gibt mehr als 100.000 Fragen-Antwortenpaare für 500 Artikel. Weitere Informationen finden Sie unter: https://rajpurkar.github.io/squad-explorer/
Ziel des Projekts mit diesem Datensatz
- Das Ziel des Projekts ist es, einen Chatbot zu entwickeln, der Konversationen mit mehreren Drehungen durchführen, sich an den Kontext anpassen und eine Vielzahl von Themen bewältigen kann.
Größe des Datensatzes:
- Der Datensatz hat 2 JSON -Dateien. Einer ist für das Training und der andere zum Testen
- dev-v1.1.json-4,9 MB
- Train-V1.1.json-30,3 MB
Algorithmen, die als Teil unserer Untersuchung verwendet werden
- 2 verschiedene Architekturen werden verwendet:
- GPT2-MEDIUM-Architektur mit Lora und Peft
- Bert (Bert-Base-Unbekannt)
Projektanforderungen
- Python3
- Datensätze
- Fackel
- Peft
- Transformatoren
- auswerten
- Safetensoren
- Numpy
- Pandas
- Matplotlib
- Scikit-Learn
- Seeborn
- NLTK
- Rouge-Score
- Rouge
- Gradio
- tqdm
Nutzung des Projekts
- GOTO Squad Dataset Preprozessing und stellen Sie sicher, dass Sie mit den Dateien
train-v1.1.json und dev-v1.1.json verfügen.- Falls Sie sie nicht haben, können Sie sie hier und hier herunterladen
- Goto Squad Dataset Preprocessing -Datei und alle Zellen ausführen.
- Um die Ergebnisse des Bert-Ansatzes (Bert-Base) auszuführen und anzuzeigen, durchlaufen Sie bitte die Anweisungen in der Datei squad_chatbot_using_bert-base-unbefördert_readme.md.
- Um die Ergebnisse von GPT (GPT2-Medium unter Verwendung von Lora und PEFT) auszuführen und anzusehen), gehen Sie bitte die Anweisungen in der Datei Squad_Chatbot_USUS_GPT2-MEDIUM_README.MD durch.
Welche Chatbot -Architektur sollte die Benutzer verwenden?
- Eigentlich läuft beide Chatbots gut.
- Squad_using_gpt2-medium generiert die Antworten, aber in den meisten Fällen hat es Probleme.
- Weitere Informationen zu den Beobachtungen und technischen Details finden Sie in Schulungs- und Validierungsdateien.
- Squad_using_bert-Base-Uncased funktioniert sehr gut und erwartet.
- Endgültige Schlussfolgerung ist: Benutzer können jeden Chatbot verwenden. Aber für die perfekte Generation von Antworten nutzen Sie Squad_using_bert-Base-Unbekannte.
Autoren