BYOSC Build Your Own Scalable Chatbots -Download - BYOSC Build Your Own Scalable Chatbots -Quellcode -Download

BYOSC Build Your Own Scalable Chatbots

AI-Quellcode

1.0.0

Herunterladen

BYOSC-BUILD-YOUR-SCHABE-CHATBOTS

Einführung

Bei der Vorbereitung auf Universitätsprüfungen hat sich erwiesen, dass ein Partner für die Entdeckung von Wissenslücken und die Klärung spezifischer Zweifel an dem während des Unterrichts behandelten Themas ist. Während Chatbots basierend auf LLMs wie ChatGPT, Phind und Clod den Schülern bereits Hilfe bieten, können sie keine Vorlesung/materiellen Hilfe für die Universitätskurse der Studenten anbieten. Wir schlagen vor, ein System zu erstellen, das Chatbots auf bestimmtes Material bestimmter Kurse feinstab. Dank dessen werden wir Lernkumpels für die Kurse eines typischen Universitätsstudenten erstellen, in der wir in der Lage sind, Zweifel zu beantworten, Fragen und mehr zu generieren!

Es ist möglich, den Chatbot unter diesem Link zu testen.

Chat

Der implizite Umfang des Projekts (und des gesamten Kurses) besteht darin, eine skalierbare Infrastruktur aufzubauen, die unsere MLOPS beherbergen kann. Aus diesem Grund ist die traditionelle monolithische ML -Pipeline in drei verschiedene Prozesse aufgeteilt: Feature -Pipeline , Trainingspipeline und Inferenzpipeline .

Architektur

Feature Pipeline

Die Feature -Pipeline ist verantwortlich für:

Herunterladen neuer verfügbarer Datei aus einem öffentlichen freigegebenen Ordner
Generieren von Transkripten der Dateien
Hochladen eines neuen Transkripts in Hopsschalen
Verwenden von GPT 3.5-APIs, um einen gültigen Anweisungssatz für die Feinabstimmung eines Fundamentmodells zu generieren
Hochladen eines solchen Anweisungssatzes auf Hopsschalen

Ausführen der Feature -Pipeline

Es gibt verschiedene Optionen, um die Feature -Pipeline auszuführen:

Führen Sie das FeaturePipeline/Reading.ipynb -Notizbuch aus
Führen Sie die FeaturePipeline/FeaturePipeline.py mit python3 FeaturePipeline/FeaturePipeline.py aus

Eine Kopie des letzteren ist in der Datei FeaturePipeline/FeaturePipeline_modal.py geringfügig modifiziert, um sie im Modal -Hosting -Dienst mit modal [run|deploy] FeaturePipeline/FeaturePipeline.py auszuführen.

Trainingspipeline

Die Trainingspipeline ist verantwortlich für:

Abrufen des Anweisungssatzes von Hopsschalen abrufen
Einrichten einer Trainerinstanz mit PEFT- und LORA -Techniken
Ausführen des Trainings
Hochladen des Ergebnisses auf das Umarmungsgesicht

Ausführen der Trainingspipeline

Führen Sie zum Ausführen der Trainingspipeline die Notebook TrainingPipeline/FineTuning.ipynb aus

Inferenzpipeline

Die Inferenzpipeline ist verantwortlich für:

Führen Sie eine Chatbot -Schnittstelle mit Streamlit + Langchain aus
Herunterladen von Transkripten des Materials von Hopswers
Computerbettdings des Originalmaterials unter Verwendung von Satzbert
Computer -Einbettungen der Frage des Benutzers unter Verwendung von Satz Bert
Abrufen Sie das bestinkurrinzielle Material für eine bestimmte Frage ab
Ergänzen Sie die Antwort des Chatbots mit RAG

Ausführen der Inferenzpipeline

Um die Inferenzpipeline auszuführen, führen Sie streamlit run chatbot_app.py aus

Schlussfolgerungen

Während experimentell der Feinabstimmungsprozess nicht ausreicht, um das Grundmodell konsequent besser zu machen als ein nicht feiner abgestimmter, kann der RAG-fähige Chatbot nicht nur die Fragen des Benutzers, die dem Originalmaterial folgen, nicht nur korrekt beantworten, sondern auch in der Lage ist, (meistens) korrekte Referenzen zu geben, von denen die Antwort entnommen wird, wesentlich für eine Studienstudie für eine Universitätsuntersuchung!

Zukünftige Arbeit

Die Feinabstimmung funktioniert aufgrund des Mangels an verwendeten Materialien und den Rechenressourcen nicht so gut wie beabsichtigt. Als zukünftige Arbeit möchten wir den Prozess-Extraktionsprozess verbessern und mehr Rechenleistung verwenden, um die im Bericht angegebenen Probleme anzugehen.

Expandieren

Zusätzliche Informationen