BachelorProject Download - BachelorProject Source Code Download

BachelorProject

AI-Quellcode

1.0.0

Herunterladen

AYA prompt basierte Klassifizierung und Bewertung

Dieses Repository bietet einen Framework für die prompt-basierte Klassifizierung mithilfe von vorgeborenen Sprachmodellen mit dem Schwerpunkt auf Aufgaben der persischen Textklassifizierung. Es enthält Skripte und Notizbücher zum Generieren von Eingabeaufforderungen, Eingabeaufforderungen für die Klassifizierung, die Bewertung von Ergebnissen und die Analyse von Modellleistungskennzahlen wie F1-Score, Präzision und Rückruf. Das Repository unterstützt auch das K-Shot-Lernen, um die Anpassungsfähigkeit der Modell zu verbessern, indem relevante Beispiele einbezogen werden.

Projektstruktur

Codes : Enthält den Kerncode und Notizbücher für Modelltraining, Eingabeaufforderung und Bewertung.
- AYA-Colab.ipynb : Hauptnotizbuch für Trainings- und Feinabstimmungsaufforderungen mit AYA-Modellen auf Colab.
- Classification_report.ipynb : Erzeugt Klassifizierungsmetriken, einschließlich F1 -Score, Präzision und Rückruf für verschiedene Eingabeaufnahmen.
- Creating_dataset.ipynb : Datenvorbereitung und Datensatzerstellung für prompt-basierte Lernen.
- f1-calculation.py : Python-Skript zur Berechnung und Visualisierung von F1-Scores.
- news-aya-symbol-tuning.ipynb : Notizbuch für symbolbasierte Tuning mit AYA-Modellen für die Textklassifizierung.
- news-aya-system-user-prompt.ipynb : Skript zum Generieren von System- und Benutzeranforderungen mithilfe eines vorgebliebenen Sprachmodells.
- Symbol_tuning_aya.ipynb : Symbol -Tuning -Notizbuch zur Optimierung der sofortigen Effektivität.
Datensätze : Enthält Datensätze für Schulungen und Bewertung.
Eingabeaufforderungen : Enthält Eingabeaufforderung Vorlagen, die für verschiedene Klassifizierungsaufgaben verwendet werden.
Folien : Dokumentations- und Präsentationsdateien, die das Lernen in Kontext, ein promptes Design, K-Shot-Lernen und Symbolabstimmung erläutern.
- In-Context Learning.pptx & In-Context Learning.pdf : Details zur Verwendung von In-Context-Lernen für die Modellabstimmung.
- System-User Prompt Design.pptx System-User Prompt Design.pdf .
- Symbol Tuning.pptx & Symbol Tuning.pdf : Anweisungen zur Verwendung von Symbol -Tuning zur Verbesserung der sofortigen Leistung.

Schlüsselmerkmale

Prompt-basierte Klassifizierung : Framework zum Klassifizieren von Text mit Eingabeaufforderungen mit einem Sprachmodell. Das System ermöglicht die dynamische Erzeugung von Eingabeaufforderungen und integriere benutzerdefinierte Eingaben und Systemanforderungen für eine flexible Textklassifizierung.
K-Shot-Lernen : Unterstützt das K-Shot-Lernen, bei dem das Modell k-relevante Beispiele zur Verbesserung der Leistung bei bestimmten Aufgaben erhält.
Bewertungsmetriken : Bietet Tools für eine umfassende Bewertung, einschließlich Genauigkeit, F1 -Score, Präzision und Rückruf. Die Ergebnisse werden gespeichert und können durch Verwirrungsmatrizen und Klassifizierungsberichte visualisiert werden.
Symbolabstimmung : Techniken zum Anpassen und Verfeinern von Eingabeaufforderungen anhand von Symbolen und anderen prompt-basierten Änderungen, wodurch die Reaktionsfähigkeit der Modell auf bestimmte Abfragen verbessert wird.
Lernen in Kontext : Dokumentation und Unterstützung für das Lernen in Kontext zur Verbesserung der Anpassungsfähigkeit der promptbasierten Modell mit Beispielen im prompten Kontext.

Setup -Anweisungen

Klonen Sie das Repository:

git clone https://github.com/ShayanSalehi81/BachelorProject
cd BachelorProject

Installieren Sie die erforderlichen Pakete:
```
pip install -r requirements.txt
```
Authentifizieren Sie sich mit umarmtem Gesicht (falls erforderlich) und installieren Sie zusätzliche Bibliotheken:
```
huggingface-cli login --token YOUR_HUGGINGFACE_TOKEN
```
Führen Sie eine der Notizbücher oder Python -Skripte im Verzeichnis Codes aus, um Aufgaben wie die Erstellung von Datensätzen, ein schnelles Tuning oder die Bewertung auszuführen.

Verwendung

Eingabeaufforderungen generieren und Klassifizierung ausführen

News-Aya-System-User-Prompt.ipynb : Dieses Notebook bietet eine End-to-End-Pipeline für die Generierung von System- und Benutzeranforderungen und die Ausführung einer Klassifizierung in Nachrichtendatensätzen. Die Generator lädt ein vorgebildetes Sprachmodell, fordert Formate auf und generiert Vorhersagen. Das Skript unterstützt die 4-Bit-Quantisierung für die effiziente Speicherverwendung und nutzt benutzerbereitete Eingabeaufforderungen zur Klassifizierung persischer Nachrichten als "wichtig" oder "nicht wichtig".

Bewertung und Metriken

Classification_Report.IPYNB : Bewertet die Modellleistung mit Metriken wie Genauigkeit, Präzision, Rückruf und F1 -Score. Es enthält eine k-fache Kreuzvalidierung und erstellt detaillierte Klassifizierungsberichte.
f1-calculation Verwirrungsmatrizen und Zusammenfassungstabellen können generiert werden, um die Modellleistung über Kategorien hinweg zu verstehen.

K-Shot-Lernen

Die Pipeline der prompt-Generation unterstützt das K-Shot-Lernen, wobei k die meisten ähnlichen Beispiele mithilfe der TF-IDF-Ähnlichkeit aus dem Trainingssatz abgerufen werden. Dies verbessert die prompt-basierte Klassifizierung, indem das Modell kontextuell relevante Beispiele bereitgestellt wird.

Symbolabstimmung

Notizbücher wie news-aya-symbol-tuning.ipynb und Symbol_tuning_aya.ipynb sind so konzipiert, dass sie Eingabeaufforderungsymbole feinstimmen können, die die Modellinterpretierbarkeit und die Konsistenz der Antwort verbessern können. Die Symbole -Tuning führt zu geringfügigen Anpassungen der Eingabeaufforderungen und verbessert das Verständnis des Modells von nuancierten Abfragen.

Beispiel Workflow

Datenvorbereitung : Verwenden Sie Creating_dataset.ipynb um Ihren Datensatz vorzubereiten und formatieren.
Schnellgenerierung : Laden Sie news-aya-system-user-prompt.ipynb um System- und Benutzeranforderungen zu definieren und die Klassifizierung im Datensatz auszuführen.
Bewertung : Verwenden Sie Classification_report.ipynb , um Metriken wie Genauigkeit und F1-Score und f1-calculation.py zu berechnen, um die Leistung zu visualisieren.
Symbol-Tuning : Führen Sie news-aya-symbol-tuning.ipynb aus, um das schnelle Design mit der Symbol-Abstimmung zu verfeinern.

Zukünftige Verbesserungen

Schnelloptimierung : Weitere Verfeinern von Methoden zur Eingabeaufforderung zur Erzeugung, um komplexere Klassifizierungsaufgaben zu unterstützen.
Feinabstimmung : Integrieren Sie die Feinabstimmung der Modell in benutzerdefinierte Datensätze, um die Modellanpassungsfähigkeit zu verbessern.
Erweitertes K-Shot-Lernen : Experimentieren Sie mit variablen k-Werten, um das Lernen des Kontextes zu optimieren.
Verbesserung der Symbolabstimmung : Erweitern Sie die Symbol -Tuning -Techniken, um eine breitere Palette von Aufgaben und Benutzerkontexten zu verarbeiten.