Umarmtes Gesicht | Demo | Dissertation

Aira ist eine Reihe von chatbots , die als Experimentierplatz für die Wertausrichtung entwickelt wurden. Diese Serie besteht aus mehreren Modellen, die über die Fine-Tuning- und Präferenzmodellierungstechniken wie Verstärkungslernen mit menschlichem Feeback und direkter Präferenzoptimierung erzielt wurden.
Informationen zu den verwendeten Datensätzen finden Sie im Ordner "Datensätze". Alle Modellkarten sind im Ordner "Modelle" ausreichend.
Aira ist nur für die akademische Forschung vorgesehen. Weitere Informationen finden Sie in den Modellkarten unserer Modelle.
In unserer Demo stellen wir dem Benutzer ein Bedienfeld zur Interaktion mit unseren Anweisungsmodellen zur Verfügung. Diese Demo verwendet ein reward model und ein toxicity model um die Punktzahl der Reaktion jedes Kandidaten zu bewerten, unter Berücksichtigung der Ausrichtung auf die Nachricht des Benutzers und deren Toxizitätsniveau. Die Erzeugungsfunktion ordnet die Kandidatenantworten in der Reihenfolge ihrer Belohnungswerte ein und beseitigt alle Antworten, die als toxisch oder schädlich eingestuft werden. Anschließend gibt die Erzeugungsfunktion die Reaktion der Kandidaten mit der höchsten Punktzahl zurück, die den Sicherheitsschwellenwert übertrifft, oder eine Standardnachricht, wenn keine sicheren Kandidaten identifiziert werden.
Halluzinationen: Dieses Modell kann Inhalte erzeugen, die mit der Wahrheit verwechselt werden können, aber tatsächlich irreführend oder völlig falsch, dh Halluzination.
Verzerrungen und Toxizität: Dieses Modell erbt die sozialen und historischen Stereotypen von den Daten, die zum Training verwendet wurden. Angesichts dieser Vorurteile kann das Modell giftigen Gehalt, dh schädlich, beleidigend oder schädlich für Einzelpersonen, Gruppen oder Gemeinschaften erzeugen.
Wiederholung und Ausführlichkeit: Das Modell kann auf Wiederholungsschleifen hängen bleiben (insbesondere wenn die Wiederholungsstrafe während der Generationen auf einen mageren Wert eingestellt ist) oder ausführliche Antworten zu erzeugen, die nicht mit der Aufforderung zu tun haben, die es gegeben wurde.
Alle entwickelten Modelle und Datensätze sind Teil der Dissertation von Nicholas Kluge " Dynamische Normativität: notwendige und ausreichende Bedingungen für die Wertausrichtung ". This research was funded by CNPq (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), FAPERGS (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), and DAAD (Deutscher Akademischer Austauschdienst), as part of a doctoral research project tied to Philosophy departments of PUCRS (Pontifícia Universidade Católica do Rio Grande do Sul) und die Universität von Bonn.
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}Dieses Repository ist unter der Apache -Lizenz, Version 2.0, lizenziert. Weitere Informationen finden Sie in der Lizenzdatei.