Visage étreint | Démo | Thèse

Aira est une série de chatbots développés comme un terrain de jeu d'expérimentation pour l'alignement de la valeur. Cette série est composée de plusieurs modèles obtenus via des techniques de modélisation finale et de modélisation des préférences en matière d'instructions comme l'apprentissage du renforcement avec des frais humains et une optimisation directe des préférences.
Des informations sur les ensembles de données utilisées peuvent être trouvées sur le dossier "DataSets". Toutes les cartes modèles sont avalables dans le dossier "Modèles".
Aira est destiné uniquement à la recherche académique. Pour plus d'informations, lisez les cartes de modèle de nos modèles.
Dans notre démo, nous fournissons à l'utilisateur un panneau de configuration pour interagir avec nos modèles d'instructions. Cette démo utilise un reward model et un toxicity model pour évaluer le score de la réponse de chaque candidat, compte tenu de son alignement sur le message de l'utilisateur et son niveau de toxicité. La fonction de génération organise les réponses des candidats par ordre de leurs scores de récompense et élimine toutes les réponses jugées toxiques ou nocives. Par la suite, la fonction de génération renvoie la réponse des candidats avec le score le plus élevé qui dépasse le seuil de sécurité, ou un message par défaut si aucun candidat sûr n'est identifié.
Hallucinations: Ce modèle peut produire du contenu qui peut être confondu avec la vérité mais qui est, en fait, trompeur ou entièrement faux, c'est-à-dire hallucination.
Bâtiers et toxicité: ce modèle hérite des stéréotypes sociaux et historiques des données utilisées pour la former. Compte tenu de ces biais, le modèle peut produire un contenu toxique, à savoir, nocif, offensant ou préjudiciable aux individus, aux groupes ou aux communautés.
Répétition et verbosité: le modèle peut être coincé sur les boucles de répétition (surtout si la pénalité de répétition pendant les générations est fixée à une valeur maigre) ou produit des réponses verbeuses sans rapport avec l'invite qui lui a été donnée.
Tous les modèles et ensembles de données développés font partie de la thèse de doctorat de Nicholas Kluge, " Normativité dynamique: conditions nécessaires et suffisantes pour l'alignement de la valeur ". Cette recherche a été financée par CNPQ (Fundação de Amparo à Pesquisa do Estado do Rio Grande do sul), Fapergs (Fundação de Amparo à Pesquisa do Estado do Rio Grande Do Sul), et Daad (Dettscher Akademischer Austauschdienne) Pucrs (Pontifícia Universidade Católica do Rio Grande do sul) et l'Université de Bonn.
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}Ce référentiel est concédé sous licence Apache, version 2.0. Voir le fichier de licence pour plus de détails.