Cara abrazada | Demostración | Disertación

Aira es una serie de chatbots desarrollados como un patio de juegos de experimentación para la alineación de valor. Esta serie se compone de varios modelos logrados mediante instrucciones de ajuste fino y técnicas de modelado de preferencias como el aprendizaje de refuerzo con Feeback Human y la optimización de preferencias directas.
La información en los conjuntos de datos utilizados se puede encontrar en la carpeta "DataSets". Todas las tarjetas modelo son avalables en la carpeta "Modelos".
Aira está destinado solo a la investigación académica. Para obtener más información, lea las tarjetas modelo de nuestros modelos '.
En nuestra demostración, proporcionamos al usuario un panel de control para interactuar con nuestros modelos ajustados a instrucciones. Esta demostración emplea un reward model y un toxicity model para evaluar la puntuación de la respuesta de cada candidato, considerando su alineación con el mensaje del usuario y su nivel de toxicidad. La función de generación organiza las respuestas candidatas en orden de sus puntajes de recompensa y elimina cualquier respuesta considerada tóxica o dañina. Posteriormente, la función de generación devuelve la respuesta del candidato con la puntuación más alta que supera el umbral de seguridad, o un mensaje predeterminado si no se identifican candidatos seguros.
Alucinaciones: este modelo puede producir contenido que puede confundirse con la verdad pero que, de hecho, es engañoso o completamente falso, es decir, alucinación.
Sesgos y toxicidad: este modelo hereda los estereotipos sociales e históricos de los datos utilizados para entrenarlo. Dados estos sesgos, el modelo puede producir contenido tóxico, es decir, dañino, ofensivo o perjudicial para individuos, grupos o comunidades.
Repetición y verbosidad: el modelo puede atascarse en los bucles de repetición (especialmente si la penalización de repetición durante las generaciones se establece en un valor exiguo) o producir respuestas detalladas no relacionadas con el mensaje que se le dio.
Todos los modelos y conjuntos de datos desarrollados son parte de la disertación doctoral de Nicholas Kluge, " Normatividad dinámica: condiciones necesarias y suficientes para la alineación del valor ". This research was funded by CNPq (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), FAPERGS (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), and DAAD (Deutscher Akademischer Austauschdienst), as part of a doctoral research project tied to Philosophy departments of PUCRS (Pontiflicia Universidadada Católica do Rio Grande do Sul) y la Universidad de Bonn.
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}Este repositorio tiene licencia bajo la licencia Apache, versión 2.0. Consulte el archivo de licencia para obtener más detalles.