拥抱脸|演示|论文

Aira是一系列chatbots ,作为一个实验游乐场,以进行价值对齐。该系列由通过教学微调和偏好建模技术实现的几种模型组成,例如使用人为收费和直接优先优化的增强学习。
可以在“数据集”文件夹上找到有关数据集的信息。在“型号”文件夹中,所有型号卡都可以通过。
Aira仅用于学术研究。有关更多信息,请阅读模型的模型卡。
在我们的演示中,我们为用户提供了一个控制面板,以与我们的指令调整模型进行交互。该演示采用reward model和toxicity model来评估每个候选人反应的得分,考虑到其与用户的信息及其毒性水平的一致性。生成功能按照奖励得分顺序安排候选响应,并消除被认为有毒或有害的任何反应。随后,生成功能以超过安全阈值的最高分数返回候选响应,如果未识别出安全候选人,则返回默认消息。
幻觉:该模型可以产生可能被误认为真理的内容,但实际上是误导性或完全错误的,即幻觉。
偏见和毒性:该模型从用于训练它的数据中继承了社会和历史刻板印象。鉴于这些偏见,该模型可以产生有毒的内容,即对个人,群体或社区的有害,冒犯或有害。
重复和冗长:该模型可能会陷入重复循环(尤其是如果将世代的重复惩罚设置为微薄的价值)或产生与提示的提示无关的详细响应。
所有开发的模型和数据集都是尼古拉斯·克洛格(Nicholas Kluge)博士学位论文的一部分,“动态规范性:价值一致性的必要条件”。 This research was funded by CNPq (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), FAPERGS (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), and DAAD (Deutscher Akademischer Austauschdienst), as part of a doctoral research project tied to Philosophy departments of PUCRS (Pontifícia大学Católicado Rio Grande do Sul)和波恩大学。
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}该存储库是根据Apache许可证的2.0版获得许可的。有关更多详细信息,请参见许可证文件。