擁抱臉|演示|論文

Aira是一系列chatbots ,作為一個實驗遊樂場,以進行價值對齊。該系列由通過教學微調和偏好建模技術實現的幾種模型組成,例如使用人為收費和直接優先優化的增強學習。
可以在“數據集”文件夾上找到有關數據集的信息。在“型號”文件夾中,所有型號卡都可以通過。
Aira僅用於學術研究。有關更多信息,請閱讀模型的模型卡。
在我們的演示中,我們為用戶提供了一個控制面板,以與我們的指令調整模型進行交互。該演示採用reward model和toxicity model來評估每個候選人反應的得分,考慮到其與用戶的信息及其毒性水平的一致性。生成功能按照獎勵得分順序安排候選響應,並消除被認為有毒或有害的任何反應。隨後,生成功能以超過安全閾值的最高分數返回候選響應,如果未識別出安全候選人,則返回默認消息。
幻覺:該模型可以產生可能被誤認為真理的內容,但實際上是誤導性或完全錯誤的,即幻覺。
偏見和毒性:該模型從用於訓練它的數據中繼承了社會和歷史刻板印象。鑑於這些偏見,該模型可以產生有毒的內容,即對個人,群體或社區的有害,冒犯或有害。
重複和冗長:該模型可能會陷入重複循環(尤其是如果將世代的重複懲罰設置為微薄的價值)或產生與提示的提示無關的詳細響應。
所有開發的模型和數據集都是尼古拉斯·克洛格(Nicholas Kluge)博士學位論文的一部分,“動態規範性:價值一致性的必要條件”。 This research was funded by CNPq (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), FAPERGS (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), and DAAD (Deutscher Akademischer Austauschdienst), as part of a doctoral research project tied to Philosophy departments of PUCRS (Pontifícia大學Católicado Rio Grande do Sul)和波恩大學。
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}該存儲庫是根據Apache許可證的2.0版獲得許可的。有關更多詳細信息,請參見許可證文件。