顔を抱き締める|デモ|論文

Aira 、価値調整のための実験の遊び場として開発された一連のchatbotsです。このシリーズは、人間のフィーバックと直接選好の最適化による強化学習などの微調整と好みのモデリング手法を介して達成されるいくつかのモデルで構成されています。
使用されるデータセットの情報は、「データセット」フォルダーにあります。すべてのモデルカードは、「モデル」フォルダーで利用可能です。
Aira学術研究のみを目的としています。詳細については、モデルのモデルカードをお読みください。
デモでは、ユーザーに命令チューニングモデルと対話するコントロールパネルを提供します。このデモは、ユーザーのメッセージとのアライメントと毒性レベルを考慮して、各候補者の応答のスコアを評価するためにreward modelとtoxicity modelを採用しています。生成関数は、報酬スコアの順に候補の応答を配置し、有毒または有害とみなされる応答を排除します。その後、生成関数は、安全なしきい値を超える最高スコアで候補の応答を返し、安全な候補者が特定されない場合はデフォルトのメッセージを返します。
幻覚:このモデルは、真実と間違えられる可能性のあるコンテンツを生成できますが、実際には誤解を招くまたは完全に虚偽、つまり幻覚です。
バイアスと毒性:このモデルは、それを訓練するために使用されるデータから社会的および歴史的なステレオタイプを継承します。これらのバイアスを考えると、モデルは、個人、グループ、またはコミュニティに有毒な含有量、すなわち有害、攻撃的、または有害なものを生成することができます。
繰り返しと冗長性:モデルは、特に世代中の繰り返しのペナルティがわずかな値に設定されている場合)に繰り返しループに陥る可能性があります。
開発されたすべてのモデルとデータセットは、Nicholas Klugeの博士論文「ダイナミック規範性:価値アライメントに必要かつ十分な条件」の一部です。この研究は、CNPQ(FundaçãodeAmparoàPesquisado Estado do rio grande do sul)、Fapergs(Fundaçãodeamparoàpesquisado estado do rio grande do sul)によって資金提供されました。 Pucrs(PontifíciaUniversidadeCatólicado rio Grande do Sul)およびボン大学。
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}このリポジトリは、バージョン2.0のApacheライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。