Wajah memeluk | Demo | Disertasi

Aira adalah serangkaian chatbots yang dikembangkan sebagai taman bermain eksperimen untuk penyelarasan nilai. Seri ini terdiri dari beberapa model yang dicapai melalui penyesuaian instruksi dan teknik pemodelan preferensi seperti pembelajaran penguatan dengan feeback manusia dan optimasi preferensi langsung.
Informasi tentang set data yang digunakan dapat ditemukan di folder "Dataset". Semua kartu model tersedia di folder "Model".
Aira hanya dimaksudkan untuk penelitian akademik. Untuk informasi lebih lanjut, baca kartu model model kami`.
Dalam demo kami, kami memberi pengguna panel kontrol untuk berinteraksi dengan model yang disesuaikan dengan instruksi kami. Demo ini menggunakan reward model dan toxicity model untuk mengevaluasi skor respons masing -masing kandidat, mengingat penyelarasannya dengan pesan pengguna dan tingkat toksisitasnya. Fungsi generasi mengatur respons kandidat dalam urutan skor hadiah mereka dan menghilangkan tanggapan yang dianggap beracun atau berbahaya. Selanjutnya, fungsi generasi mengembalikan respons kandidat dengan skor tertinggi yang melampaui ambang pengaman, atau pesan default jika tidak ada kandidat yang aman yang diidentifikasi.
HALUCINASI: Model ini dapat menghasilkan konten yang dapat disalahartikan sebagai kebenaran tetapi pada kenyataannya, menyesatkan atau sepenuhnya salah, yaitu halusinasi.
Bias dan Toksisitas: Model ini mewarisi stereotip sosial dan historis dari data yang digunakan untuk melatihnya. Mengingat bias ini, model ini dapat menghasilkan konten beracun, yaitu, berbahaya, ofensif, atau merugikan individu, kelompok, atau komunitas.
Pengulangan dan Verbositas: Model mungkin terjebak pada loop pengulangan (terutama jika penalti pengulangan selama generasi diatur ke nilai yang sedikit) atau menghasilkan respons verbose yang tidak terkait dengan prompt yang diberikan.
Semua model dan dataset yang dikembangkan adalah bagian dari disertasi doktoral Nicholas Kluge, " normativitas dinamis: kondisi yang diperlukan dan cukup untuk penyelarasan nilai ". Penelitian ini didanai oleh CNPQ (Fundação de Amparo à Pesquisa do estado do rio grande do sul), fapergs (fundação de Amparo à pesquisa do estado do rio do sul), dan daad (Deutscher akademischer austauschdien sul), dan daad (Deutscher akademischer austauschdien pucat), dan daad (Deutscher akademischer austauschy (Pontifícia Universidade Católica do Rio Grande do Sul) dan University of Bonn.
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}Repositori ini dilisensikan di bawah lisensi Apache, versi 2.0. Lihat file lisensi untuk lebih jelasnya.