Abraçando o rosto | Demo | Dissertação

Aira é uma série de chatbots desenvolvidos como um playground de experimentação para alinhamento de valor. Esta série é composta por vários modelos alcançados por meio de instruções de ajuste fino e técnicas de modelagem de preferências, como o aprendizado de reforço com taxa humana e otimização direta de preferências.
As informações sobre os conjuntos de dados usadas podem ser encontradas na pasta "DataSets". Todos os cartões de modelo são disponíveis na pasta "modelos".
Aira se destina apenas à pesquisa acadêmica. Para mais informações, leia os cartões de modelo de nossos modelos '.
Em nossa demonstração, fornecemos ao usuário um painel de controle para interagir com nossos modelos ajustados para instruções. Essa demonstração emprega um reward model e um toxicity model para avaliar a pontuação da resposta de cada candidato, considerando seu alinhamento com a mensagem do usuário e seu nível de toxicidade. A função de geração organiza as respostas do candidato em ordem de suas pontuações de recompensa e elimina quaisquer respostas consideradas tóxicas ou prejudiciais. Posteriormente, a função de geração retorna a resposta do candidato com a pontuação mais alta que supera o limite de segurança ou uma mensagem padrão se nenhum candidato seguro for identificado.
Alucinações: Este modelo pode produzir conteúdo que pode ser confundido com a verdade, mas é, de fato, enganador ou totalmente falso, ou seja, alucinação.
Viés e toxicidade: este modelo herda os estereótipos sociais e históricos dos dados usados para treiná -lo. Dados esses vieses, o modelo pode produzir conteúdo tóxico, ou seja, prejudicial, ofensivo ou prejudicial para indivíduos, grupos ou comunidades.
Repetição e verbosidade: o modelo pode ficar preso nos loops de repetição (especialmente se a penalidade de repetição durante as gerações for definida como um valor escasso) ou produzir respostas detalhadas não relacionadas ao prompt que foi dado.
Todos os modelos e conjuntos de dados desenvolvidos fazem parte da dissertação de doutorado de Nicholas Kluge, " Normatividade dinâmica: condições necessárias e suficientes para o alinhamento do valor ". Esta pesquisa foi financiada pelo CNPQ (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), Fapergs (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul) e Daad (Deutscher Akademisher Austaushdenn), e o deutscher akademischer austaushdenn), e o deutscher akademischer austaushdenn), e o deutscher akademischer austaushden) (Pontifícia Universidade Católica do Rio Grande do Sul) e a Universidade de Bonn.
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}Este repositório é licenciado sob a licença Apache, versão 2.0. Consulte o arquivo de licença para obter mais detalhes.