포옹 얼굴 | 데모 | 논문

Aira 는 가치 정렬을위한 실험 놀이터로 개발 된 일련의 chatbots 입니다. 이 시리즈는 인간 요금 백과 직접 선호도 최적화를 통한 강화 학습과 같은 교육 미세 조정 및 선호도 모델링 기술을 통해 달성 된 여러 모델로 구성됩니다.
사용 된 데이터 세트에 대한 정보는 "데이터 세트"폴더에서 찾을 수 있습니다. 모든 모델 카드는 "Models"폴더에서 avalililiable입니다.
Aira 학업 연구를위한 것입니다. 자세한 내용은 모델의 모델 카드를 읽으십시오.
데모에서는 사용자에게 명령 조정 모델과 상호 작용할 수있는 제어판을 제공합니다. 이 데모는 사용자의 메시지와 독성 수준과의 정렬을 고려하여 reward model 과 toxicity model 사용하여 각 후보의 반응의 점수를 평가합니다. 생성 기능은 보상 점수 순서대로 후보 응답을 준비하고 독성이 있거나 유해하다고 간주되는 응답을 제거합니다. 그 후, 생성 함수는 안전 임계 값을 능가하는 최고 점수로 후보 응답을 반환하거나 안전한 후보자가 식별되지 않은 경우 기본 메시지를 반환합니다.
환각 : 이 모델은 진실로 착각 할 수 있지만 실제로는 오해의 소지가 있거나 완전히 거짓, 즉 환각입니다.
편견과 독성 : 이 모델은 그것을 훈련시키는 데 사용되는 데이터의 사회적 및 역사적 고정 관념을 상속합니다. 이러한 편견을 감안할 때, 모델은 독성 함량, 즉 유해하거나 공격적이거나 개인, 그룹 또는 지역 사회에 해를 끼칠 수 있습니다.
반복 및 Verbosity : 모델은 반복 루프에 붙어있을 수 있습니다 (특히 세대 동안의 반복 페널티가 빈약 한 가치로 설정된 경우) 또는 그 프롬프트와 관련이없는 장황한 응답을 생성 할 수 있습니다.
개발 된 모든 모델과 데이터 세트는 Nicholas Kluge의 박사 학위 논문의 일부입니다. " 동적 규범 : 가치 정렬을위한 필요하고 충분한 조건 ". 이 연구는 CNPQ (Fundação de Amparo à Pesquisa do estado do rio Grande Sul), Fapergs (Fundação de Amparo à Pesquisa do estado do rio Grande do Sul) 및 DAAD (Deutscher akademischer Austauschdienst)와 Daad (Putschacemischer Austauschdienst)에 의해 자금을 지원했습니다. (Pontifícia Universidade Católica do Rio Grande do Sul)와 Bonn 대학.
@misc{nicholas22aira,
doi = {10.5281/zenodo.6989727},
url = {https://github.com/Nkluge-correa/Aira},
author = {Nicholas Kluge Corrêa},
title = {Aira},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
}
@phdthesis{kluge2024dynamic,
title={Dynamic Normativity},
author={Kluge Corr{ ^ e}a, Nicholas},
year={2024},
school={Universit{ " a}ts-und Landesbibliothek Bonn}
}이 저장소는 Apache 라이센스 버전 2.0에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오.