agent handbook
1.0.0
? 멋진 AI 요원
나는 항상 오픈 소스와 사랑을 믿고 일하고 공부하는 동안 에이전트에게 귀중하고 흥미 롭다고 생각하는 모든 지식 포인트를 공유하고 정기적으로 블로그에 글을 작성하여 모든 사람과 토론하고 배우고 함께 진행합니다.
또한이 블로그를 지속적으로 개선하여 실제 에이전트 핸드북으로 만들기 위해 PR에 기여하는 것을 환영합니다.
에이전트 워크 플로를 시작하기 위해 NG 씨 의이 연설을 읽는 것이 좋습니다.
ORPO는 매우 혁신적인 방법을 제안합니다. 모델 정렬 단계와 SFT 단계를 함께 융합하여 모델 교육 방법을 개선합니다.
SFT 단계에서 정렬 된 데이터는 교육에 직접 추가되며 모델 정렬 능력은 SFT 단계에서 실현됩니다.
解决的问题:이 백서는 데이터 세트에 따라 고품질 지침을 작성하는 방법을 제공하는 능력을 향상시켜 다른 방법에서 지침을 배우는 능력을 향상시키는 것을 목표로합니다.
이 백서에서는 응답 내용이 올바른지 여부를 감지하여 데이터 품질을 향상시키는 기능을 생성합니다.
이 백서의 방법은 그다지 혁신적이지는 않지만 데이터 품질의 중요성을 어느 정도 알려줍니다.