| 제목 | 이모티콘 | 색상 | Colorto | SDK | sdk_version | app_file | 고정 | 특허 | short_description |
|---|---|---|---|---|---|---|---|---|---|
Agentreview | ? | 남빛 | 분홍색 | Gradio | 5.4.0 | app.py | 거짓 | 아파치 -2.0 | EMNLP 2024 |
?
데모 | 웹 사이트 | ? 종이 | ? arxiv | 코드
@inproceedings { jin2024agentreview ,
title = { AgentReview: Exploring Peer Review Dynamics with LLM Agents } ,
author = { Jin, Yiqiao and Zhao, Qinlin and Wang, Yiyang and Chen, Hao and Zhu, Kaijie and Xiao, Yijia and Wang, Jindong } ,
booktitle = { EMNLP } ,
year = { 2024 }
}
AgentReview는 검토 결과에 영향을 미치는 복잡한 다변량 요소를 분석하고 해결하기 위해 개발 된 동료 검토 프로세스를 시뮬레이션하기위한 선구적인 대형 언어 모델 (LLM) 기반 프레임 워크입니다. 기존 통계 방법과 달리 Agentreview는 민감한 피어 검토 데이터의 개인 정보를 존중하면서 잠재 변수를 캡처합니다.
동료 검토는 과학 간행물의 무결성과 발전의 기본입니다. 기존의 동료 검토 방법 분석은 종종 기존 동료 검토 데이터의 탐색 및 통계에 의존하며, 프로세스의 다변량 특성을 적절하게 다루지 않고 잠재 변수를 설명하며 데이터의 민감한 특성으로 인해 개인 정보 문제에 의해 더욱 제한됩니다. 우리는 최초의 대형 언어 모델 (LLM) 기반 동료 검토 시뮬레이션 프레임 워크 인 Agentreview를 소개하여 여러 잠재 요인의 영향을 효과적으로 분리하고 개인 정보 보호 문제를 해결합니다. 우리의 연구는 사회적 영향 이론, 이타주의 피로 및 권한 편견과 같은 사회 학적 이론에 의해 뒷받침되는 검토 자의 편견으로 인한 논문 결정의 주목할만한 37.1% 변동을 포함하여 상당한 통찰력을 보여줍니다. 우리는이 연구가 동료 검토 메커니즘의 설계를 향상시키기위한 귀중한 통찰력을 제공 할 수 있다고 생각합니다.

데이터를 다운로드하십시오
이 Dropbox에서 두 개의 zip 파일을 다운로드하십시오.
unzip agentreview_paper_data.zip hat data/ , 여기에는 다음이 포함되어 있습니다.
unzip AgentReview_Paper_Data.zip -d data/ (선택 사항) LLM 생성 리뷰 (LLM 생성 데이터 세트)가 포함 된 outputs/ 에서 unzip agentreview_llm_reviews.zip.
unzip AgentReview_LLM_Review.zip -d outputs/필수 패키지 설치 :
cd AgentReview/
pip install -r requirements.txt
OpenAI API를 사용하는 경우 OpenAI_API_Key를 설정하십시오.
export OPENAI_API_KEY=... # Format: sk-...Azureopenai API를 사용하는 경우 다음을 설정하십시오
export AZURE_ENDPOINT=... # Format: https://<your-endpoint>.openai.azure.com/
export AZURE_DEPLOYMENT=... # Your Azure OpenAI deployment here
export AZURE_OPENAI_KEY=... # Your Azure OpenAI key here프로젝트 실행
환경 변수를 run.sh 에서 설정하고 실행하십시오.
bash run.sh 참고 : 모든 프로젝트 파일은 AgentReview 디렉토리에서 실행해야합니다.
데모
데모는 notebooks/demo.ipynb 에서 찾을 수 있습니다
agentreview/experiment_config.py 에 새 설정을 추가 한 다음 all_settings Dictionary에 새 항목으로 설정을 추가 할 수 있습니다.
all_settings = {
"BASELINE" : baseline_setting ,
"benign_Rx1" : benign_Rx1_setting ,
...
" your_setting_name ": your_setting 우리의 시뮬레이션은 구조화 된 5 단계 파이프 라인을 채택합니다
이 프로젝트는 Apache-2.0 라이센스에 따라 라이센스가 부여됩니다.
구현은 부분적으로 Chatarena 프레임 워크를 기반으로합니다.