상하이 AI 실험실 팀은 Openai Olympiad 문제 해결 도구 O1의 오픈 소스 복제 프로젝트 인 O1 프로젝트의 LLAMA 버전의 출처를 열었습니다. 이 프로젝트는 Monte Carlo Tree 검색 및 강화 학습과 같은 고급 기술을 사용하여 수학적 올림피아드 질문에 대한 놀라운 결과를 달성하며 그 성능은 일부 상업용 폐쇄 소스 솔루션의 성능을 초과합니다. 이 프로젝트의 오픈 소스는 개발자에게 귀중한 학습 리소스 및 연구 재단을 제공하고 수학 분야에서 인공 지능의 적용의 추가 개발을 촉진합니다. 이 프로젝트에는 사전 훈련 된 데이터 세트, 사전 훈련 된 모델 및 강화 학습 교육 코드 등이 포함되어 있으며 LORA 및 PPO를 포함한 다양한 최적화 기술을 사용하여 수학적 추론에서 모델의 능력을 향상시킵니다.
최근 상하이 AI 실험실 팀은 OpenAI의 Olympiad 문제 해결 도구 O1을 복제하기 위해 O1 프로젝트의 LLAMA 버전을 발표했습니다. 이 프로젝트는 Monte Carlo Tree Search, Self Play Inforcement Learning, PPO 및 Alphago Zero의 듀얼 전략 패러다임을 포함한 다양한 고급 기술을 채택하여 개발자 커뮤니티로부터 광범위한 관심을 끌었습니다.

OpenAi의 O1 시리즈가 출시되기 오래 전에 상하이 AI 실험실 팀은 대형 모델의 수학적 능력을 향상시키기 위해 Monte Carlo Tree 검색의 사용을 탐색하기 시작했습니다. O1이 출시 된 후, 팀은 알고리즘을 더 업그레이드하고 Math Olympiad 문제에 중점을두고 Openai Strawberry 프로젝트의 오픈 소스 버전으로 개발했습니다.
수학적 올림피아드 문제에서 LLAMA 모델의 성능을 향상시키기 위해 팀은 쌍을 이루는 최적화 전략을 채택했습니다. 이 접근법을 통해 가장 어려운 AIME2024 벤치 마크에서 상당한 진전을 보였습니다. 30 개의 테스트 질문 중 최적화 된 모델은 올바르게 수행되었으며, 원래 LLAMA-3.1-8B 강조 모델은 올바르게 수행되었습니다. 이 성과는 O1-Preview 및 O1-MINI 외에 다른 상용 폐쇄 소스 솔루션을 능가합니다.

10 월 말, 팀은 Alphago Zero Architecture를 기반으로 Openai O1을 복제하는 데 상당한 진전을 발표하여 수동 주석없이 학습 프로세스 중에 검색 트리와의 상호 작용을 통해 모델이 고급 사고 능력을 얻을 수있게했습니다. 일주일도 채되지 않아 프로젝트가 열렸습니다.
현재 LLAMA 버전 O1의 오픈 소스 내용에는 미리 훈련 된 데이터 세트, 사전 훈련 된 모델 및 강화 학습 교육 코드가 포함됩니다. 그 중 "OpenLongCot-Pretrain"데이터 세트에는 10 만 개 이상의 긴 사고 체인 데이터가 포함되어 있으며 각 데이터는 사고 내용, 점수 결과, 문제 설명, 계산 프로세스, 결론 공제 및 기타 등의 완전한 수학적 문제 추론 프로세스가 포함됩니다. 각 추론 단계의 비판 및 검증뿐만 아니라 전체 추론 링크는 추론 프로세스에 대한 평가 및 지침을 제공합니다. 이 데이터 세트에서 사전 훈련을 계속한 후 모델은 O1과 같은 긴 사고 체인 프로세스를 읽고 출력 할 수 있습니다.

이 프로젝트를 LLAMA-O1이라고하지만 현재 공무원이 제공 한 미리 훈련 된 모델은 Google의 Gemma2를 기반으로합니다. 미리 훈련 된 모델을 기반으로 개발자는 강화 학습 교육을 계속 수행 할 수 있습니다. 교육 과정에는 다음과 같은 셀프 트리 검색을 사용하여 경험을 제공합니다. 효율적인 매개 변수 미세 조정에 LORA를 사용하고 PPO 알고리즘을 전략 최적화 방법으로 사용하고 유리한 기능을 계산하기위한 GAE 알고리즘을 구현하고 교육 효율성을 향상시키기 위해 우선 순위 경험 재생을 사용하는 등 일부 주요 기술이 교육 코드에서도 사용됩니다.
LLAMA-O1 코드는 SimpleBerry라는 GitHub 계정에 의해 게시되었다는 점은 더 신비 롭습니다. 다른 단순한 베리 관련 계정 및 공식 웹 사이트 정보에서, 그 특성은 연구 실험실이지만 연구 방향에 대한 더 이상 정보는 공개되지 않는다는 것을 알 수 있습니다.
Llama-O1 외에도 공개적으로 진행된 O1 복제 프로젝트는 상하이 Jiaotong University 팀의 O1-Journey입니다. 이 팀은 10 월 초에 첫 번째 진보 보고서를 발표하여 혁신적인 여행 학습 패러다임과 수학적 추론에 검색 및 학습을 성공적으로 통합하는 첫 번째 모델을 소개했습니다. O1-Journey Core Development 팀은 주로 Shanghai Jiaotong University의 주니어 및 선임 학부생과 Gair Laboratory (General Artificial Intelligence Research Laboratory)의 첫해 박사 과정 학생들로 구성됩니다. 상하이 Jiaotong University에서 Sloan Award 수상자 Li Yuanzhi 등
종이 주소 : https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
LLAMA 버전 O1 프로젝트의 오픈 소스는 AI 수학 문제 해결 분야에서 중요한 진보를 표시하며 추가 연구 및 응용 프로그램을위한 탄탄한 기반을 제공합니다. 우리는 앞으로이 프로젝트를 기반으로보다 혁신적인 업적을 기대합니다.