오픈-딸기 데모? 프로젝트 : https://huggingface.co/spaces/pseudotensor/open-strawberry

OpenAI의 딸기 알고리즘에서 영감을 얻은 OpenAI O1의 오픈 소스 버전을 구축하기위한 추론 흔적 구성을위한 개념의 개념.
프로젝트를 지원하려면 ★를 (오른쪽 상단)로 돌리고 친구들과 공유하십시오.
기부금은 매우 환영합니다!

생각의 사슬 중 하나 :

Python> = 3.10은 괜찮습니다.
pip install -r requirements.txt 필수 API 키 등으로 .env 채우거나 ENV를 설정하십시오.
# OpenAI
# Can be OpenAI key or vLLM or other OpenAI proxies:
OPENAI_API_KEY =
# only require below for vLLM or other OpenAI proxies:
OPENAI_BASE_URL =
# only require below for vLLM or other OpenAI proxies:
OPENAI_MODEL_NAME =
# ollama
OLLAMA_OPENAI_API_KEY =
OLLAMA_OPENAI_BASE_URL =
# quoted list of strings or string
OLLAMA_OPENAI_MODEL_NAME =
# Azure
AZURE_OPENAI_API_KEY =
OPENAI_API_VERSION =
AZURE_OPENAI_ENDPOINT =
AZURE_OPENAI_DEPLOYMENT =
# not required
AZURE_OPENAI_MODEL_NAME =
# Anthropic prompt caching very efficient
ANTHROPIC_API_KEY =
GEMINI_API_KEY =
# groq fast and long context
GROQ_API_KEY =
# cerebras only 8k context
CEREBRAS_OPENAI_API_KEY =
# WIP: not yet used
MISTRAL_API_KEY =
HUGGING_FACE_HUB_TOKEN =
REPLICATE_API_TOKEN =
TOGETHERAI_API_TOKEN =Ollama의 경우 OpenAi 서비스를 사용할 수 있습니다.
# Shut down ollama and re-run on whichever GPUs wanted:
sudo systemctl stop ollama.service
CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST=0.0.0.0:11434 ollama serve & > ollama.log &
ollama run mistral:v0.3 그런 다음 Ollama_openai_base_url = .env OLLAMA_OPENAI_BASE_URL=http://localhost:11434/v1/ 및 eg OLLAMA_OPENAI_MODEL_NAME=ollama:mistral:v0.3 또는 ollama 모델 목록 : OLLAMA_OPENAI_MODEL_NAME="[ollama:mistral:v0.3"]
python src/open_strawberry.py --model ollama:mistral:v0.3또는 UI에서 모델을 선택하십시오.
UI 사용 :
export ANTHROPIC_API_KEY=your_api_key
streamlit run src/app.py그런 다음 브라우저를 http : // localhost : 8501로 열십시오 (자동으로 팝업해야합니다).
CLI 사용 :
export ANTHROPIC_API_KEY=your_api_key
python src/open_strawberry.py그런 다음 프롬프트를 선택하십시오.
이 프로젝트는 개념 증명으로서 특정 문제에 대한 추론 흔적 생성을 탐색하기위한 초기 단계에있다.
데모 프롬프트는 간단한 모델이며 Sonnet3.5 및 GPT-4O조차도 표준 COT에서도 솔루션을 찾을 수 없습니다. 코드 에이전트가 쉽게 해결할 수는 있지만 O1-MINI 또는 O1-PREVIEW만을 얻을 수 있습니다.
Open-strawberry는 교육 데이터를 생성하고 검증하기위한 정제 된 검색 생성 알고리즘 인 Openai의 딸기에 대한 추측을 기반으로합니다.
이 프로젝트는 오픈 소스 도구 및 방법론을 사용하여 유사한 시스템을 재현하는 것을 목표로합니다.
부트 스트랩은 진보적 인 학습을 통해 핵심입니다.
모델이 가장 어려운 문제를 수행 할 때까지 추론 흔적과 미세 조정을 반복하여 더 많은 유형의 문제를 소비하는 추론의 범위 (항상 필요한 것은 아니기 때문에 모든 유형은 아닙니다).
[P10]는 자체 생성 된 다중 회전 데이터를 사용하는 제안을 검증하여 모델을 자기 수정으로 약간 점진적으로 밀어 넣는 제안을 검증하는 최근 논문입니다.
기타 프로젝트 :
이 프로젝트는 초기 단계에 있습니다. 결과와 비교가 가능해지면 추가됩니다.
TODO :
더 어려운 문제는 여전히 손이 닿지 않는데, O1- 프리뷰는 시간의 약 50% 만 얻습니다 (코드 에이전트는 시간의 90%를 얻습니다).

쉬운 문제는 안정적으로 해결됩니다.

우리는 지역 사회의 기여를 환영합니다. 참여 방법에 대한 지침은 Contributing.md 파일을 참조하십시오.
문제 :
Jonathan McKinney는 천체 물리학 및 기계 학습에 대한 배경 지식을 가진 H2O.AI의 연구 책임자입니다. 그의 경험은 다음과 같습니다.
이 프로젝트는 추론 적이며 OpenAI의 작업에 대한 공개 정보를 기반으로합니다. OpenAi와 제휴하거나 승인하지 않습니다.
[1] https://openai.com/index/learning-to-reason-with-llms/
[B1] https://umdphysics.umd.edu/about-us/department-news/697-jon-mckinney-publishes-in-science-express.html
[B2] https://umdphysics.umd.edu/academics/courses/945-physics-420-principles of-modern-physics.html
[B3] https://www.linkedin.com/in/jonathan-mckinney-32b0ab18/
[B4] https://scholar.google.com/citations?user=5l3lfoyaaaaj&hl=en
[B5] https://h2o.ai/company/team/makers/
[B6] https://h2o.ai/platform/ai-cloud/make/h2o-driverless-ai/
[B7] https://arxiv.org/abs/2306.08161
[B8] https://github.com/h2oai/h2ogpt
[P0] 큰 언어 모델에서 추론을 유발하는 추론을 유발합니다. https://arxiv.org/abs/2201.11903
[P1] Star : 추론과 함께 부트 스트랩 추론 : https://arxiv.org/abs/2203.14465
[P2] 단계별로 확인하겠습니다 : https://arxiv.org/abs/2305.20050
[P3] 조용한 별 : 언어 모델은 말하기 전에 생각하도록 가르 칠 수 있습니다 : https://arxiv.org/abs/2403.09629
[P4] 말하기 전에 생각 : 일시 정지 토큰이있는 언어 모델 : https://arxiv.org/abs/2310.02226
[P5] 인간 피드백에서 내쉬 학습 : https://arxiv.org/abs/2312.00886
[P6] LLM 테스트 시간 컴퓨팅 스케일링 모델 매개 변수 https://arxiv.org/abs/2408.03314보다 효과적 일 수 있습니다.
[P7] REAP와 함께 LLM 문제 해결 강화 : 반사, 명시 적 문제 해체 및 고급 프롬프트 https://arxiv.org/abs/2409.09415
[P8] Agent Q : 자율 AI 에이전트에 대한 고급 추론 및 학습 https://arxiv.org/abs//2408.07199
[P9] 보드 게임으로 스케일링 법률 https://arxiv.org/abs/2104.03113
[P10] 강화 학습을 통해 자기 교정에 대한 언어 모델 교육 https://arxiv.org/abs/2409.12917
관련 프로젝트 :
<thinking> 과는 다른 토큰을 보았고 이제는 <reasoning> 입니다.의지:
관련 비디오 :