open strawberry 다운로드 - open strawberry 소스 코드 다운로드

open strawberry

기타 소스코드

1.0.0

다운로드

오픈 스트로 베리

오픈-딸기 데모? 프로젝트 : https://huggingface.co/spaces/pseudotensor/open-strawberry

OpenAI의 딸기 알고리즘에서 영감을 얻은 OpenAI O1의 오픈 소스 버전을 구축하기위한 추론 흔적 구성을위한 개념의 개념.

프로젝트를 지원하려면 ★를 (오른쪽 상단)로 돌리고 친구들과 공유하십시오.

기부금은 매우 환영합니다!

생각의 사슬 중 하나 :

설치

Python> = 3.10은 괜찮습니다.

pip install -r requirements.txt

용법

필수 API 키 등으로 .env 채우거나 ENV를 설정하십시오.

 # OpenAI
# Can be OpenAI key or vLLM or other OpenAI proxies:
OPENAI_API_KEY =
# only require below for vLLM or other OpenAI proxies:
OPENAI_BASE_URL =
# only require below for vLLM or other OpenAI proxies:
OPENAI_MODEL_NAME =

# ollama
OLLAMA_OPENAI_API_KEY =
OLLAMA_OPENAI_BASE_URL =
# quoted list of strings or string
OLLAMA_OPENAI_MODEL_NAME =

# Azure
AZURE_OPENAI_API_KEY =
OPENAI_API_VERSION =
AZURE_OPENAI_ENDPOINT =
AZURE_OPENAI_DEPLOYMENT =
# not required
AZURE_OPENAI_MODEL_NAME =

# Anthropic prompt caching very efficient
ANTHROPIC_API_KEY =

GEMINI_API_KEY =
# groq fast and long context
GROQ_API_KEY =
# cerebras only 8k context
CEREBRAS_OPENAI_API_KEY =

# WIP: not yet used
MISTRAL_API_KEY =
HUGGING_FACE_HUB_TOKEN =
REPLICATE_API_TOKEN =
TOGETHERAI_API_TOKEN =

올라마

Ollama의 경우 OpenAi 서비스를 사용할 수 있습니다.

 # Shut down ollama and re-run on whichever GPUs wanted:
sudo systemctl stop ollama.service
CUDA_VISIBLE_DEVICES=0 OLLAMA_HOST=0.0.0.0:11434 ollama serve & > ollama.log &
ollama run mistral:v0.3

그런 다음 Ollama_openai_base_url = .env OLLAMA_OPENAI_BASE_URL=http://localhost:11434/v1/ 및 eg OLLAMA_OPENAI_MODEL_NAME=ollama:mistral:v0.3 또는 ollama 모델 목록 : OLLAMA_OPENAI_MODEL_NAME="[ollama:mistral:v0.3"]

python src/open_strawberry.py --model ollama:mistral:v0.3

또는 UI에서 모델을 선택하십시오.

UI 사용 :

 export ANTHROPIC_API_KEY=your_api_key
streamlit run src/app.py

그런 다음 브라우저를 http : // localhost : 8501로 열십시오 (자동으로 팝업해야합니다).

CLI 사용 :

 export ANTHROPIC_API_KEY=your_api_key
python src/open_strawberry.py

그런 다음 프롬프트를 선택하십시오.

이 프로젝트는 개념 증명으로서 특정 문제에 대한 추론 흔적 생성을 탐색하기위한 초기 단계에있다.

데모 프롬프트는 간단한 모델이며 Sonnet3.5 및 GPT-4O조차도 표준 COT에서도 솔루션을 찾을 수 없습니다. 코드 에이전트가 쉽게 해결할 수는 있지만 O1-MINI 또는 O1-PREVIEW만을 얻을 수 있습니다.

배경

Open-strawberry는 교육 데이터를 생성하고 검증하기위한 정제 된 검색 생성 알고리즘 인 Openai의 딸기에 대한 추측을 기반으로합니다.

이 프로젝트는 오픈 소스 도구 및 방법론을 사용하여 유사한 시스템을 재현하는 것을 목표로합니다.

투기 정의

Q *: 교육 데이터를 생성하기 위해 OpenAI가 개발 한 가상의 원시 검색 생성 딥 RL 알고리즘.
Strawberry : 교육 데이터를 생성하고 검증하기 위해 OpenAI의 고급 검색 생성 Deep RL 알고리즘.
O1 : GPT-4O 및 GPT-4O-MINI 기반 O1-MINI, O1-PREVIEW, O1 및 O1-IOI를 포함한 딸기 데이터에 미세 조정되었습니다. [1]
ORION : Strawberry의 합성 데이터를 통합하고 0- 샷 대 긴 추론 쿼리를 더 잘 관리하는 GPT-5 기반 모델.

추론 흔적 생성

부트 스트랩은 진보적 인 학습을 통해 핵심입니다.

다중 전환 채팅 기록을 사용하여 기존 감독 미세 조정, 명령 조정, 환경 설정 조정 모델에서 시작합니다.
LLM을 안내하여 솔루션을 향한 점진적인 단계를 수행하는 프롬프트 시스템을 구현하십시오.
무작위로 유용한 COT 프롬프트 (예 : 다음에있을뿐만 아니라 "확실합니까?" "실수는 무엇입니까?" "어떻게 대답을 어떻게 확인하겠습니까?") 불법적 인 다양한 추론과 내성에 대한 무작위.
LLM을 강조하여 솔루션을 향해 가장 작은 단계를 밟으십시오. 예를 들어 단일 문구 나 문장조차도 선호됩니다. 연장 된 전체 응답이 주어지면 최종 답변이 생성 된 후에 만 가능합니다.
다중 회환 채팅 추론 흔적을 생성합니다
때로는 모델이 답변에 대해 자신감이 있는지 묻습니다. 그렇다면 <Final_answer> XML 태그에 해당 답을 배치하도록 요청하십시오. 완료되면 추론 추적 세대를 종료하십시오.
확인 시스템을 사용하여 채팅 기록의 오류를 확인하십시오.
문제 당 여러 추론 흔적을 생성합니다.
이 과정을 검증 가능한 근거 진실과 함께 큰 문제에 적용하십시오.
문제 식별 기존 지시 모델은 고정 된 수 (예 : 20) 반복에 대해 강한 침대와 고온으로 간신히 수행 할 수 있습니다.

추론 흔적에 대한 미세 조정

근거 진실에 따라 각 문제에 대한 정확하고 잘못된 추론 흔적을 선택하십시오.
DPO 또는 NLHF를 사용하여 선택된 추론 흔적을 사용하여 모델을 미세 조정하십시오. 여기서 선호도는 올바른 흔적에 대해 양수이며 잘못된 흔적에 대해 음수입니다.
취한 단계 수, 즉 잘못된 경우 선호도 무게를 기울입니다. 짧은 올바른 흔적은 더 긍정적 인 보상을 가져야합니다.
평소와 같이 다른 데이터를 혼합하여 이러한 추론 흔적에 대한 모델을 미세 조정하십시오.
이 모델을 사용 하여이 새로운 모델이 거의 할 수없는 약간 어려운 문제에 대한 추론 흔적을 생성하십시오.

모델이 가장 어려운 문제를 수행 할 때까지 추론 흔적과 미세 조정을 반복하여 더 많은 유형의 문제를 소비하는 추론의 범위 (항상 필요한 것은 아니기 때문에 모든 유형은 아닙니다).

추측

MCT, TOT, 에이전트 등. 훈련 또는 추론 시간에 필요하지 않습니다.
인간 라벨링 또는 추론 흔적의 인간 검증은 필요하지 않습니다.
검증을위한 미세 조정 모델은 필요하지 않습니다.
RLHF는 엄격하게 필요하지 않으며 DPO 만 필요합니다.
OpenAi는 추론 흔적을 훈련시키기 위해 Deep RL을 사용하고 있지만 이것이 필요하다고 생각하지 않습니다. 자체 플레이는 강력하지만 DPO에 의해 모방 될 수 있습니다.
Deep RL은 효율적인 방식으로 데이터를 생성하는 방법 일뿐 만 아니라 OpenAI의 이전 작업에서 필요하지 않으며 그냥 보류됩니다.

정당화

[P10]는 자체 생성 된 다중 회전 데이터를 사용하는 제안을 검증하여 모델을 자기 수정으로 약간 점진적으로 밀어 넣는 제안을 검증하는 최근 논문입니다.

프로젝트 목표

제안 된 접근법을 사용하여 추론 흔적을 생성합니다.
생성 된 추론 흔적에 대한 모델을 미세 조정하십시오.
성능을 평가하고 제로 샷, 소수의 샷, 코트 등으로 기존 모델과 비교하십시오.

기타 프로젝트 :

Raspberry와의 주요 차이점은 단단한 프롬프트에 중점을두고 있으며, 반복적 인 미세 조정으로 진보적 인 학습 접근 방식은 O1에 대한 부트 스트랩을 생각합니다.
G1과의 주요 차이점은 O1을 향한 미세 조정 방법을 강조하지 않고 O1과 같은 동작만으로 집중한다는 것입니다.
프롬프트 캐싱에 대한 Anthropic 및 Google API 지원은 실행하기가 훨씬 저렴합니다. Vllm은 접두사 캐싱을 지원하여 도움이됩니다.

현재 상태

이 프로젝트는 초기 단계에 있습니다. 결과와 비교가 가능해지면 추가됩니다.

TODO :

더 어려운 문제는 여전히 손이 닿지 않는데, O1- 프리뷰는 시간의 약 50% 만 얻습니다 (코드 에이전트는 시간의 90%를 얻습니다).

쉬운 문제는 안정적으로 해결됩니다.

기여

우리는 지역 사회의 기여를 환영합니다. 참여 방법에 대한 지침은 Contributing.md 파일을 참조하십시오.

문제 :

앱의 계속 버튼은 회색 오래된 채팅을 떠나고 깨끗하게 시작하면 가장 좋습니다.
토큰 계산은 히트가 계속 된 후에 만 나타납니다.

저자에 대해

Jonathan McKinney는 천체 물리학 및 기계 학습에 대한 배경 지식을 가진 H2O.AI의 연구 책임자입니다. 그의 경험은 다음과 같습니다.

UMD의 전 천체 물리학 교수 [B1] [B2] [B3] [B4]
H2O.AI [B5] [B6]에서 AutomL 제품에 대한 7 년의 경험
미세 조정 LLM, 래그 및 AI 에이전트 (H2OGPT) [B7] [B8]에 대한 최근 연구
H2OGPT 및 프롬프트 엔지니어링과 같은 다른 프로젝트를 참조하십시오

부인 성명

이 프로젝트는 추론 적이며 OpenAI의 작업에 대한 공개 정보를 기반으로합니다. OpenAi와 제휴하거나 승인하지 않습니다.

참조

[1] https://openai.com/index/learning-to-reason-with-llms/

[B1] https://umdphysics.umd.edu/about-us/department-news/697-jon-mckinney-publishes-in-science-express.html

[B2] https://umdphysics.umd.edu/academics/courses/945-physics-420-principles of-modern-physics.html

[B3] https://www.linkedin.com/in/jonathan-mckinney-32b0ab18/

[B4] https://scholar.google.com/citations?user=5l3lfoyaaaaj&hl=en

[B5] https://h2o.ai/company/team/makers/

[B6] https://h2o.ai/platform/ai-cloud/make/h2o-driverless-ai/

[B7] https://arxiv.org/abs/2306.08161

[B8] https://github.com/h2oai/h2ogpt

[P0] 큰 언어 모델에서 추론을 유발하는 추론을 유발합니다. https://arxiv.org/abs/2201.11903

[P1] Star : 추론과 함께 부트 스트랩 추론 : https://arxiv.org/abs/2203.14465

[P2] 단계별로 확인하겠습니다 : https://arxiv.org/abs/2305.20050

[P3] 조용한 별 : 언어 모델은 말하기 전에 생각하도록 가르 칠 수 있습니다 : https://arxiv.org/abs/2403.09629

[P4] 말하기 전에 생각 : 일시 정지 토큰이있는 언어 모델 : https://arxiv.org/abs/2310.02226

[P5] 인간 피드백에서 내쉬 학습 : https://arxiv.org/abs/2312.00886

[P6] LLM 테스트 시간 컴퓨팅 스케일링 모델 매개 변수 https://arxiv.org/abs/2408.03314보다 효과적 일 수 있습니다.

[P7] REAP와 함께 LLM 문제 해결 강화 : 반사, 명시 적 문제 해체 및 고급 프롬프트 https://arxiv.org/abs/2409.09415

[P8] Agent Q : 자율 AI 에이전트에 대한 고급 추론 및 학습 https://arxiv.org/abs//2408.07199

[P9] 보드 게임으로 스케일링 법률 https://arxiv.org/abs/2104.03113

[P10] 강화 학습을 통해 자기 교정에 대한 언어 모델 교육 https://arxiv.org/abs/2409.12917

open strawberry

오픈 스트로 베리

설치

용법

올라마

배경

투기 정의

추론 흔적 생성

추론 흔적에 대한 미세 조정

추측

정당화

프로젝트 목표

현재 상태

기여

저자에 대해

부인 성명

참조

open webui

powsybl open rao

머리를 열어라

가챠 딸기 최신 버전

오픈 아트리움

블로그 열기

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express