llama api server
v0.3.5
이 프로젝트는 활성화 중입니다. 언제든지 깨는 변화가 이루어질 수 있습니다.
서비스로 라마! 이 프로젝트는 LLAMA/LLAMA2와 같은 오픈 소스 백엔드를 사용하여 OpenAI API와 호환되는 REST-FUL API 서버를 구축하려고합니다.
이 프로젝트를 통해 많은 일반적인 GPT 도구/프레임 워크가 자신의 모델과 호환 될 수 있습니다.
이 Collab Notebook의 교육을 따르면 온라인으로 재생하십시오. 그것을 만들어 주셔서 감사합니다!
LLAMA.CPP를 정량화하지 않은 경우 모델을 준비하려면 지침을 따라야합니다.
Pyllama를 양자화하지 않으면 모델을 준비하려면 지시를 따라야합니다.
다음 스크립트를 사용하여 PYPI에서 패키지를 다운로드하고 모델 config 파일 config.yml 및 보안 토큰 파일 tokens.txt 생성합니다.
pip install llama-api-server
# to run wth pyllama
pip install llama-api-server[pyllama]
cat > config.yml << EOF
models:
completions:
# completions and chat_completions use same model
text-ada-002:
type: llama_cpp
params:
path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
text-davinci-002:
type: pyllama_quant
params:
path: /absolute/path/to/your/pyllama-7B4b.pt
text-davinci-003:
type: pyllama
params:
ckpt_dir: /absolute/path/to/your/7B/
tokenizer_path: /absolute/path/to/your/tokenizer.model
# keep to 1 instance to speed up loading of model
embeddings:
text-embedding-davinci-002:
type: pyllama_quant
params:
path: /absolute/path/to/your/pyllama-7B4b.pt
min_instance: 1
max_instance: 1
idle_timeout: 3600
text-embedding-ada-002:
type: llama_cpp
params:
path: /absolute/path/to/your/7B/ggml-model-q4_0.bin
EOF
echo "SOME_TOKEN" > tokens.txt
# start web server
python -m llama_api_server
# or visible across the network
python -m llama_api_server --host=0.0.0.0
export OPENAI_API_KEY=SOME_TOKEN
export OPENAI_API_BASE=http://127.0.0.1:5000/v1
openai api completions.create -e text-ada-002 -p "hello?"
# or using chat
openai api chat_completions.create -e text-ada-002 -g user "hello?"
# or calling embedding
curl -X POST http://127.0.0.1:5000/v1/embeddings -H 'Content-Type: application/json' -d '{"model":"text-embedding-ada-002", "input":"It is good."}' -H "Authorization: Bearer SOME_TOKEN"
temperature , top_p 및 top_k 설정하십시오 max_tokens 설정하십시오 echo 설정하십시오 stop 설정하십시오 stream 설정하십시오 n 설정하십시오 presence_penalty 및 frequency_penalty 설정하십시오 logit_bias 설정하십시오 n_batch 및 n_thread 와 같은 성능 매개 변수