
Aikit ist eine umfassende Plattform, um schnell große Sprachmodelle (LLMs) zu hosten, bereitzustellen, zu bauen und zu feinstimmen.
Aikit bietet zwei Hauptfunktionen:
Inferenz : Aikit verwendet Localai, das eine breite Palette von Inferenzfähigkeiten und -formaten unterstützt. Localai bietet eine Drop-In-Ersatz-REST-API, die OpenAI-API-kompatibel ist, sodass Sie alle OpenAI-API-kompatiblen Client wie Kubectl AI, Chatbot-UI und viele mehr verwenden können, um Anfragen zum Öffnen von LLMs zu senden!
Feinabstimmung : Aikit bietet eine erweiterbare Feinabstimmung. Es unterstützt Unloth für schnelles, maßstabsösendes und einfaches Erlebnis für Feinabstimmungen.
Informationen zur vollständigen Dokumentation finden Sie in der AIKIT -Website!
llama ), GPTQ oder Exl2 ( exllama2 ) und GGML ( llama-ggml ) und MAMBA-ModelleSie können schnell mit Aikit auf Ihrer lokalen Maschine ohne GPU beginnen!
docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8bNavigieren Sie nach dem Ausführen zu http: // localhost: 8080/chat, um auf das webui zuzugreifen!
Aikit bietet einen openAI -API -kompatiblen Endpunkt, sodass Sie alle OpenAI -API -kompatiblen Clients verwenden können, um Anfragen zum Öffnen von LLMs zu senden!
curl http://localhost:8080/v1/chat/completions -H " Content-Type: application/json " -d ' {
"model": "llama-3.1-8b-instruct",
"messages": [{"role": "user", "content": "explain kubernetes in a sentence"}]
} 'Die Ausgabe sollte ähnlich sein wie mit:
{
// ...
"model" : "llama-3.1-8b-instruct" ,
"choices" : [
{
"index" : 0 ,
"finish_reason" : "stop" ,
"message" : {
"role" : "assistant" ,
"content" : "Kubernetes is an open-source container orchestration system that automates the deployment, scaling, and management of applications and services, allowing developers to focus on writing code rather than managing infrastructure."
}
}
] ,
// ...
}Das war's! ? API ist offen kompatibel, daher ist dies ein Drop-In-Ersatz für jeden OpenAI-API-kompatiblen Client.
Aikit verfügt über vorgefertigte Modelle, die Sie außerhalb des Boxs verwenden können!
Wenn es kein bestimmtes Modell enthält, können Sie jederzeit Ihre eigenen Bilder erstellen und in einer Containerregistrierung Ihrer Wahl hosten!
Notiz
Aikit unterstützt sowohl AMD64- als auch ARM64 -CPUs. Sie können denselben Befehl in beiden Architekturen ausführen, und Docker zieht automatisch das richtige Bild für Ihre CPU.
Abhängig von Ihren CPU -Funktionen wählt AIKIT automatisch den optimiertesten Befehlssatz aus.
| Modell | Optimierung | Parameter | Befehl | Modellname | Lizenz |
|---|---|---|---|---|---|
| ? Lama 3.2 | Anweisen | 1b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | Lama |
| ? Lama 3.2 | Anweisen | 3b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | Lama |
| ? Lama 3.1 | Anweisen | 8b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | Lama |
| ? Lama 3.1 | Anweisen | 70b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | Lama |
| Anweisen | 8x7b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | Apache | |
| Anweisen | 3.8b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | MIT | |
| ? Gemma 2 | Anweisen | 2B | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | Gemma |
| ⌨️ Codestral 0.1 | Code | 22b | docker run -d --rm -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | Mnlp |
Notiz
Um die GPU -Beschleunigung zu ermöglichen, finden Sie in der GPU -Beschleunigung.
Bitte beachten Sie, dass nur der Unterschied zwischen dem CPU- und GPU -Abschnitt das Flag --gpus all im Befehl ist, um die GPU -Beschleunigung zu ermöglichen.
| Modell | Optimierung | Parameter | Befehl | Modellname | Lizenz |
|---|---|---|---|---|---|
| ? Lama 3.2 | Anweisen | 1b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:1b | llama-3.2-1b-instruct | Lama |
| ? Lama 3.2 | Anweisen | 3b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:3b | llama-3.2-3b-instruct | Lama |
| ? Lama 3.1 | Anweisen | 8b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:8b | llama-3.1-8b-instruct | Lama |
| ? Lama 3.1 | Anweisen | 70b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:70b | llama-3.1-70b-instruct | Lama |
| Anweisen | 8x7b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b | mixtral-8x7b-instruct | Apache | |
| Anweisen | 3.8b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b | phi-3.5-3.8b-instruct | MIT | |
| ? Gemma 2 | Anweisen | 2B | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/gemma2:2b | gemma-2-2b-instruct | Gemma |
| ⌨️ Codestral 0.1 | Code | 22b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/codestral:22b | codestral-22b | Mnlp |
| ? Flux 1 Dev | Text zum Bild | 12b | docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/flux1:dev | flux-1-dev | Flux.1 [Dev] Nichtkommerzielle Lizenz |
Notiz
Um die GPU -Beschleunigung auf Apple Silicon zu ermöglichen, finden Sie in Podman Desktop -Dokumentation. Weitere Informationen finden Sie in der GPU -Beschleunigung.
Apple Silicon ist eine experimentelle Laufzeit und kann sich in Zukunft ändern. Diese Laufzeit ist nur für Apple Silicon spezifisch und funktioniert nicht wie erwartet bei anderen Architekturen, einschließlich Intel Macs.
Nur gguf -Modelle werden auf Apple Silicon unterstützt.
| Modell | Optimierung | Parameter | Befehl | Modellname | Lizenz |
|---|---|---|---|---|---|
| ? Lama 3.2 | Anweisen | 1b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:1b | llama-3.2-1b-instruct | Lama |
| ? Lama 3.2 | Anweisen | 3b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:3b | llama-3.2-3b-instruct | Lama |
| ? Lama 3.1 | Anweisen | 8b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.1:8b | llama-3.1-8b-instruct | Lama |
| Anweisen | 3.8b | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/phi3.5:3.8b | phi-3.5-3.8b-instruct | MIT | |
| ? Gemma 2 | Anweisen | 2B | podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/gemma2:2b | gemma-2-2b-instruct | Gemma |
Weitere Informationen und die Funktionsweise von Modellen oder Ihre eigenen Bilder finden Sie in der AIKIT -Website!