aikit Download - aikit Source Code Download

aikit

Anderer Quellcode

v0.15.0

Herunterladen

Aikit

Aikit ist eine umfassende Plattform, um schnell große Sprachmodelle (LLMs) zu hosten, bereitzustellen, zu bauen und zu feinstimmen.

Aikit bietet zwei Hauptfunktionen:

Inferenz : Aikit verwendet Localai, das eine breite Palette von Inferenzfähigkeiten und -formaten unterstützt. Localai bietet eine Drop-In-Ersatz-REST-API, die OpenAI-API-kompatibel ist, sodass Sie alle OpenAI-API-kompatiblen Client wie Kubectl AI, Chatbot-UI und viele mehr verwenden können, um Anfragen zum Öffnen von LLMs zu senden!
Feinabstimmung : Aikit bietet eine erweiterbare Feinabstimmung. Es unterstützt Unloth für schnelles, maßstabsösendes und einfaches Erlebnis für Feinabstimmungen.

Informationen zur vollständigen Dokumentation finden Sie in der AIKIT -Website!

Merkmale

? Kein GPU, kein Internetzugang oder zusätzliche Tools, die außer Docker benötigt werden!
? Minimale Bildgröße, was zu weniger Schwachstellen und einer kleineren Angriffsfläche mit einem benutzerdefinierten, entscheidenden Bild führt
? Feinsteuerunterstützung
Einfach zu verwendende deklarative Konfiguration für Inferenz und Feinabstimmung
OpenAI -API, die mit einem OpenAI -API -kompatiblen Client kompatibel ist
? Multimodal-Modellunterstützung
Unterstützung Unterstützung für Bildgenerierung
? Unterstützung für GGUF ( llama ), GPTQ oder Exl2 ( exllama2 ) und GGML ( llama-ggml ) und MAMBA-Modelle
? Kubernetes -Bereitstellung bereit
? Unterstützt mehrere Modelle mit einem einzelnen Bild
Unterstützt AMD64- und ARM64-CPUs und GPU-beschleunigte Inferenzierung mit NVIDIA-GPUs
? Gewährleisten
? Unterstützt Umgebungen mit den luftgeräten mit selbst gehosteten, lokalen oder remote Containerregistern, um Modellbilder für Inferenz am Rande zu speichern.

Schneller Start

Sie können schnell mit Aikit auf Ihrer lokalen Maschine ohne GPU beginnen!

docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b

Navigieren Sie nach dem Ausführen zu http: // localhost: 8080/chat, um auf das webui zuzugreifen!

API

Aikit bietet einen openAI -API -kompatiblen Endpunkt, sodass Sie alle OpenAI -API -kompatiblen Clients verwenden können, um Anfragen zum Öffnen von LLMs zu senden!

curl http://localhost:8080/v1/chat/completions -H " Content-Type: application/json " -d ' {
    "model": "llama-3.1-8b-instruct",
    "messages": [{"role": "user", "content": "explain kubernetes in a sentence"}]
  } '

Die Ausgabe sollte ähnlich sein wie mit:

 {
  // ...
    "model" : "llama-3.1-8b-instruct" ,
    "choices" : [
        {
            "index" : 0 ,
            "finish_reason" : "stop" ,
            "message" : {
                "role" : "assistant" ,
                "content" : "Kubernetes is an open-source container orchestration system that automates the deployment, scaling, and management of applications and services, allowing developers to focus on writing code rather than managing infrastructure."
            }
        }
    ] ,
  // ...
}

Das war's! ? API ist offen kompatibel, daher ist dies ein Drop-In-Ersatz für jeden OpenAI-API-kompatiblen Client.

Vorgefertigte Modelle

Aikit verfügt über vorgefertigte Modelle, die Sie außerhalb des Boxs verwenden können!

Wenn es kein bestimmtes Modell enthält, können Sie jederzeit Ihre eigenen Bilder erstellen und in einer Containerregistrierung Ihrer Wahl hosten!

CPU

Notiz

Aikit unterstützt sowohl AMD64- als auch ARM64 -CPUs. Sie können denselben Befehl in beiden Architekturen ausführen, und Docker zieht automatisch das richtige Bild für Ihre CPU.

Abhängig von Ihren CPU -Funktionen wählt AIKIT automatisch den optimiertesten Befehlssatz aus.

Modell	Optimierung	Parameter	Befehl	Modellname	Lizenz
? Lama 3.2	Anweisen	1b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:1b`	`llama-3.2-1b-instruct`	Lama
? Lama 3.2	Anweisen	3b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.2:3b`	`llama-3.2-3b-instruct`	Lama
? Lama 3.1	Anweisen	8b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:8b`	`llama-3.1-8b-instruct`	Lama
? Lama 3.1	Anweisen	70b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/llama3.1:70b`	`llama-3.1-70b-instruct`	Lama
Ⓜ️ Mixtral	Anweisen	8x7b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b`	`mixtral-8x7b-instruct`	Apache
? Euen PHI 3.5	Anweisen	3.8b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b`	`phi-3.5-3.8b-instruct`	MIT
? Gemma 2	Anweisen	2B	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/gemma2:2b`	`gemma-2-2b-instruct`	Gemma
⌨️ Codestral 0.1	Code	22b	`docker run -d --rm -p 8080:8080 ghcr.io/sozercan/codestral:22b`	`codestral-22b`	Mnlp

Nvidia Cuda

Notiz

Um die GPU -Beschleunigung zu ermöglichen, finden Sie in der GPU -Beschleunigung.

Bitte beachten Sie, dass nur der Unterschied zwischen dem CPU- und GPU -Abschnitt das Flag --gpus all im Befehl ist, um die GPU -Beschleunigung zu ermöglichen.

Modell	Optimierung	Parameter	Befehl	Modellname	Lizenz
? Lama 3.2	Anweisen	1b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:1b`	`llama-3.2-1b-instruct`	Lama
? Lama 3.2	Anweisen	3b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.2:3b`	`llama-3.2-3b-instruct`	Lama
? Lama 3.1	Anweisen	8b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:8b`	`llama-3.1-8b-instruct`	Lama
? Lama 3.1	Anweisen	70b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/llama3.1:70b`	`llama-3.1-70b-instruct`	Lama
Ⓜ️ Mixtral	Anweisen	8x7b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/mixtral:8x7b`	`mixtral-8x7b-instruct`	Apache
? Euen PHI 3.5	Anweisen	3.8b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/phi3.5:3.8b`	`phi-3.5-3.8b-instruct`	MIT
? Gemma 2	Anweisen	2B	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/gemma2:2b`	`gemma-2-2b-instruct`	Gemma
⌨️ Codestral 0.1	Code	22b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/codestral:22b`	`codestral-22b`	Mnlp
? Flux 1 Dev	Text zum Bild	12b	`docker run -d --rm --gpus all -p 8080:8080 ghcr.io/sozercan/flux1:dev`	`flux-1-dev`	Flux.1 [Dev] Nichtkommerzielle Lizenz

Apfel -Silizium (experimentell)

Notiz

Um die GPU -Beschleunigung auf Apple Silicon zu ermöglichen, finden Sie in Podman Desktop -Dokumentation. Weitere Informationen finden Sie in der GPU -Beschleunigung.

Apple Silicon ist eine experimentelle Laufzeit und kann sich in Zukunft ändern. Diese Laufzeit ist nur für Apple Silicon spezifisch und funktioniert nicht wie erwartet bei anderen Architekturen, einschließlich Intel Macs.

Nur gguf -Modelle werden auf Apple Silicon unterstützt.

Modell	Optimierung	Parameter	Befehl	Modellname	Lizenz
? Lama 3.2	Anweisen	1b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:1b`	`llama-3.2-1b-instruct`	Lama
? Lama 3.2	Anweisen	3b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.2:3b`	`llama-3.2-3b-instruct`	Lama
? Lama 3.1	Anweisen	8b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/llama3.1:8b`	`llama-3.1-8b-instruct`	Lama
? Euen PHI 3.5	Anweisen	3.8b	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/phi3.5:3.8b`	`phi-3.5-3.8b-instruct`	MIT
? Gemma 2	Anweisen	2B	`podman run -d --rm --device /dev/dri -p 8080:8080 ghcr.io/sozercan/applesilicon/gemma2:2b`	`gemma-2-2b-instruct`	Gemma