Téléchargement d' inference - Téléchargement du code source inference

inference

Python

v1.1.1

Télécharger

Xorbits Inférence: le service du modèle est facilité?

Xinference Cloud · Xinference Enterprise · Hosting · Documentation

L'inférence Xorbits (Xinference) est une bibliothèque puissante et polyvalente conçue pour servir le langage, la reconnaissance vocale et les modèles multimodaux. Avec l'inférence Xorbits, vous pouvez déployer et servir sans effort vos modèles intégrés ou de pointe en utilisant une seule commande. Que vous soyez chercheur, développeur ou scientifique des données, l'inférence Xorbits vous permet de libérer le plein potentiel des modèles d'IA de pointe.

Rejoignez notre communauté Slack!

Sujets chauds

Améliorations du cadre

Prise en charge du lot continu pour Transformers Engine: # 1724
Prise en charge du backend MLX pour les puces en silicium Apple: # 1765
Support Spécification des index des travailleurs et du GPU Pour le lancement de modèles: # 1195
Prise en charge du backend SGlang: # 1161
Prise en charge de Lora pour les modèles LLM et d'image: # 1080
Soutenir le modèle de reconnaissance vocale: # 929
Prise en charge des métriques: # 906

Nouveaux modèles

Prise en charge intégrée pour la diffusion stable 3.5: # 2706
Prise en charge intégrée pour Cosyvoice 2: # 2684
Support intégré pour le discours de poisson v1.5: # 2672
Prise en charge intégrée pour F5-TTS: # 2626
Prise en charge intégrée pour GLM Edge: # 2582
Prise en charge intégrée pour QWQ-32B-Preview: # 2602
Prise en charge intégrée pour la série Qwen 2.5: # 2325
Prise en charge intégrée pour Deepseek-V2.5: # 2292

Intégrations

Dify: une plate-forme LLMOPS qui permet aux développeurs (et même aux non-développeurs) de créer rapidement des applications utiles basées sur de grands modèles de langage, en veillant à ce qu'ils soient visuels, opérables et améliorables.
FastGPT: Une plate-forme basée sur les connaissances construite sur le LLM, offre des capacités de traitement des données et d'invocation des modèles prêtes à l'emploi, permet une orchestration de flux de travail par la visualisation de flux.
Chatbox: un client de bureau pour plusieurs modèles LLM de pointe, disponible sur Windows, Mac et Linux.
Ragflow: est un moteur de chiffon open source basé sur une compréhension approfondie des documents.

Caractéristiques clés

? Le service de modèle est facilité : simplifiez le processus de service de grande langue, de reconnaissance vocale et de modèles multimodaux. Vous pouvez configurer et déployer vos modèles d'expérimentation et de production avec une seule commande.

⚡️ Modèles de pointe : Expérimentez avec des modèles intégrés de pointe en utilisant une seule commande. L'inférence donne accès aux modèles open-source de pointe!

? Utilisation du matériel hétérogène : profitez de vos ressources matérielles avec GGML. Xorbits Inférence utilise intelligemment le matériel hétérogène, y compris les GPU et les CPU, pour accélérer les tâches d'inférence de votre modèle.

API et interfaces flexibles : offrez plusieurs interfaces pour interagir avec vos modèles, en prenant en charge l'API RESTful compatible OpenAI (y compris une API d'appel de fonction), RPC, CLI et WebUI pour la gestion et l'interaction des modèles transparents.

Déploiement distribué : Excel dans les scénarios de déploiement distribués, permettant la distribution transparente de l'inférence du modèle sur plusieurs appareils ou machines.

? Intégration intégrée avec des bibliothèques tierces : Xorbits Inference s'intègre parfaitement aux bibliothèques tierces populaires, notamment Langchain, Llamaindex, Dify et Chatbox.

Pourquoi Xinference

Fonctionnalité	Xinference	Fastchat	OpenLlm	Rayllm
API RESTFul compatible Openai	✅	✅	✅	✅
intégrations vllm	✅	✅	✅	✅
Plus de moteurs d'inférence (GGML, Tensorrt)	✅		✅	✅
Plus de plates-formes (CPU, métal)	✅	✅
Déploiement de grappes multi-nœuds	✅			✅
Modèles d'image (texte à l'image)	✅	✅
Modèles d'intégration de texte	✅
Modèles multimodaux	✅
Modèles audio	✅
Plus de fonctionnalités ouvertes (appel de fonction)	✅

Utilisation de Xinference

Nuage
Nous hébergeons un service cloud Xinference pour que quiconque puisse essayer avec une configuration zéro.
Édition communautaire d'auto-hébergement Xinference
Obtenez rapidement la xinference dans votre environnement avec ce guide de démarrage. Utilisez notre documentation pour d'autres références et des instructions plus approfondies.
Xinférence pour l'entreprise / les organisations
Nous fournissons des fonctionnalités supplémentaires centrées sur l'entreprise. Envoyez-nous un e-mail pour discuter des besoins en entreprise.

Rester en avance

Star Xinference sur Github et être instantanément informé des nouvelles versions.

étoiles

Commencer

Docs
Modèles intégrés
Modèles personnalisés
Docs de déploiement
Exemples et tutoriels

Cahier de jupyter

La façon la plus légère de découvrir la xinference est d'essayer notre cahier Jupyter sur Google Colab.

Docker

Les utilisateurs de NVIDIA GPU peuvent démarrer Xinference Server à l'aide de Xinference Docker Image. Avant d'exécuter la commande d'installation, assurez-vous que Docker et Cuda sont configurés sur votre système.

docker run --name xinference -d -p 9997:9997 -e XINFERENCE_HOME=/data -v < /on/your/host > :/data --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0

K8S via la barre

Assurez-vous que vous avez une prise en charge GPU dans votre cluster Kubernetes, puis installez comme suit.

 # add repo
helm repo add xinference https://xorbitsai.github.io/xinference-helm-charts

# update indexes and query xinference versions
helm repo update xinference
helm search repo xinference/xinference --devel --versions

# install xinference
helm install xinference xinference/xinference -n xinference --version 0.0.1-v<xinference_release_version>

Pour des méthodes d'installation plus personnalisées sur K8S, veuillez vous référer à la documentation.

Démarrage rapide

Installez Xinference en utilisant PIP comme suit. (Pour plus d'options, voir la page d'installation.)

pip install " xinference[all] "

Pour démarrer une instance locale de Xinference, exécutez la commande suivante:

$ xinference-local

Une fois la xinference en cours d'exécution, il existe plusieurs façons de l'essayer: via l'interface utilisateur Web, via Curl, via la ligne de commande ou via le client Python de Xinference. Consultez nos documents pour le guide.

ui Web

S'impliquer

Plate-forme	But
Problèmes de github	Reportation de bogues et de demandes de fonctionnalités de dépôt.
Mou	Collaborant avec d'autres utilisateurs de Xorbits.
Gazouillement	Rester à jour sur de nouvelles fonctionnalités.

Citation

Si ce travail est utile, veuillez citer comme:

 @inproceedings { lu2024xinference ,
    title = " Xinference: Making Large Model Serving Easy " ,
    author = " Lu, Weizheng and Xiong, Lingfeng and Zhang, Feng and Qin, Xuye and Chen, Yueguo " ,
    booktitle = " Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations " ,
    month = nov,
    year = " 2024 " ,
    address = " Miami, Florida, USA " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2024.emnlp-demo.30 " ,
    pages = " 291--300 " ,
}