ดาวน์โหลด inference - ดาวน์โหลดซอร์สโค้ด inference

inference

หลาม

v1.1.1

ดาวน์โหลด

การอนุมาน Xorbits: การให้บริการแบบจำลองทำได้ง่ายหรือไม่?

Xinerference Cloud · Xinerfence Enterprise ·การโฮสต์ตัวเอง·เอกสารประกอบ

Xorbits Inference (Xinference) เป็นห้องสมุดที่ทรงพลังและหลากหลายที่ออกแบบมาเพื่อให้บริการภาษาการรู้จำเสียงพูดและแบบจำลองหลายรูปแบบ ด้วยการอนุมานของ Xorbits คุณสามารถปรับใช้และให้บริการแบบจำลองในตัวของคุณหรือล้ำสมัยโดยใช้คำสั่งเดียว ไม่ว่าคุณจะเป็นนักวิจัยนักพัฒนาหรือนักวิทยาศาสตร์ด้านข้อมูลการอนุมาน Xorbits จะช่วยให้คุณปลดปล่อยศักยภาพของโมเดล AI ที่ทันสมัยอย่างเต็มที่

เข้าร่วมชุมชนหย่อนของเรา!

หัวข้อร้อน

การปรับปรุงเฟรมเวิร์ก

สนับสนุนการแบตช์อย่างต่อเนื่องสำหรับเครื่องยนต์ Transformers: #1724
รองรับ MLX Backend สำหรับ Apple Silicon Chips: #1765
สนับสนุนการระบุดัชนีคนงานและ GPU สำหรับการเปิดตัวโมเดล: #1195
สนับสนุน Sglang Backend: #1161
รองรับ LORA สำหรับ LLM และรุ่นรูปภาพ: #1080
สนับสนุนรูปแบบการรู้จำเสียงพูด: #929
การสนับสนุนตัวชี้วัด: #906

รุ่นใหม่

การสนับสนุนในตัวสำหรับการแพร่กระจายที่เสถียร 3.5: #2706
การสนับสนุนในตัวสำหรับ cosyvoice 2: #2684
การสนับสนุนในตัวสำหรับการพูดปลา v1.5: #2672
การสนับสนุนในตัวสำหรับ F5-TTS: #2626
การสนับสนุนในตัวสำหรับ GLM Edge: #2582
การสนับสนุนในตัวสำหรับ QWQ-32B-PREVIEW: #2602
การสนับสนุนในตัวสำหรับ QWEN 2.5 Series: #2325
การสนับสนุนในตัวสำหรับ Deepseek-V2.5: #2292

การรวมกัน

DIFY: แพลตฟอร์ม LLMOPS ที่ช่วยให้นักพัฒนา (และแม้แต่ผู้ที่ไม่ใช่นักพัฒนา) สามารถสร้างแอพพลิเคชั่นที่มีประโยชน์ได้อย่างรวดเร็วตามแบบจำลองภาษาขนาดใหญ่เพื่อให้มั่นใจว่าพวกเขาสามารถมองเห็นได้สามารถใช้งานได้และปรับปรุงได้
FASTGPT: แพลตฟอร์มที่ใช้ความรู้ที่สร้างขึ้นบน LLM นำเสนอการประมวลผลข้อมูลนอกกรอบและความสามารถในการเรียกใช้โมเดลช่วยให้การจัดระเบียบเวิร์กโฟลว์ผ่านการสร้างภาพข้อมูลการไหล
Chatbox: ไคลเอนต์เดสก์ท็อปสำหรับรุ่น LLM ที่ทันสมัยหลายรุ่นมีอยู่ใน Windows, Mac และ Linux
Ragflow: เป็นเครื่องยนต์ RAG โอเพนซอร์สตามความเข้าใจในเอกสารที่ลึกซึ้ง

คุณสมบัติที่สำคัญ

- การให้บริการแบบจำลองทำได้ง่าย : ทำให้กระบวนการของการให้บริการภาษาขนาดใหญ่, การรู้จำเสียงพูดและโมเดลหลายรูปแบบ คุณสามารถตั้งค่าและปรับใช้โมเดลของคุณสำหรับการทดลองและการผลิตด้วยคำสั่งเดียว

⚡ โมเดลที่ทันสมัย : ทดลองกับโมเดลในตัวที่ทันสมัยโดยใช้คำสั่งเดียว การอนุมานให้การเข้าถึงโมเดลโอเพนซอร์ซที่ทันสมัย!

- การใช้ฮาร์ดแวร์ที่แตกต่างกัน : ใช้ประโยชน์จากทรัพยากรฮาร์ดแวร์ของคุณให้ได้มากที่สุดด้วย GGML Xorbits Inference ใช้ฮาร์ดแวร์ที่แตกต่างกันอย่างชาญฉลาดรวมถึง GPU และ CPU เพื่อเร่งงานการอนุมานแบบจำลองของคุณ

API และอินเทอร์เฟซที่ยืดหยุ่น : เสนอหลายอินเทอร์เฟซสำหรับการโต้ตอบกับโมเดลของคุณรองรับ API RESTFUL ที่เข้ากันได้ของ OpenAI (รวมถึงฟังก์ชั่นการเรียก API), RPC, CLI และ WebUI สำหรับการจัดการแบบจำลองและการโต้ตอบที่ราบรื่น

การปรับใช้แบบกระจาย : Excel ในสถานการณ์การปรับใช้แบบกระจายช่วยให้การกระจายแบบจำลองการอนุมานแบบจำลองอย่างราบรื่นในอุปกรณ์หรือเครื่องจักรหลายเครื่อง

- การรวมตัวในตัวกับห้องสมุดบุคคลที่สาม : การอนุมาน Xorbits รวมเข้ากับห้องสมุดบุคคลที่สามยอดนิยมได้อย่างราบรื่นรวมถึง Langchain, Llamaidex, Dify และ Chatbox

ทำไมต้อง xinference

คุณสมบัติ	การออกเสียง	Fastchat	openllm	Rayllm
API พักผ่อนที่เข้ากันได้ของ Openai
การรวม VLLM
เอ็นจิ้นการอนุมานเพิ่มเติม (GGML, Tensorrt)
แพลตฟอร์มเพิ่มเติม (CPU, Metal)
การปรับใช้คลัสเตอร์แบบหลายโหนด
รูปแบบรูปภาพ (ข้อความถึงภาพ)
โมเดลการฝังข้อความ
รุ่นหลายรูปแบบ
รุ่นเสียง
ฟังก์ชัน OpenAI เพิ่มเติม (การเรียกใช้ฟังก์ชัน)

ใช้ Xinference

คลาวด์
เราโฮสต์บริการคลาวด์ Xinerference สำหรับทุกคนที่จะลองใช้การตั้งค่าเป็นศูนย์
Edition ชุมชน Xinference
ได้รับการจัดการอย่างรวดเร็วในสภาพแวดล้อมของคุณด้วยคู่มือเริ่มต้นนี้ ใช้เอกสารของเราสำหรับการอ้างอิงเพิ่มเติมและคำแนะนำในเชิงลึกเพิ่มเติม
Xinference สำหรับองค์กร / องค์กร
เรามีคุณสมบัติเพิ่มเติมขององค์กรเป็นศูนย์กลาง ส่งอีเมลถึงเราเพื่อหารือเกี่ยวกับความต้องการขององค์กร

อยู่ข้างหน้า

star xinference บน GitHub และได้รับการแจ้งเตือนทันทีเกี่ยวกับการเปิดตัวใหม่

สตาร์ส

เริ่มต้น

เอกสาร
โมเดลในตัว
โมเดลที่กำหนดเอง
เอกสารการปรับใช้
ตัวอย่างและบทช่วยสอน

สมุดบันทึก Jupyter

วิธีที่เบาที่สุดในการสัมผัสกับ Xinference คือลองสมุดบันทึก Jupyter ของเราบน Google Colab

นักเทียบท่า

ผู้ใช้ NVIDIA GPU สามารถเริ่มต้นเซิร์ฟเวอร์ XINFERIES โดยใช้ภาพ Xinerfence Docker ก่อนที่จะดำเนินการคำสั่งการติดตั้งตรวจสอบให้แน่ใจว่าทั้ง Docker และ Cuda ถูกตั้งค่าในระบบของคุณ

docker run --name xinference -d -p 9997:9997 -e XINFERENCE_HOME=/data -v < /on/your/host > :/data --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0

K8s ผ่าน Helm

ตรวจสอบให้แน่ใจว่าคุณมีการสนับสนุน GPU ในคลัสเตอร์ Kubernetes ของคุณจากนั้นติดตั้งดังนี้

 # add repo
helm repo add xinference https://xorbitsai.github.io/xinference-helm-charts

# update indexes and query xinference versions
helm repo update xinference
helm search repo xinference/xinference --devel --versions

# install xinference
helm install xinference xinference/xinference -n xinference --version 0.0.1-v<xinference_release_version>

สำหรับวิธีการติดตั้งที่กำหนดเองเพิ่มเติมใน K8s โปรดดูเอกสารประกอบ

เริ่มต้นอย่างรวดเร็ว

ติดตั้ง xinference โดยใช้ PIP ดังนี้ (สำหรับตัวเลือกเพิ่มเติมดูหน้าการติดตั้ง)

pip install " xinference[all] "

ในการเริ่มต้นอินสแตนซ์ท้องถิ่นของการใช้งานให้เรียกใช้คำสั่งต่อไปนี้:

$ xinference-local

เมื่อ Xinference กำลังทำงานมีหลายวิธีที่คุณสามารถลองได้: ผ่าน Web UI ผ่าน Curl ผ่านบรรทัดคำสั่งหรือผ่านไคลเอนต์ Python ของ Xinference ตรวจสอบเอกสารของเราสำหรับคำแนะนำ

เว็บ UI

เข้าร่วม

แพลตฟอร์ม	วัตถุประสงค์
ปัญหา GitHub	การรายงานข้อบกพร่องและการร้องขอคุณสมบัติการยื่น
หย่อน	ร่วมมือกับผู้ใช้ Xorbits รายอื่น
Twitter	การติดตามคุณสมบัติใหม่ ๆ

การอ้างอิง

หากงานนี้มีประโยชน์โปรดกรุณาอ้างอิงเป็น:

 @inproceedings { lu2024xinference ,
    title = " Xinference: Making Large Model Serving Easy " ,
    author = " Lu, Weizheng and Xiong, Lingfeng and Zhang, Feng and Qin, Xuye and Chen, Yueguo " ,
    booktitle = " Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations " ,
    month = nov,
    year = " 2024 " ,
    address = " Miami, Florida, USA " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2024.emnlp-demo.30 " ,
    pages = " 291--300 " ,
}