ดาวน์โหลด ctransformers - ctransformers ซอร์สโค้ดดาวน์โหลด

ctransformers

การผูก Python สำหรับรุ่นหม้อแปลงที่ใช้ใน C/C ++ โดยใช้ไลบรารี GGML

ดู chatdocs

รุ่นที่รองรับ
การติดตั้ง
การใช้งาน
- - หม้อแปลงไฟฟ้า
- คนขี้เกียจ
- GPU
- GPTQ
เอกสาร
ใบอนุญาต

รุ่นที่รองรับ

แบบจำลอง	ประเภทรุ่น	คนขี้เกียจ	โลหะ
GPT-2	`gpt2`
GPT-J, GPT4ALL-J	`gptj`
GPT-NEOX, Stablelm	`gpt_neox`
เหยี่ยว	`falcon`
Llama, Llama 2	`llama`
MPT	`mpt`
Starcoder, Starchat	`gpt_bigcode`
Dolly v2	`dolly-v2`
คำสั่ง	`replit`

การติดตั้ง

pip install ctransformers

การใช้งาน

มันมีอินเทอร์เฟซแบบครบวงจรสำหรับทุกรุ่น:

 from ctransformers import AutoModelForCausalLM

llm = AutoModelForCausalLM . from_pretrained ( "/path/to/ggml-model.bin" , model_type = "gpt2" )

print ( llm ( "AI is going to" ))

ทำงานใน Google Colab

ในการสตรีมเอาต์พุตให้ตั้งค่า stream=True :

 for text in llm ( "AI is going to" , stream = True ):
    print ( text , end = "" , flush = True )

คุณสามารถโหลดโมเดลจาก Hugging Face Hub โดยตรง:

 llm = AutoModelForCausalLM . from_pretrained ( "marella/gpt-2-ggml" )

หากโมเดล repo มีไฟล์หลายรุ่น ( .bin หรือไฟล์ .gguf ) ให้ระบุไฟล์โมเดลโดยใช้:

 llm = AutoModelForCausalLM . from_pretrained ( "marella/gpt-2-ggml" , model_file = "ggml-model.bin" )

- หม้อแปลงไฟฟ้า

หมายเหตุ: นี่เป็นคุณสมบัติการทดลองและอาจเปลี่ยนแปลงในอนาคต

ใช้กับ? หม้อแปลงสร้างโมเดลและโทเค็นโดยใช้:

 from ctransformers import AutoModelForCausalLM , AutoTokenizer

model = AutoModelForCausalLM . from_pretrained ( "marella/gpt-2-ggml" , hf = True )
tokenizer = AutoTokenizer . from_pretrained ( model )

ทำงานใน Google Colab

คุณสามารถใช้? ท่อส่งข้อความการสร้างข้อความ:

 from transformers import pipeline

pipe = pipeline ( "text-generation" , model = model , tokenizer = tokenizer )
print ( pipe ( "AI is going to" , max_new_tokens = 256 ))

คุณสามารถใช้? พารามิเตอร์การสร้าง Transformers:

 pipe ( "AI is going to" , max_new_tokens = 256 , do_sample = True , temperature = 0.8 , repetition_penalty = 1.1 )

คุณสามารถใช้? Transformers tokenizers:

 from ctransformers import AutoModelForCausalLM
from transformers import AutoTokenizer

model = AutoModelForCausalLM . from_pretrained ( "marella/gpt-2-ggml" , hf = True )  # Load model from GGML model repo.
tokenizer = AutoTokenizer . from_pretrained ( "gpt2" )  # Load tokenizer from original model repo.

LangChain

มันถูกรวมเข้ากับ Langchain ดูเอกสาร Langchain

GPU

ในการเรียกใช้เลเยอร์โมเดลบางส่วนบน GPU ให้ตั้งค่าพารามิเตอร์ gpu_layers :

 llm = AutoModelForCausalLM . from_pretrained ( "TheBloke/Llama-2-7B-GGML" , gpu_layers = 50 )

ทำงานใน Google Colab

คนขี้เกียจ

ติดตั้งไลบรารี CUDA โดยใช้:

pip install ctransformers[cuda]

ROCM

หากต้องการเปิดใช้งานการสนับสนุน ROCM ให้ติดตั้งแพ็คเกจ ctransformers โดยใช้:

CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers

โลหะ

หากต้องการเปิดใช้งานการรองรับโลหะให้ติดตั้งแพ็คเกจ ctransformers โดยใช้:

CT_METAL=1 pip install ctransformers --no-binary ctransformers

GPTQ

หมายเหตุ: นี่เป็นคุณสมบัติการทดลองและมีเพียงรุ่น Llama เท่านั้นที่ได้รับการสนับสนุนโดยใช้ Exllama

ติดตั้งการอ้างอิงเพิ่มเติมโดยใช้:

pip install ctransformers[gptq]

โหลดรุ่น GPTQ โดยใช้:

 llm = AutoModelForCausalLM . from_pretrained ( "TheBloke/Llama-2-7B-GPTQ" )

ทำงานใน Google Colab

หากชื่อรุ่นหรือเส้นทางไม่มีคำว่า gptq ให้ระบุ model_type="gptq"

นอกจากนี้ยังสามารถใช้กับ Langchain API ระดับต่ำไม่ได้รับการสนับสนุนอย่างเต็มที่

เอกสาร

การกำหนดค่า

พารามิเตอร์	พิมพ์	คำอธิบาย	ค่าเริ่มต้น
`top_k`	`int`	ค่า Top-K ที่จะใช้สำหรับการสุ่มตัวอย่าง	`40`
`top_p`	`float`	ค่า Top-P ที่จะใช้สำหรับการสุ่มตัวอย่าง	`0.95`
`temperature`	`float`	อุณหภูมิที่จะใช้สำหรับการสุ่มตัวอย่าง	`0.8`
`repetition_penalty`	`float`	การลงโทษซ้ำ ๆ เพื่อใช้สำหรับการสุ่มตัวอย่าง	`1.1`
`last_n_tokens`	`int`	จำนวนโทเค็นสุดท้ายที่ใช้สำหรับการลงโทษซ้ำ	`64`
`seed`	`int`	ค่าเมล็ดที่ใช้สำหรับการสุ่มตัวอย่างโทเค็น	`-1`
`max_new_tokens`	`int`	จำนวนโทเค็นใหม่สูงสุดที่จะสร้าง	`256`
`stop`	`List[str]`	รายการลำดับเพื่อหยุดการสร้างเมื่อพบ	`None`
`stream`	`bool`	ไม่ว่าจะสตรีมข้อความที่สร้างขึ้นหรือไม่	`False`
`reset`	`bool`	ไม่ว่าจะรีเซ็ตสถานะโมเดลก่อนที่จะสร้างข้อความ	`True`
`batch_size`	`int`	ขนาดแบทช์ที่ใช้สำหรับการประเมินโทเค็นในพรอมต์เดียว	`8`
`threads`	`int`	จำนวนเธรดที่จะใช้สำหรับการประเมินโทเค็น	`-1`
`context_length`	`int`	ความยาวบริบทสูงสุดที่จะใช้	`-1`
`gpu_layers`	`int`	จำนวนเลเยอร์ที่จะทำงานบน GPU	`0`

หมายเหตุ: ปัจจุบันมีเพียงรุ่น Llama, MPT และ Falcon เท่านั้นที่รองรับพารามิเตอร์ context_length

`คลาส` `AutoModelForCausalLM`

`classmethod` `AutoModelForCausalLM.from_pretrained`

 from_pretrained (
    model_path_or_repo_id : str ,
    model_type : Optional [ str ] = None ,
    model_file : Optional [ str ] = None ,
    config : Optional [ ctransformers . hub . AutoConfig ] = None ,
    lib : Optional [ str ] = None ,
    local_files_only : bool = False ,
    revision : Optional [ str ] = None ,
    hf : bool = False ,
    ** kwargs
) → LLM

Loads the language model from a local file or remote repo.

Args:

model_path_or_repo_id : พา ธ ไปยังไฟล์โมเดลหรือไดเรกทอรีหรือชื่อของ repo โมเดลฮับใบหน้ากอด
model_type : ประเภทรุ่น
model_file : ชื่อของไฟล์โมเดลใน repo หรือไดเรกทอรี
config : วัตถุ AutoConfig
lib : เส้นทางไปยังห้องสมุดที่ใช้ร่วมกันหรือหนึ่งใน avx2 , avx , basic
local_files_only : ไม่ว่าจะดูเฉพาะไฟล์ท้องถิ่น (เช่นอย่าพยายามดาวน์โหลดรุ่น)
revision : รุ่นโมเดลเฉพาะที่จะใช้ มันอาจเป็นชื่อสาขาชื่อแท็กหรือรหัสที่กระทำ
hf : ไม่ว่าจะสร้างโมเดล Transformers Hugging หรือไม่

ผลตอบแทน: วัตถุ LLM

`ชั้นเรียน` `LLM`

`วิธีการ` `LLM.init`

 __init__ (
    model_path : str ,
    model_type : Optional [ str ] = None ,
    config : Optional [ ctransformers . llm . Config ] = None ,
    lib : Optional [ str ] = None
)

โหลดโมเดลภาษาจากไฟล์ท้องถิ่น

Args:

model_path : พา ธ ไปยังไฟล์รุ่น
model_type : ประเภทรุ่น
config : วัตถุ Config
lib : เส้นทางไปยังห้องสมุดที่ใช้ร่วมกันหรือหนึ่งใน avx2 , avx , basic

`คุณสมบัติ` llm.bos_token_id

โทเค็นเริ่มต้นของลำดับ

`Property` llm.config

วัตถุกำหนดค่า

`property` LLM.context_length

The context length of model.

`Property` Llm.embeddings

การฝังอินพุต

`คุณสมบัติ` llm.eos_token_id

โทเค็นท้ายสุด

`ทรัพย์สิน` llm.logits

ความน่าจะเป็นบันทึกที่ไม่เป็นปกติ

`คุณสมบัติ` llm.model_path

พา ธ ไปยังไฟล์โมเดล

`คุณสมบัติ` llm.model_type

ประเภทรุ่น

`คุณสมบัติ` llm.pad_token_id

โทเค็นช่องว่างภายใน

`คุณสมบัติ` llm.vocab_size

จำนวนโทเค็นในคำศัพท์

`วิธีการ` `LLM.detokenize`

 detokenize ( tokens : Sequence [ int ], decode : bool = True ) → Union [ str , bytes ]

แปลงรายการโทเค็นเป็นข้อความ

Args:

tokens : รายการโทเค็น
decode : จะถอดรหัสข้อความเป็นสตริง UTF-8 หรือไม่

ผลตอบแทน: ข้อความรวมของโทเค็นทั้งหมด

`method` `LLM.embed`

 embed (
    input : Union [ str , Sequence [ int ]],
    batch_size : Optional [ int ] = None ,
    threads : Optional [ int ] = None
) → List [ float ]

คำนวณการฝังตัวสำหรับข้อความหรือรายการโทเค็น

หมายเหตุ: ปัจจุบันมีเพียงรุ่น Llama และ Falcon เท่านั้นที่รองรับการฝังตัว

Args:

input : ข้อความอินพุตหรือรายการโทเค็นเพื่อรับการฝังตัวสำหรับ
batch_size : ขนาดแบทช์ที่ใช้สำหรับการประเมินโทเค็นในพรอมต์เดียว ค่าเริ่มต้น: 8
threads : จำนวนเธรดที่จะใช้สำหรับการประเมินโทเค็น ค่าเริ่มต้น: -1

ผลตอบแทน: อินพุตฝังตัว

`วิธีการ` `LLM.eval`

 eval (
    tokens : Sequence [ int ],
    batch_size : Optional [ int ] = None ,
    threads : Optional [ int ] = None
) → None

ประเมินรายการโทเค็น

Args:

tokens : รายการโทเค็นเพื่อประเมิน
batch_size : The batch size to use for evaluating tokens in a single prompt. ค่าเริ่มต้น: 8
threads : จำนวนเธรดที่จะใช้สำหรับการประเมินโทเค็น ค่าเริ่มต้น: -1

`วิธีการ` `LLM.generate`

 generate (
    tokens : Sequence [ int ],
    top_k : Optional [ int ] = None ,
    top_p : Optional [ float ] = None ,
    temperature : Optional [ float ] = None ,
    repetition_penalty : Optional [ float ] = None ,
    last_n_tokens : Optional [ int ] = None ,
    seed : Optional [ int ] = None ,
    batch_size : Optional [ int ] = None ,
    threads : Optional [ int ] = None ,
    reset : Optional [ bool ] = None
) → Generator [ int , NoneType , NoneType ]

สร้างโทเค็นใหม่จากรายการโทเค็น

Args:

tokens : รายการโทเค็นเพื่อสร้างโทเค็นจาก
top_k : ค่า Top-K ที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 40
top_p : ค่า Top-P ที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 0.95
temperature : อุณหภูมิที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 0.8
repetition_penalty : การลงโทษซ้ำที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 1.1
last_n_tokens : จำนวนโทเค็นสุดท้ายที่ใช้สำหรับการลงโทษซ้ำ ค่าเริ่มต้น: 64
seed : ค่าเมล็ดที่จะใช้สำหรับการสุ่มตัวอย่างโทเค็น ค่าเริ่มต้น: -1
batch_size : ขนาดแบทช์ที่ใช้สำหรับการประเมินโทเค็นในพรอมต์เดียว ค่าเริ่มต้น: 8
threads : จำนวนเธรดที่จะใช้สำหรับการประเมินโทเค็น ค่าเริ่มต้น: -1
reset : จะรีเซ็ตสถานะโมเดลก่อนที่จะสร้างข้อความ ค่าเริ่มต้น: True

ผลตอบแทน: โทเค็นที่สร้างขึ้น

`method` `LLM.is_eos_token`

 is_eos_token ( token : int ) → bool

ตรวจสอบว่าโทเค็นเป็นโทเค็นสุดท้ายหรือไม่

Args:

token : โทเค็นที่จะตรวจสอบ

Returns: True ถ้าโทเค็นเป็นโทเค็นสุดท้ายที่เป็น False

`วิธีการ` `LLM.prepare_inputs_for_generation`

 prepare_inputs_for_generation (
    tokens : Sequence [ int ],
    reset : Optional [ bool ] = None
) → Sequence [ int ]

ลบโทเค็นอินพุตที่ได้รับการประเมินในอดีตและอัปเดตบริบท LLM

Args:

tokens : รายการโทเค็นอินพุต
reset : จะรีเซ็ตสถานะโมเดลก่อนที่จะสร้างข้อความ ค่าเริ่มต้น: True

ผลตอบแทน: รายการโทเค็นเพื่อประเมิน

`วิธีการ` `LLM.reset`

 reset () → None

เลิกใช้ตั้งแต่ 0.2.27

`method` `LLM.sample`

 sample (
    top_k : Optional [ int ] = None ,
    top_p : Optional [ float ] = None ,
    temperature : Optional [ float ] = None ,
    repetition_penalty : Optional [ float ] = None ,
    last_n_tokens : Optional [ int ] = None ,
    seed : Optional [ int ] = None
) → int

ตัวอย่างโทเค็นจากโมเดล

Args:

top_k : ค่า Top-K ที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 40
top_p : ค่า Top-P ที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 0.95
temperature : อุณหภูมิที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 0.8
repetition_penalty : การลงโทษซ้ำที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 1.1
last_n_tokens : จำนวนโทเค็นสุดท้ายที่ใช้สำหรับการลงโทษซ้ำ Default: 64
seed : ค่าเมล็ดที่จะใช้สำหรับการสุ่มตัวอย่างโทเค็น ค่าเริ่มต้น: -1

ผลตอบแทน: โทเค็นตัวอย่าง

`วิธีการ` `LLM.tokenize`

 tokenize ( text : str , add_bos_token : Optional [ bool ] = None ) → List [ int ]

แปลงข้อความเป็นรายการโทเค็น

Args:

text : ข้อความถึงโทเค็น
add_bos_token : ไม่ว่าจะเพิ่มโทเค็นเริ่มต้นของลำดับหรือไม่

ผลตอบแทน: รายการโทเค็น

`วิธี` `LLM.call`

 __call__ (
    prompt : str ,
    max_new_tokens : Optional [ int ] = None ,
    top_k : Optional [ int ] = None ,
    top_p : Optional [ float ] = None ,
    temperature : Optional [ float ] = None ,
    repetition_penalty : Optional [ float ] = None ,
    last_n_tokens : Optional [ int ] = None ,
    seed : Optional [ int ] = None ,
    batch_size : Optional [ int ] = None ,
    threads : Optional [ int ] = None ,
    stop : Optional [ Sequence [ str ]] = None ,
    stream : Optional [ bool ] = None ,
    reset : Optional [ bool ] = None
) → Union [ str , Generator [ str , NoneType , NoneType ]]

สร้างข้อความจากพรอมต์

Args:

prompt : พรอมต์เพื่อสร้างข้อความจาก
max_new_tokens : จำนวนโทเค็นใหม่สูงสุดที่จะสร้าง ค่าเริ่มต้น: 256
top_k : ค่า Top-K ที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 40
top_p : ค่า Top-P ที่จะใช้สำหรับการสุ่มตัวอย่าง Default: 0.95
temperature : อุณหภูมิที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 0.8
repetition_penalty : การลงโทษซ้ำที่จะใช้สำหรับการสุ่มตัวอย่าง ค่าเริ่มต้น: 1.1
last_n_tokens : จำนวนโทเค็นสุดท้ายที่ใช้สำหรับการลงโทษซ้ำ ค่าเริ่มต้น: 64
seed : ค่าเมล็ดที่จะใช้สำหรับการสุ่มตัวอย่างโทเค็น ค่าเริ่มต้น: -1
batch_size : ขนาดแบทช์ที่ใช้สำหรับการประเมินโทเค็นในพรอมต์เดียว ค่าเริ่มต้น: 8
threads : จำนวนเธรดที่จะใช้สำหรับการประเมินโทเค็น ค่าเริ่มต้น: -1
stop : A list of sequences to stop generation when encountered. ค่าเริ่มต้น: None
stream : จะสตรีมข้อความที่สร้างขึ้นหรือไม่ ค่าเริ่มต้น: False
reset : จะรีเซ็ตสถานะโมเดลก่อนที่จะสร้างข้อความ ค่าเริ่มต้น: True

ผลตอบแทน: ข้อความที่สร้างขึ้น

ใบอนุญาต

มิกซ์

ขยาย

ctransformers

ctransformers

รุ่นที่รองรับ

การติดตั้ง

การใช้งาน

- หม้อแปลงไฟฟ้า

LangChain

GPU

คนขี้เกียจ

ROCM

โลหะ

GPTQ

เอกสาร

การกำหนดค่า

คลาส AutoModelForCausalLM

classmethod AutoModelForCausalLM.from_pretrained

ชั้นเรียน LLM

วิธีการ LLM.__init__

คุณสมบัติ llm.bos_token_id

Property llm.config

property LLM.context_length

Property Llm.embeddings

คุณสมบัติ llm.eos_token_id

ทรัพย์สิน llm.logits

คุณสมบัติ llm.model_path

คุณสมบัติ llm.model_type

คุณสมบัติ llm.pad_token_id

คุณสมบัติ llm.vocab_size

วิธีการ LLM.detokenize

method LLM.embed

วิธีการ LLM.eval

วิธีการ LLM.generate

method LLM.is_eos_token

วิธีการ LLM.prepare_inputs_for_generation

วิธีการ LLM.reset

method LLM.sample

วิธีการ LLM.tokenize

วิธี LLM.__call__

ใบอนุญาต

`คลาส` `AutoModelForCausalLM`

`classmethod` `AutoModelForCausalLM.from_pretrained`

`ชั้นเรียน` `LLM`

`วิธีการ` `LLM.init`

`คุณสมบัติ` llm.bos_token_id

`Property` llm.config

`property` LLM.context_length

`Property` Llm.embeddings

`คุณสมบัติ` llm.eos_token_id

`ทรัพย์สิน` llm.logits

`คุณสมบัติ` llm.model_path

`คุณสมบัติ` llm.model_type

`คุณสมบัติ` llm.pad_token_id

`คุณสมบัติ` llm.vocab_size

`วิธีการ` `LLM.detokenize`

`method` `LLM.embed`

`วิธีการ` `LLM.eval`

`วิธีการ` `LLM.generate`

`method` `LLM.is_eos_token`

`วิธีการ` `LLM.prepare_inputs_for_generation`

`วิธีการ` `LLM.reset`

`method` `LLM.sample`

`วิธีการ` `LLM.tokenize`

`วิธี` `LLM.call`