Unduh fastLLaMa - Unduh Kode Sumber fastLLaMa

Fastllama

fastLLaMa adalah kerangka kerja kinerja tinggi eksperimental yang dirancang untuk mengatasi tantangan yang terkait dengan penyebaran model bahasa besar (LLM) di lingkungan produksi.

Ini menawarkan antarmuka python yang ramah pengguna ke C ++ Library, llama.cpp, memungkinkan pengembang untuk membuat alur kerja khusus, mengimplementasikan penebangan yang dapat disesuaikan, dan beralih konteks dengan mulus antar sesi. Kerangka kerja ini diarahkan untuk meningkatkan efisiensi pengoperasian LLM pada skala, dengan pengembangan berkelanjutan yang berfokus pada memperkenalkan fitur -fitur seperti waktu boot dingin yang dioptimalkan, dukungan INT4 untuk GPU NVIDIA, manajemen artefak model, dan banyak dukungan bahasa pemrograman.

                ___            __    _    _         __ __      
                | | '___  ___ _| |_ | |  | |   ___ |     ___ 
                | |-<_> |<_-<  | |  | |_ | |_ <_> ||     |<_> |
                |_| <___|/__/  |_|  |___||___|<___||_|_|_|<___|
                                                            
                                                                                        
                                                                           
                                                       .+*+-.                
                                                      -%#--                  
                                                    :=***%*++=.              
                                                   :+=+**####%+              
                                                   ++=+*%#                   
                                                  .*+++==-                   
                  ::--:.                           .**++=::                   
                 #%##*++=......                    =*+==-::                   
                .@@@*@%*==-==-==---:::::------::==*+==--::                   
                 %@@@@+--====+===---=---==+=======+++----:                   
                 .%@@*++*##***+===-=====++++++*++*+====++.                   
                 :@@%*##%@@%#*%#+==++++++=++***==-=+==+=-                    
                  %@%%%%%@%#+=*%*##%%%@###**++++==--==++                     
                  #@%%@%@@##**%@@@%#%%%%**++*++=====-=*-                     
                  -@@@@@@@%*#%@@@@@@@%%%%#+*%#++++++=*+.                     
                   +@@@@@%%*-#@@@@@@@@@@@%%@%**#*#+=-.                       
                    #%%###%:  ..+#%@@@@%%@@@@%#+-                            
                    :***#*-         ...  *@@@%*+:                            
                     =***=               -@%##**.                            
                    :#*++                -@#-:*=.                            
                     =##-                .%*..##                             
                      +*-                 *:  +-                             
                      :+-                :+   =.                             
                       =-.               *+   =-                             
                        :-:-              =--  :::

Fitur

Model yang didukung

Persyaratan

Cmake
- Untuk Linux:
  sudo apt-get -y install cmake
- Untuk OS X:
  brew install cmake
- Untuk windows
  Unduh CMake-*. Penginstal exe dari halaman unduhan dan jalankan.
GCC 11 atau lebih
Minimum C ++ 17
Python 3.x

Instalasi

Untuk menginstal fastLLaMa melalui penggunaan pip

pip install git+https://github.com/PotatoSpudowski/fastLLaMa.git@main

Penggunaan

Mengimpor paket

Untuk mengimpor Fastllama, baru saja berjalan

 from fastllama import Model

Menginisialisasi model

 MODEL_PATH = "./models/7B/ggml-model-q4_0.bin"

model = Model (
        path = MODEL_PATH , #path to model
        num_threads = 8 , #number of threads to use
        n_ctx = 512 , #context size of model
        last_n_size = 64 , #size of last n tokens (used for repetition penalty) (Optional)
        seed = 0 , #seed for random number generator (Optional)
        n_batch = 128 , #batch size (Optional)
        use_mmap = False , #use mmap to load model (Optional)
    )

Menelan petunjuk

 prompt = """Transcript of a dialog, where the User interacts with an Assistant named Bob. Bob is helpful, kind, honest, good at writing, and never fails to answer the User's requests immediately and with precision.

User: Hello, Bob.
Bob: Hello. How may I help you today?
User: Please tell me the largest city in Europe.
Bob: Sure. The largest city in Europe is Moscow, the capital of Russia.
User: """

res = model . ingest ( prompt , is_system_prompt = True ) #ingest model with prompt

Menghasilkan output

 def stream_token ( x : str ) -> None :
    """
    This function is called by the library to stream tokens
    """
    print ( x , end = '' , flush = True )

res = model . generate (
    num_tokens = 100 , 
    top_p = 0.95 , #top p sampling (Optional)
    temp = 0.8 , #temperature (Optional)
    repeat_penalty = 1.0 , #repetition penalty (Optional)
    streaming_fn = stream_token , #streaming function
    stop_words = [ "User:" , " n " ] #stop generation when this word is encountered (Optional)
    )

Model Memuat Menggunakan Multithreads

 model = Model (
        path = MODEL_PATH , #path to model
        num_threads = 8 , #number of threads to use
        n_ctx = 512 , #context size of model
        last_n_size = 64 , #size of last n tokens (used for repetition penalty) (Optional)
        seed = 0 , #seed for random number generator (Optional)
        n_batch = 128 , #batch size (Optional)
        load_parallel = True
    )

Status Model Menyimpan

Untuk menyimpan sesi, Anda dapat menggunakan metode save_state .

 res = model . save_state ( "./models/fast_llama.bin" )

Status model pemuatan

Untuk memuat sesi, gunakan metode load_state .

 res = model . load_state ( "./models/fast_llama.bin" )

Mengatur ulang status model

Untuk mengatur ulang sesi, gunakan metode reset .

 model . reset ()

Melampirkan adapter Lora ke model dasar selama runtime

Untuk melampirkan adaptor lora selama runtime gunakan metode attach_lora .

 LORA_ADAPTER_PATH = "./models/ALPACA-7B-ADAPTER/ggml-adapter-model.bin"

model . attach_lora ( LORA_ADAPTER_PATH )

Catatan: Merupakan ide yang baik untuk mengatur ulang keadaan model setelah memasang adaptor Lora.

Melepas adapter Lora ke model dasar selama runtime

Untuk melepaskan adaptor lora selama runtime menggunakan metode detach_lora .

 model . detach_lora ()

Menghitung kebingungan

Untuk menghilangkan kebingungan, gunakan metode perplexity .

 with open ( "test.txt" , "r" ) as f :
    data = f . read ( 8000 )
       
total_perplexity = model . perplexity ( data )
print ( f"Total Perplexity: { total_perplexity :.4f } " )

Mendapatkan embeddings model

Untuk mendapatkan embeddings model, gunakan metode get_embeddings .

 embeddings = model . get_embeddings ()

Mendapatkan login model

Untuk mendapatkan login model, gunakan metode get_logits .

 logits = model . get_logits ()

Menggunakan logger

 from fastLLaMa import Logger

class MyLogger ( Logger ):
    def __init__ ( self ):
        super (). __init__ ()
        self . file = open ( "logs.log" , "w" )

    def log_info ( self , func_name : str , message : str ) -> None :
        #Modify this to do whatever you want when you see info logs
        print ( f"[Info]: Func(' { func_name } ') { message } " , flush = True , end = '' , file = self . file )
        pass
    
    def log_err ( self , func_name : str , message : str ) -> None :
        #Modify this to do whatever you want when you see error logs
        print ( f"[Error]: Func(' { func_name } ') { message } " , flush = True , end = '' , file = self . file )
    
    def log_warn ( self , func_name : str , message : str ) -> None :
        #Modify this to do whatever you want when you see warning logs
        print ( f"[Warn]: Func(' { func_name } ') { message } " , flush = True , end = '' , file = self . file )

Untuk kejelasan lebih lanjut, periksa examples/python/ folder.

Menjalankan llama

 # obtain the original LLaMA model weights and place them in ./models
ls ./models
65B 30B 13B 7B tokenizer_checklist.chk tokenizer.model

# convert the 7B model to ggml FP16 format
# python [PythonFile] [ModelPath] [Floattype] [Vocab Only] [SplitType]
python3 scripts/convert-pth-to-ggml.py models/7B/ 1 0

# quantize the model to 4-bits
./build/src/quantize models/7B/ggml-model-f16.bin models/7B/ggml-model-q4_0.bin 2

# run the inference
# Run the scripts from the root dir of the project for now!
python ./examples/python/example.py

Menjalankan Alpaca-Lora

 # Before running this command
# You need to provide the HF model paths here
python ./scripts/export-from-huggingface.py
# Alternatively you can just download the ggml models from huggingface directly and run them! 

python3 ./scripts/convert-pth-to-ggml.py models/ALPACA-LORA-7B 1 0

./build/src/quantize models/ALPACA-LORA-7B/ggml-model-f16.bin models/ALPACA-LORA-7B/alpaca-lora-q4_0.bin 2

python ./examples/python/example-alpaca.py

Menggunakan adaptor lora selama runtime

 # Download lora adapters and paste them inside models folder
# https://huggingface.co/tloen/alpaca-lora-7b


python scripts/convert-lora-to-ggml.py models/ALPACA-7B-ADAPTER/ -t fp32 
# Change -t to fp16 to use fp16 weights
# Inorder to use LoRA adapters without caching, pass the --no-cache flag
#   - Only supported for fp32 adapter weights

python examples/python/example-lora-adapter.py

# Make sure to set paths correctly for the base model and adapter inside the example
# Commands: 
# load_lora: Attaches the adapter to the base model 
# unload_lora: Deattaches the adapter (Deattach for fp16 is yet to be added!)
# reset: Resets the model state

Menjalankan webui

Untuk menjalankan server WebSocket dan WebUI, ikuti instruksi di cabang masing -masing.

Persyaratan memori/disk

Karena model saat ini sepenuhnya dimuat ke dalam memori, Anda akan membutuhkan ruang disk yang memadai untuk menyimpannya dan RAM yang cukup untuk memuatnya. Saat ini, persyaratan memori dan disk adalah sama.

Ukuran model	Ukuran asli	Ukuran terkuantisasi (4-bit)
7b	13 GB	3,9 GB
13b	24 GB	7,8 GB
30b	60 GB	19,5 GB
65b	120 GB	38,5 GB

Info: Jalankan waktu mungkin memerlukan memori tambahan selama inferensi!
(Tergantung pada hyperparmeter yang digunakan selama inisialisasi model)

Berkontribusi

Kontributor dapat membuka PR
Kolaborator dapat mendorong ke cabang ke repo dan menggabungkan PR ke cabang utama
Kolaborator akan diundang berdasarkan kontribusi
Bantuan apa pun dalam mengelola masalah dan PRS sangat dihargai!
Pastikan untuk membaca tentang visi kami

Catatan

Diuji pada
- Perangkat Keras: Apple Silicon, Intel, Arm (tertunda)
- OS: MacOS, Linux, Windows (tertunda), Android (tertunda)