SiLLM examples
1.0.0
確保安裝這些示例的要求:
pip install -r requirements-examples.txt來自模型隱藏狀態的訓練控制載體的示例,可用於影響推理期間的行為和產生的產出。
lora培訓Mistral-7b-7b-Instruct-v0.2與NVIDIA HELPSTER DATASET。
在helpsteer目錄中運行train.sh ,從HuggingFace下載數據集和型號,然後開始Lora培訓。您可以通過編輯config.yml自定義培訓配置。
DPO培訓QWEN1.5-7B-CHAT帶有DPO混合7K數據集。該培訓包括監督的微調(SFT),然後進行直接偏好優化(DPO)。
在dpo-mix-7k目錄中運行train.sh ,從HuggingFace下載數據集和模型並開始培訓。您可以通過編輯配置文件sft.yml和dpo.yml來自定義培訓配置。
使用MMLU數據集實現“大規模多任務語言理解”基準。
使用您想評估的型號運行mmlu.py
使用MMLU-PRO數據集實現MMLU-PRO基準測試。
使用您想評估的型號運行mmlu-pro.py 。
計算Wikipedia文章中入口段落樣本數據集的困惑得分。
使用您想評估的模型來運行perplexity.py 。添加量化選項以評估量化模型的困惑。