LM Infinite Download - LM Infinite Source Code Download

LM-Infinite: التعميم المتطرف على الطول المتطرف لنماذج اللغة الكبيرة

هذه هي رموز الورق LM-INFINITE: تعميم الطول المتطرف صفريًا لنماذج اللغة الكبيرة (NAACL 2024 Paper Paper Award) في Pytorch. يتم العمل من قبل تشي هان ، وكيفان وانغ ، هاو بينغ ، وينهان شيونج ، يو تشن ، هينغ جي ، سينونج وانغ.

جدول المحتويات

مقدمة
؟؟؟ الآن بديل إسقاط لمحولات Huggingface!
متطلبات
هيكل الدليل
الاستخدام
- إعداد البيانات
- إعداد النموذج
- تقييم
  - الحيرة
  - تقييم الحيرة بأطوال شديدة
  - جيل
  - تقييم مهام المصب
    - استرجاع مفتاح المرور
    - Qasper
اقتباس

مقدمة

في هذه الورقة ، يقترح المؤلفون طريقة بسيطة ، تسمى LM-Infinite ، لتحسين تعميم الطول لنماذج اللغة الكبيرة إلى طول مميز يبلغ 200 متر ، دون أي تدريب إضافي أو تحديثات للمعلمات.

نحن متحمسون لأول مرة في تحديد ثلاثة عوامل الكامنة وراء فشل تعميم الطول في LLMS: (أ) العامل 1: المسافات غير المرئية بين الرموز المميزة تسبب سجلات الاهتمام. (ب) العامل 2: يمكن أن يزيد عدد الرموز غير المرئية من رموز الانتباه إلى ما وراء نطاق التدريب مع زيادة الطول. (ج) العامل 3: بدء عدد قليل من الرموز تشغل منطقة ميزة مميزة ويجب عدم التخلص منها.

الفكرة الرئيسية هي استخدام (1) أ $ lambda $ -نمط الانتباه على شكل ، بحيث يحضر كل رمز فقط الأقرب $ l_ {pretrain} $ الرموز وكذلك عدد قليل من الرموز البدء ، و (2) حد المسافة $ l_ {pretrain} $ ، بحيث يتم تخصيص مسافة الانتباه في $ l_ {pretrain} $ . تتوافق الطريقة المقترحة مع نماذج اللغة الحديثة المتعددة ، بما في ذلك على سبيل المثال لا الحصر سلسلة LLAMA و LLAMA-2 و GPT-J و MPT-7B. LM-Infinite هو أيضًا فعال في الحساب ، مع فقط مع $ o (n) $ تعقيد الوقت.

؟؟؟ الآن بديل إسقاط لمحولات Huggingface!

لقد قمنا بتنفيذ طريقة LM-Infinite كبديل للاستبدال لمحولات Huggingface. بعد تحميل نماذج Transformers ، وإذا كان نموذج Llama أو نموذج MPT أو طراز GPT-J ، فيمكنك تشغيل الرموز التالية لتمكين LM-Infinite.

لنموذج لاما:

 from models.llama import convert_llama_model
model = convert_llama_model(model, 4096, 10)

لنموذج MPT:

 from models.mpt_7b import convert_mpt_model
model = convert_mpt_model(model, 4096, 10)

لنموذج GPT-J:

 from models.gpt_j import convert_gpt_j_model
model = convert_gpt_j_model(model, 4096, 10)

ثم ، يمكنك استخدام النموذج كالمعتاد!

متطلبات

بيثون 3.11
Pytorch 2.0.1
مجموعات البيانات 2.14.4
المميزات 0.13.3
المحولات 4.32.1
الحكيم 0.1.99
تقييم 0.4.0
Rouge-Score 0.1.2
Protobuf 3.20.3
تسريع 0.22.0
السفن العميقة 0.10.2
TQDM 4.66.1
einops 0.6.1

يمكن العثور على قائمة مفصلة من حزم Python من منظور Anaconda في requirements.txt . txt. تم تثبيت بعض الحزم من قبل conda وبعضها من قبل pip . أوامري لتثبيت المتطلبات في بيئة Anaconda & Pip هي كما يلي:

 conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
conda install -c conda-forge sentencepiece einops cudatoolkit-dev tqdm ipython datasets evaluate rouge-score protobuf accelerate langchain openai
pip install transformers deepspeed

هيكل الدليل

 ├── LICENSE
├── README.md
├── requirements.txt
├── configs
│   └── zero3_efficient_config.json         # config for deepspeed acceleration
├── data
│   ├── generation_metrics.py
│   ├── get_data.py                         # dataset loading and preprocessing
│   ├── passkey_retrieval
│   │   ├── create_passkey_data.py
│   │   ├── create_passkey_data.sh
│   │   └── passkey_retrieval_accuracy.py
│   └── split_pile_file.py                  # split the Pile dataset into task-specific files
├── models
│   ├── constant.py                         # a constant function model
│   ├── get_llama2
│   │   ├── convert_llama_weights_to_hf.py  # convert llama-2 weights to huggingface format
│   │   └── download_llama2.sh
│   ├── get_model.py
│   ├── gpt_j.py
│   ├── lambda_attention.py                 # efficient implementation of lambda attention
│   ├── llama.py
│   ├── model_base.py
│   └── mpt_7b.py
├── scripts
│   ├── combine_evaluate_generation.py
│   ├── combine_results.py
│   ├── eval_downstream_tasks.py            # evaluate on passkey retrieval task
│   ├── eval_generation.py                  # evaluate generation metrics
│   └── eval_ppl_deepspeed.py               # evaluate perplexity
├── utils
│   ├── arguments.py
│   └── utils.py
└── visualization
    ├── plot_nll.py
    ├── position_pca.py
    └── relative_attention_explosion.py

الاستخدام

إعداد البيانات

بالنسبة لمجموعات البيانات ، تحتاج إلى إعداد مجموعة بيانات Corpus. إذا قمت بتنزيل مصدر الوبر الأصلي (https://pile.eleuther.ai) إلى ${PILE_PATH}/test.jsonl.zst و ${PILE_PATH}/val.jsonl.zst ، قم بتشغيل الأوامر التالية لاستخراج مجموعة البيانات المضغوطة.

 cd ${PILE_PATH}
zstd -d ./ test.jsonl.zst
zstd -d ./ val.jsonl.zst

ثم قم بتشغيل الأوامر التالية لتقسيم مجموعة البيانات إلى ملفات خاصة بالمهمة.

 cd ${REPOSITORY_ROOT}
mkdir -p ${PILE_PATH}/val
mkdir -p ${PILE_PATH}/test
python data/split_pile_file.py ${PILE_PATH}/val.jsonl ${PILE_PATH}/val
python data/split_pile_file.py ${PILE_PATH}/test.jsonl ${PILE_PATH}/test

ومع ذلك ، لا يبدو أن الوبر الرسمي متاح للتنزيل بعد الآن ، لذلك ربما تحتاج إلى معرفة مصدر آخر (على سبيل المثال ، https://huggingface.co/datasets/arxiv_dataset أو https://openwebtext2.readthedocs.io/en/latest/). بدلاً من ذلك ، يمكنك أيضًا استخدام مجموعة خاصة بك. كلا الخيارين يتطلب منك تحرير البيانات/get_data.py.

إعداد النموذج

بالنسبة لنماذج العمود الفقري ، تستخدم الورقة LAMA-2 و LLAMA و GPT-J و MPT-7B. تتوفر الطرز الثلاثة الأخيرة مباشرة على أساس النحيل من Huggingface Model Hub ، لذا لا يلزم إجراء أي إجراء مسبقًا. يجب طلب مفتاح تنزيل LLAMA-2 من نموذج طلب META AI. ثم قم بتشغيل الأمر التالي

 bash models/get_llama2/download_llama2.sh

واتبع المطالبات لتنزيل نقاط التفتيش على ${PATH_TO_LLAMA2_CHECKPOINTS} . ثم ركض

 python models/get_llama2/convert_llama_weights_to_hf.py 
    --input_dir ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --model_size 7B 
    --output_dir ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf

لتحويل نقاط التفتيش LLAMA-2-7B إلى تنسيق Huggingface.

تقييم

تتطلب الرموز ${LOG_DIR} تخزين السجلات والنتائج. يرجى تحديد دليل مع مساحة كافية.

الحيرة

تقييم حيرة نموذج LLAMA-2 على مجموعة اختبار ARXIV.

 TRIAL=llama2-infinite-ArXiv
mkdir -p $LOG_DIR/$TRIAL
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_ppl_deepspeed.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --max_length 32770 
    --log_dir $LOG_DIR/$TRIAL

شرح موجز للحجج:

--model : المسار أو الاسم إلى النموذج. Pass decapoda-research/llama-7b-hf لاستخدام Llama و mosaicml/mpt-7b لاستخدام MPT-7B و EleutherAI/gpt-j-6b لاستخدام GPT-J-6B.
--tokenizer_path : المسار إلى الرمز المميز. أزل هذه الوسيطة إذا لم تكن تستخدم llama-2.
--use_lambda_attention : استخدم انتباه لامدا. (مطلوب لـ LM-Infinite)
--local_branch : حجم الفرع المحلي. 2048 لـ Llama و MPT-7B و GPT-J (مطلوب لـ LM-Infinite)
--global_branch : حجم الفرع العالمي. النطاق 10-100 يعطي تأثير مماثل بشكل عام. (مطلوب لـ LM-Infinite)
--limit_distance : حد المسافة. 2048 لـ Llama و MPT-7B و GPT-J (مطلوب لـ LM-Infinite)
--dataset : اسم مجموعة البيانات. راجع البيانات/get_data.py لمعرفة كيفية استخدام مجموعات البيانات المخصصة.

إذا كنت ترغب في تقييم نماذج الفانيليا بدون LM-Infinite ، فما عليك سوى إزالة- --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 مجموعة وسيطة.

إذا كنت ترغب فقط في تقييم مجموعة فرعية من مجموعة الاختبار ، فيمكنك استخدام الوسيطة --start_data_from لتحديد فهرس بدء مجموعة الاختبار ، و/أو --max_data_num لتحديد عدد الأمثلة بعد هذا الفهرس.

تقييم الحيرة بأطوال شديدة


TRIAL=llama2-infinite-ArXiv-extreme
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
echo port: $MASTER_PORT
mkdir -p $LOG_DIR/$TRIAL
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_infinite_ppl.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --streaming_length 200000000 --max_length 128000 --start_data_from 2300 
    --log_dir $LOG_DIR/$TRIAL

جيل

توليد تقييم من نموذج LLAMA-2 على مجموعة اختبار ARXIV.


TRIAL=llama2-infinite-generate-ArXiv
mkdir -p $LOG_DIR/$TRIAL
CUDA_VISIBLE_DEVICES=0
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_generation.py 
    --deepspeed_config configs/zero3_efficient_config.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 100 --limit_distance 4096 
    --dataset the_pile --dataset_group ArXiv --split test --dataset_dir ${PILE_PATH} 
    --max_length 33000 
    --max_generation_length 100 --evaluate_metrics --evaluate_positions 4096 8192 12288 16384 
    --log_dir $LOG_DIR/$TRIAL

تقييم مهام المصب

استرجاع مفتاح المرور

أولاً ، نحتاج إلى إعداد مجموعة بيانات استرجاع مفتاح المرور.

 for MAX_LENGTH in 2048 3072 4096 5120 6144 7168 8192 10240 12288 14335 16384; do
    echo $MAX_LENGTH
    python data/passkey_retrieval/create_passkey_data.py 
        --token-length $MAX_LENGTH 
        --dump-file-path ${PASSKEY_DATA}/${MAX_LENGTH} 
        --tokenizer-path ${PATH_TO_LLAMA2_CHECKPOINTS} 
        --num-samples 1000
done

ثم ، دعنا نقيم مهمة استرجاع مفتاح المرور.


CUDA_VISIBLE_DEVICES=0
for MAX_LENGTH in 6144 8192 10240 12288 16384; do
    TRIAL=llama2-infinite-passkey-$MAX_LENGTH
    mkdir -p $LOG_DIR/$TRIAL
    MASTER_PORT=$(shuf -i 29500-65535 -n 1)
    DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --master_port $MASTER_PORT --include localhost:$CUDA_VISIBLE_DEVICES scripts/eval_downstream_tasks.py 
        --deepspeed_config configs/zero3_efficient_config.json 
        --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
        --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 --triangle_offset 0 
        --top_k_attention 5 --top_k_from_layer 4 
        --dataset passkey_retrieval --dataset_dir ${PASSKEY_DATA} --dataset_group ${MAX_LENGTH} 
        --max_generation_length 7 --evaluate_metrics 
        --log_dir $LOG_DIR/$TRIAL
done

Qasper

تشغيل مهمة Qasper:


CUDA_VISIBLE_DEVICES=0
DATASET=qasper
TRIAL=llama2-infinite-$DATASET
mkdir -p $LOG_DIR/$TRIAL
MASTER_PORT=$(shuf -i 29500-65535 -n 1)
echo port: $MASTER_PORT
DS_SKIP_CUDA_CHECK=1 PYTHONPATH=. deepspeed --include localhost:$CUDA_VISIBLE_DEVICES --master_port $MASTER_PORT scripts/eval_downstream_tasks.py 
    --deepspeed_config configs/zero3_efficient_config_large.json 
    --model ${PATH_TO_LLAMA2_CHECKPOINTS}/llama-2-7b-hf --tokenizer_path ${PATH_TO_LLAMA2_CHECKPOINTS} 
    --use_lambda_attention --local_branch 4096 --global_branch 10 --limit_distance 4096 --triangle_offset 0 
    --top_k_attention 5 --top_k_from_layer 4 
    --dataset $DATASET --split test --evaluate_metrics 
    --max_length 6144 --truncation_side center 
    --log_dir $LOG_DIR/$TRIAL

اقتباس

 @inproceedings{han2024lm,
  title={LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models},
  author={Han, Chi and Wang, Qifan and Peng, Hao and Xiong, Wenhan and Chen, Yu and Ji, Heng and Wang, Sinong},
  booktitle={Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)},
  pages={3991--4008},
  year={2024}
}

يوسع