ดาวน์โหลด RL4LMs - ดาวน์โหลดซอร์สโค้ด RL4LMs

RL4LMs

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

- RL4LMS

ห้องสมุด RL แบบแยกส่วนเพื่อปรับแบบจำลองภาษาให้กับการตั้งค่าของมนุษย์

เราให้การสร้างบล็อกแบบปรับแต่งได้อย่างง่ายดายสำหรับแบบจำลองภาษาการฝึกอบรมรวมถึงการใช้งาน อัลกอริทึมตามนโยบาย , ฟังก์ชั่นรางวัล , ตัวชี้วัด , ชุดข้อมูล และ นโยบายนักแสดงตาม LM

ลิงค์กระดาษ: https://arxiv.org/abs/2210.01241

ลิงค์เว็บไซต์: https://rl4lms.apps.allenai.org/

ทดสอบ และ เปรียบเทียบ อย่างละเอียดด้วย การทดลองมากกว่า 2,000 ครั้ง (GRUE Benchmark?) ในชุดที่ครอบคลุม:

7 งานการประมวลผลภาษาธรรมชาติที่แตกต่างกัน (NLP):
- การสรุป
- การใช้เหตุผลทั่วไป
- ความต่อเนื่องของข้อความที่ใช้ความเชื่อมั่น
- การสร้างแบบตารางเป็นข้อความ
- การตอบคำถามเชิงนามธรรม
- การแปลเครื่องจักร
- การสร้างบทสนทนา
ตัวชี้วัด NLG ประเภทต่าง ๆ (20+) ซึ่งสามารถใช้เป็นฟังก์ชั่นรางวัล:
- ตัวชี้วัดคำศัพท์ (เช่น: รูจ, Bleu, Sacrebleu, Meteor)
- ตัวชี้วัดความหมาย (เช่น: Bertscore, Bleurt)
- ตัวชี้วัดเฉพาะงาน (เช่น: ผู้ปกครอง, ไซเดอร์, เครื่องเทศ)
- คะแนนจากตัวแยกประเภทที่ผ่านการฝึกอบรมมาก่อน (เช่นคะแนนความเชื่อมั่น)
อัลกอริทึมตามนโยบายของ PPO, A2C, TRPO และ NLPO นวนิยาย (การเพิ่มประสิทธิภาพนโยบายภาษาธรรมชาติ)
นโยบายนักแสดง-นักวิจารณ์ที่สนับสนุน LMS เชิงสาเหตุ (เช่น GPT-2/3) และ SEQ2SEQ LMS (เช่น T5, BART)

การสร้างบล็อกทั้งหมดเหล่านี้สามารถปรับแต่งได้ช่วยให้ผู้ใช้สามารถฝึกอบรม LMS ที่ใช้หม้อแปลงเพื่อเพิ่มประสิทธิภาพฟังก์ชั่นการให้รางวัลโดยพลการใด ๆ ในชุดข้อมูลใด ๆ ที่เลือก

การอัปเดตล่าสุด (v0.2.0) ใน 23-Nov-22

เพิ่มงานโต้ตอบรายวัน
ปัญหาความเข้ากันได้คงที่กับรุ่น SEQ2SEQ บางรุ่นเช่น BART, BlendorBot ฯลฯ
การสนับสนุนข้อมูลแบบขนานที่ใช้งาน
คลาสนโยบายที่ปรับโครงสร้างใหม่

การอัปเดตล่าสุด (v0.2.1)

การอัปเดตการบันทึกเล็กน้อย

ติดตั้ง

การติดตั้งท้องถิ่น

git clone https://github.com/allenai/RL4LMs.git
cd RL4LMs
pip install -e .

นักเทียบท่า

นอกจากนี้เรายังจัดให้มี Dockerfile สำหรับการพัฒนาโดยใช้คอนเทนเนอร์ Docker ที่มีการอ้างอิงทั้งหมด

docker build . -t rl4lms

การพึ่งพาเพิ่มเติม

เป็นทางเลือกจำเป็นต้องใช้ไลบรารี CorenLP สำหรับการคำนวณตัวชี้วัดบางอย่าง (เช่นเครื่องเทศ) ซึ่งสามารถดาวน์โหลดได้ผ่าน cd rl4lms/envs/text_generation/caption_metrics/spice && bash get_stanford_models.sh

เริ่มต้นอย่างรวดเร็ว - ฝึก PPO/NLPO โดยใช้การกำหนดค่า YAML ที่กำหนดไว้ล่วงหน้า

เราให้บริการ API การฝึกอบรมอย่างง่ายที่สามารถเรียกใช้ผ่านสคริปต์รถไฟที่อนุญาตให้ฝึกอบรม PPO, NLPO หรือแบบจำลองภายใต้การดูแลโดยใช้ไฟล์ config (YAML)

ตัวอย่างเช่นในการฝึกอบรม T5-base ในการสรุป CNN/DM บน PPO โดยใช้ Rouge-1 เป็นฟังก์ชั่นรางวัลคุณสามารถเรียกใช้:

python scripts/training/train_text_generation.py --config_path scripts/training/task_configs/summarization/t5_ppo.yml

ไฟล์กำหนดค่าสำหรับงานทั้งหมดสามารถพบได้ที่นี่

Yaml File Schema - การกำหนดค่า Building Blocks

ไฟล์กำหนดค่ามีรายละเอียดเกี่ยวกับการตั้งค่าพารามิเตอร์ไฮเปอร์สำหรับการสร้างบล็อกซึ่งอธิบายไว้ด้านล่าง:

ชุดข้อมูล/งาน : ชุดข้อมูลที่มีตัวอย่างที่มีพรอมต์อินพุตและประโยคอ้างอิง ชุดข้อมูลที่มีอยู่จะพบได้ในคลาส DataPoolRegistry ในรีจิสทรี (ดูวิธีสร้างชุดข้อมูลของคุณเองที่นี่)
```
 datapool :
  id : cnn_daily_mail
  args :
    prompt_prefix : " Summarize: "
```
Tokenizer - tokenizer ที่ผ่านการฝึกอบรมมาก่อนที่ใช้ (de) tokenize ลำดับอินพุตและเอาต์พุตด้วยการตั้งค่าสำหรับการขยายและการตัดทอน
```
 tokenizer :
  model_name : t5-base
  padding_side : left
  truncation_side : left
  pad_token_as_eos_token : False
```
ฟังก์ชั่นรางวัล : ฟังก์ชั่นรางวัลที่คำนวณคะแนนระดับโทเค็นในแต่ละขั้นตอนของ MDP ฟังก์ชั่นการให้รางวัลที่มีอยู่สามารถพบได้ในชั้นเรียน RewardFunctionRegistry (ดูวิธีการสร้างฟังก์ชั่นรางวัลของคุณเองที่นี่)
```
 reward_fn :
  id : rouge
  args :
    rouge_type : " rouge1 "
```
สภาพแวดล้อม : กำหนดค่าสภาพแวดล้อมการสร้างข้อความสไตล์ยิมซึ่งจำลองตอน MDP การเปิดตัวถูกสร้างขึ้นโดยใช้ตัวอย่างรถไฟจากชุดข้อมูลซึ่งประกอบด้วยข้อความอินพุตและอ้างอิง นอกจากนี้เราห่อ Env ของเราด้วย SubProcVecEnv จากเส้นเสถียรที่ประมวลผลตอน n_envs แบบคู่ขนานโดยใช้การประมวลผลแบบหลายครั้งเพื่อคำนวณรางวัลที่ชาญฉลาด
การตั้งค่าการกำหนดค่าเพิ่มเติม ได้แก่ :
- max_episode_length : ความยาวสูงสุดของตอน
- max_prompt_length - ความยาวสูงสุดของข้อความอินพุตที่จะพิจารณา
- terminate_on_eos - จะยุติตอนทันทีที่ดำเนินการ EOS
- prompt_truncation_side - ด้านการตัดทอนสำหรับข้อความพรอมต์
- context_start_token - id สำหรับโทเค็นบริบท (สอดคล้องกับโทเค็นเริ่มต้นที่มอบให้กับตัวถอดรหัสในโมเดลตัวเข้ารหัสตัวพิมพ์ใหญ่)
```
 env :
  n_envs : 10
  args :
    max_prompt_length : 512
    max_episode_length : 100
    terminate_on_eos : True
    prompt_truncation_side : " right "
    context_start_token : 0
```
ON-POCICY ALG : เราให้การใช้งานอัลกอริธึมตามนโยบาย 4: PPO, NLPO, A2C และ TRPO ที่ปรับให้เข้ามาจากการทำงานที่เสถียร 3 ซึ่งปรับแต่งให้ทำงานกับงาน NLP ซึ่งสามารถใช้งานนอกกรอบที่มีนโยบายเชิงสาเหตุหรือนโยบาย SEQ2SEQ LM (ดูวิธีสร้างอัลกอริทึมหรือนโยบายตามนโยบายของคุณเอง)
- นอกจากนี้เรายังจัดให้มีผู้ฝึกสอนดูแลเพื่อวัตถุประสงค์ในการเปรียบเทียบ แบบจำลองการเริ่มต้นที่อบอุ่นภายใต้การดูแลได้อัปโหลดไปยัง HuggingFace Hub แล้วและระบุไว้ในไฟล์ config ที่เกี่ยวข้อง
- พารามิเตอร์ไฮเปอร์สำหรับอัลกอริทึมสามารถระบุได้ที่ alg/args
- นอกจากนี้อัลกอริทึม RL ทั้งหมดใช้ตัวควบคุม KL Adaptive เพื่อให้ LM อยู่ใกล้กับ LM ดั้งเดิมโดยการตั้งค่าเริ่มต้น KL Co-Efficient ( alg/kl_div/coeff ) และเป้าหมาย KL ( alg/kl_div/target_kl )
- เราสนับสนุนนโยบาย LM สองประเภท: นโยบาย LM เชิงสาเหตุ (สำหรับตัวถอดรหัสเฉพาะโมเดล) และ นโยบาย SEQ2SEQ LM (สำหรับโมเดลตัวเข้ารหัส Decoder) นอกจากนี้สำหรับ NLPO เรายังมีตัวแปรที่สวมหน้ากากเหล่านี้ การใช้นโยบายสามารถพบได้ที่นี่และสามารถแนบกับอัลกอริทึมโดยการระบุ alg/policy/id และ alg/policy/args
```
 alg :
  id : ppo
  args : 
    n_steps : 512
    batch_size : 64
    verbose : 1
    learning_rate : 0.000002
    n_epochs : 5
    ent_coef : 0.0
  kl_div :
    coeff : 0.001
    target_kl : 0.2
  policy :
    id : seq2seq_lm_actor_critic_policy
    args :
      model_name : t5-base
      apply_model_parallel : True
      prompt_truncation_side : " right "
      generation_kwargs :
        do_sample : True
        top_k : 50
        min_length : 50
        max_new_tokens : 100          
```
การกำหนดค่าเทรนเนอร์ : เราให้บริการเทรนเนอร์ตามนโยบาย-wrapper-feature-complete ที่มีการสร้างบล็อกแบบอินสแตนซ์จากการกำหนดค่าที่สอดคล้องกันและให้การฝึกอบรมด้านนอกซึ่งประกอบด้วย รถไฟ และการทำซ้ำการทำ ซ้ำ train_evaluation/n_iters
- การวนซ้ำแต่ละครั้งสอดคล้องกับการดำเนินการอัปเดตด้วย alg/args/n_steps X env/n_envs ของอัลกอริทึมที่เลือก
- สำหรับทุกคน eval_every iters, LM ได้รับการประเมินในการแยกการตรวจสอบความถูกต้องโดยใช้ตัวชี้วัดที่ระบุไว้ใน train_evaluation/metrics ที่มีการสร้าง Kwargs ที่ให้ไว้ใน train_evaluation/generation_kwargs alg/policy/generation_kwargs
```
 # train and evaluation
train_evaluation :
  eval_batch_size : 100
  n_iters : 100
  eval_every : 10
  save_every : 1
  metrics :
    - id : meteor
      args : {}
    - id : rouge
    - id : bleu
      args : {}
    - id : bert_score
      args :
        language : en
    - id : diversity
      args : {}
  generation_kwargs : 
    do_sample : True
    top_k : 0
    temperature : 0.7
    min_length : 50
    max_new_tokens : 100
```

หน่วยการสร้างที่กำหนดเอง?

RL4LMS ให้การปรับแต่งได้อย่างสมบูรณ์-เกี่ยวกับการเพิ่มงาน/ชุดข้อมูลใหม่ฟังก์ชั่นรางวัลการประเมินผลการประเมินอัลกอริทึมตามนโยบายและนโยบายนักแสดง-นักวิจารณ์

การเพิ่มชุดข้อมูล

ผู้ใช้สามารถสร้างชุดข้อมูลของตัวเองโดยการจัดประเภท TextGenPool โดยการแทนที่ prepare(cls, split: str, **args) -> 'TextGenPool': วิธีการส่งคืนอินสแตนซ์ของ TextGenPool ตัวอย่างแสดงด้านล่าง:

 from rl4lms . data_pools . text_generation_pool import Sample , TextGenPool

class MyDataPool ( TextGenPool ):
   @ classmethod
   def prepare ( cls , split : str ):
       .. 
       samples = []
       for ix , item in enumerate (..):
           sample = Sample ( id = f" { split } _ { ix } " ,
                           prompt_or_input_text = item [ "document" ],
                           references = [ item [ "target" ]]
                           )
           samples . append ( sample )
       pool_instance = cls ( samples )
       return pool_instance

การเพิ่มฟังก์ชั่นรางวัล

การให้รางวัลที่กำหนดเองสามารถนำไปใช้ได้อย่างง่ายดายโดยการจัดอันดับของรางวัล (เรียกได้) ซึ่งใช้การสังเกต ( $ S $ ) การสังเกตครั้งต่อไป ( $ S '$ ), การกระทำ ( $ a $ ) เสร็จแล้ว (ระบุว่าตอนเสร็จแล้ว) และข้อมูลเมตา (มีข้อมูลอื่น ๆ เกี่ยวกับการป้อนข้อมูลข้อความ) ที่นี่การสังเกตเป็นวัตถุคลาสข้อมูลที่ประกอบด้วยข้อความที่สร้างขึ้น (ในขั้นตอนเฉพาะ) ข้อความแจ้งข้อความบริบท (ในขั้นตอนนั้น) ข้อความอ้างอิงซึ่งสามารถใช้ในการคำนวณระดับโทเค็นระดับโทเค็นหรือระดับประโยค

 from rl4lms . envs . text_generation . observation import Observation
from rl4lms . envs . text_generation . reward import RewardFunction


class MyRewardFunction ( RewardFunction ):
   def __init__ ( self , * args ) -> None :
       super (). __init__ ()

   def __call__ ( self , prev_observation : Observation ,
                action : int ,
                current_observation : Observation ,
                done : bool ,
                meta_info : Dict [ str , Any ] = None ) -> float :
       if done :
           reward = ..
           return reward
       return 0

นอกเหนือจากตัวชี้วัด NLG แบบดั้งเดิมสำหรับการสร้างต้นแบบอย่างรวดเร็วเรายังมีฟังก์ชั่นรางวัลสังเคราะห์สองฟังก์ชั่นที่ฝึก LMS เพื่อสร้างตัวเลขในการเพิ่มลำดับและสร้างวันที่ สิ่งเหล่านี้สามารถใช้เพื่อทดสอบอัลกอริทึมและนโยบายที่แตกต่างกันได้อย่างรวดเร็ว การกำหนดค่าที่สอดคล้องกันสามารถพบได้ที่นี่ (ตัวเลขวันที่)

การเพิ่มตัวชี้วัดที่กำหนดเอง

ผู้ใช้สามารถสร้างตัวชี้วัดการประเมินของตนเองซึ่งจะใช้ในการประเมินแบบจำลองเป็นระยะในการแยกการตรวจสอบความถูกต้องของชุดข้อมูล สิ่งนี้สามารถทำได้โดย basemetric sub-classing ซึ่งใช้ข้อความแจ้งข้อความที่สร้างข้อความข้อความอ้างอิง meta_infos รุ่น LM ปัจจุบันชื่อแยกเป็นอินพุตและส่งคืนคำสั่งที่มีชื่อเมตริกเป็นคีย์และค่าที่ประกอบด้วยคะแนนระดับประโยคและคะแนนระดับคลังข้อมูล ตัวอย่างมีดังนี้:

 from rl4lms . envs . text_generation . metric import BaseMetric

class MyMetric ( BaseMetric ):
   def __init__ ( self ) -> None :
       super (). __init__ ()

   def compute ( self ,
               prompt_texts : List [ str ],
               generated_texts : List [ str ],
               reference_texts : List [ List [ str ]],
               meta_infos : List [ Dict [ str , Any ]] = None ,
               model : PreTrainedModel = None ,
               split_name : str = None ):
       metric_dict = {
           "custom_metrics/my_metric" : ([ 0.4 , 0.7 , 0.9 ], 0.7 )
       }
       return metric_dict

การเพิ่มอัลกอริทึมตามนโยบายที่กำหนดเอง

นอกเหนือจากอัลกอริทึมที่รองรับนโยบาย (PPO, NLPO, A2C, TRPO) ผู้ใช้สามารถใช้อัลกอริทึมตามนโยบายของตนเองได้อย่างง่ายดายโดยการจัดประเภท sub-baselines3 เนื่องจากเราจัดเตรียม wrappers สำหรับอัลกอริทึมตามนโยบายที่จัดการกับการเปิดตัวโดยใช้นโยบาย LM สภาพแวดล้อมการคำนวณรางวัล ฯลฯ ผู้ใช้จึงจำเป็นต้องใช้วิธี train() ด้วยฟังก์ชั่นการสูญเสียที่กำหนดเอง

 from stable_baselines3 . common . on_policy_algorithm import OnPolicyAlgorithm

class MyOnPolicyAlgorithm ( OnPolicyAlgorithm ):
    def __init__ ( ** args ):
        super (). __init__ ( ** args )

    def train ( self ) -> None :
        # train for n_epochs epochs
        for epoch in range ( self . n_epochs ):
            # Do a complete pass on the rollout buffer
            for rollout_data in self . rollout_buffer . get ( self . batch_size ):
              # compute loss

การเพิ่มนโยบายที่กำหนดเอง

เราให้บริการนโยบายนักแสดงนักแสดงที่ใช้ LM ซึ่งห่อหุ้ม LM และ SEQ2SEQ LMS สิ่งเหล่านี้สามารถขยายได้ (สำหรับเช่น: ใช้สถาปัตยกรรมการวิจารณ์ที่แตกต่างกัน) โดยการเอาชนะวิธีการที่เหมาะสม (เช่น evaluate_actions() )

การลงทะเบียน

ในที่สุดเพียงลงทะเบียนส่วนประกอบที่กำหนดเองของคุณโดยเพิ่มลงในรีจิสทรีที่สอดคล้องกันหลังจากนั้นพวกเขาสามารถใช้โดยตรงจากการกำหนดค่าคล้ายกับส่วนประกอบที่กำหนดไว้ล่วงหน้า

แม่แบบ crowdsourcing

เราได้จัดเตรียมเทมเพลต crowdsourcing ที่เราใช้กับ Mechanical Turk พร้อมกับตัวอย่างอินพุตใน scripts/crowdworking_templates คุณอาจพบว่าจุดเริ่มต้นที่เป็นประโยชน์เหล่านี้สำหรับการประเมินรุ่นรุ่นของคุณเองหรือเพื่อรวบรวมข้อมูลการฝึกอบรมสำหรับฟังก์ชั่นรางวัลที่เรียนรู้

การบันทึกและผลการทดลอง

นอกจากนี้เรายังสนับสนุนการบันทึก Wandb และการเริ่มต้นที่อบอุ่นโดยการจัดเก็บจุดตรวจและสิ่งประดิษฐ์การฝึกอบรมอื่น ๆ ในเส้นทางที่ผู้ใช้ระบุ สิ่งนี้มีประโยชน์อย่างยิ่งสำหรับการทำงานที่ได้รับการจารึกไว้ในกลุ่มขนาดใหญ่ที่กำหนด

สิ่งประดิษฐ์รวมถึง (1) ไฟล์ JSONL ที่มีการเปิดตัว infos ตามช่วงเวลาที่กำหนด (2) ไฟล์ JSONL ที่มีการฝึกอบรม infos ตามช่วงเวลาที่กำหนด (3) ไฟล์ JSONL ที่มีการตรวจสอบความถูกต้องในช่วงเวลาที่ระบุ (4) ไฟล์การทดสอบ JSON (8) config json ใช้เรียกใช้การทดสอบ

การใช้งานให้เสร็จสมบูรณ์มีดังนี้:

WANDB_API_KEY= < YOUR-WANDB-API-KEY-HERE >  python scripts/training/train_text_generation.py 
--config_path < PATH-TO-CONFIG-FILE > 
--experiment_name < EXPERIMENT-NAME > 
--base_path_to_store_results < PATH-TO-STORE-RESULTS > 
--log_to_wandb

การอ้างอิง

 @inproceedings { Ramamurthy2022IsRL ,
  title = { Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization } ,
  author = { Rajkumar Ramamurthy and Prithviraj Ammanabrolu and Kiant{'e} Brantley and Jack Hessel and Rafet Sifa and Christian Bauckhage and Hannaneh Hajishirzi and Yejin Choi } ,
  journal = { arXiv preprint arXiv:2210.01241 } ,
  url = { https://arxiv.org/abs/2210.01241 } ,
  year = { 2022 }
}

คำถาม/การอภิปราย/แนวคิด?

สำหรับการอภิปรายคำถามการแลกเปลี่ยนความคิดเข้าร่วมช่อง Slack ของเรา

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 29.64MB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด