TextRL 다운로드 - TextRL 소스 코드 다운로드

TextRL

기타 소스코드

1.0.0

다운로드

Textrl : 강화 학습을 가진 텍스트 생성

Textrl은 강화 학습을 사용하여 텍스트 생성을 개선하고 포옹 얼굴의 변압기, PFRL 및 Openai Gym을 구축하는 것을 목표로하는 파이썬 라이브러리입니다. TexTrl은 쉽게 사용자 정의 할 수 있도록 설계되었으며 다양한 텍스트 생성 모델에 적용 할 수 있습니다.

Textrl

소개
예
- GPT-2 예
- FLAN-T5 예
- BigScience/Bloomz-7B1-MT 예제
- 176b 블룸 예제
- RL 예제를 통한 제어 가능한 생성
설치
- PIP 설치
- 소스에서 빌드하십시오
용법
- 에이전트 및 환경을 초기화하십시오
- 환경에 대한 보상 기능 설정
- 훈련 준비
- 훈련
덤프 모델
RL 교육을위한 주요 매개 변수

소개

Textrl은 강화 학습을 사용하여 텍스트 생성 모델을 미세 조정합니다. 다음 라이브러리에 구축됩니다.

포옹 얼굴의 변압기
pfrl
Openai 체육관

예 - `gpt2`

나를 클릭하십시오

GPT2 예

 import pfrl
from textrl import TextRLEnv , TextRLActor , train_agent_with_evaluation
from transformers import AutoModelForCausalLM , AutoTokenizer
import logging
import sys

logging . basicConfig ( level = logging . INFO , stream = sys . stdout , format = '' )

checkpoint = "gpt2"

tokenizer = AutoTokenizer . from_pretrained ( checkpoint )
model = AutoModelForCausalLM . from_pretrained ( checkpoint , torch_dtype = "auto" , device_map = "auto" )

model = model . cuda ()


class MyRLEnv ( TextRLEnv ):
    def get_reward ( self , input_item , predicted_list , finish ):  # predicted will be the list of predicted token
        reward = [ 0 ]
        if finish :
            reward = [ 1 ]  # calculate reward score base on predicted_list
        return reward


observaton_list = [{ "input" : "explain how attention work in seq2seq model" }]
env = TextRLEnv ( model , tokenizer , observation_input = observaton_list , max_length = 20 , compare_sample = 2 )
actor = TextRLActor ( env , model , tokenizer ,
                    act_deterministically = False ,
                    temperature = 1.0 ,
                    top_k = 0 ,
                    top_p = 1.0 ,
                    repetition_penalty = 2 )
agent = actor . agent_ppo ( update_interval = 2 , minibatch_size = 2 , epochs = 10 )
print ( actor . predict ( observaton_list [ 0 ]))

train_agent_with_evaluation (
    agent ,
    env ,
    steps = 100 ,
    eval_n_steps = None ,
    eval_n_episodes = 1 ,
    eval_interval = 2 ,
    outdir = 'bloom—test' ,
)

print ( actor . predict ( observaton_list [ 0 ]))

예 - `flan-t5`

나를 클릭하십시오

예제 코드

Colab 예 : Google/Flan-T5-Base

 import pfrl
from textrl import TextRLEnv , TextRLActor , train_agent_with_evaluation
from transformers import AutoModelForSeq2SeqLM , AutoTokenizer
import logging
import sys

logging . basicConfig ( level = logging . INFO , stream = sys . stdout , format = '' )


tokenizer = AutoTokenizer . from_pretrained ( "google/flan-t5-base" )  
model = AutoModelForSeq2SeqLM . from_pretrained ( "google/flan-t5-base" )
model . eval ()
model . cuda ()

sentiment = pipeline ( 'sentiment-analysis' , model = "cardiffnlp/twitter-roberta-base-sentiment" , tokenizer = "cardiffnlp/twitter-roberta-base-sentiment" , device = 0 , return_all_scores = True )

class MyRLEnv ( TextRLEnv ):
    def get_reward ( self , input_item , predicted_list , finish ): # predicted will be the list of predicted token
      reward = 0
      if finish or len ( predicted_list [ 0 ]) >= self . env_max_length :
        predicted_text = tokenizer . convert_tokens_to_string ( predicted_list [ 0 ])
        # sentiment classifier
        reward = sentiment ( input_item [ 'input' ] + predicted_text )[ 0 ][ 0 ][ 'score' ] * 10
      return reward

observaton_list = [{ 'input' : 'i think dogecoin is' }]
env = MyRLEnv ( model , tokenizer , observation_input = observaton_list , compare_sample = 1 )
actor = TextRLActor ( env , model , tokenizer , optimizer = 'adamw' ,
                    temperature = 0.8 ,
                    top_k = 100 ,
                    top_p = 0.85 ,)
agent = actor . agent_ppo ( update_interval = 50 , minibatch_size = 3 , epochs = 10 , lr = 3e-4 )
print ( actor . predict ( observaton_list [ 0 ]))

pfrl . experiments . train_agent_with_evaluation (
    agent ,
    env ,
    steps = 3000 ,
    eval_n_steps = None ,
    eval_n_episodes = 1 ,       
    train_max_episode_len = 100 ,  
    eval_interval = 10 ,
    outdir = 'checkpoint' , 
)
agent . load ( "./checkpoint/best" )
print ( actor . predict ( observaton_list [ 0 ]))

예 `bigscience/bloomz-7b1-mt`

나를 클릭하십시오

Bloomz-7B1-MT 예제

 import pfrl
from textrl import TextRLEnv , TextRLActor , train_agent_with_evaluation
from transformers import AutoModelForCausalLM , AutoTokenizer
import logging
import sys

logging . basicConfig ( level = logging . INFO , stream = sys . stdout , format = '' )

checkpoint = "bigscience/bloomz-7b1-mt"

tokenizer = AutoTokenizer . from_pretrained ( checkpoint )
model = AutoModelForCausalLM . from_pretrained ( checkpoint , torch_dtype = "auto" , device_map = "auto" )

model = model . cuda ()


class MyRLEnv ( TextRLEnv ):
    def get_reward ( self , input_item , predicted_list , finish ):  # predicted will be the list of predicted token
        reward = [ 0 ]
        if finish :
            reward = [ 1 ]  # calculate reward score base on predicted_list
        return reward


observaton_list = [{ "input" : "explain how attention work in seq2seq model" }]
env = TextRLEnv ( model , tokenizer , observation_input = observaton_list , max_length = 20 , compare_sample = 2 )
actor = TextRLActor ( env , model , tokenizer ,
                    act_deterministically = False ,
                    temperature = 1.0 ,
                    top_k = 0 ,
                    top_p = 1.0 )
agent = actor . agent_ppo ( update_interval = 2 , minibatch_size = 2 , epochs = 10 )
print ( actor . predict ( observaton_list [ 0 ]))

train_agent_with_evaluation (
    agent ,
    env ,
    steps = 100 ,
    eval_n_steps = None ,
    eval_n_episodes = 1 ,
    eval_interval = 2 ,
    outdir = 'bloom—test' ,
)

print ( actor . predict ( observaton_list [ 0 ]))

예 - 176b Bloom

나를 클릭하십시오

Bloomz-176B 예

꽃잎 용량을 늘리기 위해 공공 떼에 기여하는 것이 좋습니다.

https://github.com/bigscience-workshop/petals

pip install petals -U

 import pfrl
from textrl import TextRLEnv , TextRLActor , train_agent_with_evaluation
from transformers import BloomTokenizerFast
from petals import DistributedBloomForCausalLM
import logging
import sys

logging . basicConfig ( level = logging . INFO , stream = sys . stdout , format = '' )

MODEL_NAME = "bigscience/bloom-petals"
tokenizer = BloomTokenizerFast . from_pretrained ( MODEL_NAME )
model = DistributedBloomForCausalLM . from_pretrained ( MODEL_NAME )
model = model . cuda ()


class MyRLEnv ( TextRLEnv ):
    def get_reward ( self , input_item , predicted_list , finish ):  # predicted will be the list of predicted token
        reward = [ 0 ]
        if finish :
            reward = [ 1 ]  # calculate reward score base on predicted_list
        return reward


observaton_list = [{ "input" : "explain how attention work in seq2seq model" }]
env = TextRLEnv ( model , tokenizer , observation_input = observaton_list , max_length = 20 , compare_sample = 2 )
actor = TextRLActor ( env , model , tokenizer ,
                    act_deterministically = False ,
                    temperature = 1.0 ,
                    top_k = 0 ,
                    top_p = 1.0 )
agent = actor . agent_ppo ( update_interval = 2 , minibatch_size = 2 , epochs = 10 )

print ( actor . predict ( observaton_list [ 0 ]))

train_agent_with_evaluation (
    agent ,
    env ,
    steps = 100 ,
    eval_n_steps = None ,
    eval_n_episodes = 1 ,
    eval_interval = 2 ,
    outdir = 'bloom—test' ,
)

print ( actor . predict ( observaton_list [ 0 ]))

예 - RL을 통한 제어 가능한 생성, Elon Musk가 Doge에 대해 병에 걸리도록합니다.

나를 클릭하십시오

[Elon Musk가 Doge에 대해 말할 수 있도록 RL을 통한 제어 가능한 생성] (https://github.com/voidful/textrl/blob/main/example/2022-12-10-textrl-elon-musk.ipynb)

Colab 예 : BigScience/Bloom-560m

Colab Exmaple : Huggingtweets/Elonmusk

이전 : i think dogecoin is a great idea.
후 : i think dogecoin is a great idea, but I think it is a little overused.

설치

PIP 설치

pip install pfrl@git+https://github.com/voidful/pfrl.git
pip install textrl

소스에서 빌드하십시오

이 프로젝트에 대한 클론과 CD.

pip install -e .

용법

에이전트 및 환경을 초기화하십시오

 import torch
from textrl import TextRLEnv , TextRLActor , train_agent_with_evaluation
from transformers import AutoModelForCausalLM , AutoTokenizer

checkpoint = "bigscience/bloomz-7b1-mt"

tokenizer = AutoTokenizer . from_pretrained ( checkpoint )
model = AutoModelForCausalLM . from_pretrained ( checkpoint , torch_dtype = "auto" , device_map = "auto" )

model = model . cuda ()

환경에 대한 보상 기능을 설정하십시오

예측 (목록 [str]) : 예측 된 토큰 목록이됩니다
마감 (bool) : 문장 끝에 도달했는지 여부

 class MyRLEnv ( TextRLEnv ):
    def get_reward ( self , input_item , predicted_list , finish ):
        if finish :
            reward = [ 0 ]  # calculate reward score based on predicted_list
        return reward

훈련 준비

Observation_list는 모델 교육을위한 가능한 모든 입력 문자열의 목록이어야합니다.
예 : observation_list = [{"input":'testing sent 1'},{"input":'testing sent 2'}]

 env = MyRLEnv ( model , tokenizer , observation_input = observation_list )
actor = TextRLActor ( env , model , tokenizer )
agent = actor . agent_ppo ( update_interval = 10 , minibatch_size = 2000 , epochs = 20 )

기차

 n_episodes = 1000
max_episode_len = 200  # max sentence length

for i in range ( 1 , n_episodes + 1 ):
    obs = env . reset ()
    R = 0
    t = 0
    while True :
        action = agent . act ( obs )
        obs , reward , done , pred = env . step ( action )
        R += reward
        t += 1
        reset = t == max_episode_len
        agent . observe ( obs , reward , done , reset )
        if done or reset :
            break
    if i % 10 == 0 :
        print ( 'episode:' , i , 'R:' , R )
    if i % 50 == 0 :
        print ( 'statistics:' , agent . get_statistics ())
print ( 'Finished.' )

훈련하는 또 다른 방법 :

 import logging
import sys

logging . basicConfig ( level = logging . INFO , stream = sys . stdout , format = '' )

train_agent_with_evaluation (
    agent ,
    env ,
    steps = 1000 ,
    eval_n_steps = None ,
    eval_n_episodes = 1500 ,
    train_max_episode_len = 50 ,
    eval_interval = 10000 ,
    outdir = 'somewhere' ,
)

예측

 agent . load ( "somewhere/best" )  # loading the best model
actor . predict ( "input text" )

이 업데이트 된 사용법 섹션은 에이전트와 환경을 초기화하고 환경에 대한 보상 기능을 설정하고 교육 준비, 모델 훈련 및 예측 방법에 대한 포괄적 인 안내서를 제공합니다. 또한 train_agent_with_evaluation 기능을 사용하여 모델을 교육하는 대체 방법도 포함되어 있습니다.

Huggingface의 모델에 훈련 된 모델을 덤프합니다

textrl-dump --model ./model_path_before_rl --rl ./rl_path --dump ./output_dir

RL 교육을위한 주요 매개 변수

RL을 사용하여 언어 모델을 정합하려면 보상 기능을 수정해야합니다.

 from textrl import TextRLEnv

class MyRLEnv ( TextRLEnv ):
    def get_reward ( self , input_item , predicted_list , finish ):
        # input_item is the prompt input for the model, it will be one of your observation
        # an observation will be a list of sentence of eg: ['inputted sentence','xxx','yyy']
        # only the first input will feed to the model 'inputted sentence', and 
        # the remaining can be the reference for reward calculation

        # predicted_list is the list of predicted sentences of RL model generated,
        # it will be used for ranking reward calculation

        # finish is the end of sentences flags, get_reward will be called during generating each word, and 
        # when finish is True, it means the sentence is finished, it will use for sentence level reward calculation.

        # reward should be the list equal to the length of predicted_list
        return reward

다양한 예제 샘플링을위한 매개 변수 :

 actor = TextRLActor ( env , model , tokenizer ,
                    act_deterministically = False ,  # select the max probability token for each step or not
                    temperature = 1 ,                # temperature for sampling
                    compare_sample = 2 ,             # num of sample to rank
                    top_k = 0 ,                      # top k sampling
                    top_p = 1.0 ,)                    # top p sampling

강화 학습 (RL) 모델을 교육 할 때 최적의 성능을 보장하기 위해 몇 가지 주요 매개 변수를 조정해야합니다. 다음은 중요한 매개 변수와 그 설명 목록입니다.

업데이트 간격 : RL 에이전트가 수집 된 경험에 따라 정책을 얼마나 자주 업데이트하는지 결정합니다. 더 작은 업데이트 간격은 에이전트가 최근 경험에서 더 자주 배우는 반면, 더 큰 간격은 학습 전에 더 많은 경험을 축적 할 수있게합니다. 위의 예에서 업데이트 간격은 10으로 설정됩니다.

 update_interval = 10

Minibatch Size : 경험 재생 버퍼에서 샘플링 된 경험의 수는 그라디언트 업데이트를 계산합니다. Minibatch 크기가 커지면 학습을 안정화시키고 차이를 줄이는 데 도움이되지만 계산 요구 사항이 증가하는 비용으로 비용이 듭니다.

 minibatch_size = 2000

Epochs : 에이전트가 전체 Minibatch를 통해 반복하여 정책을 업데이트합니다. 더 많은 에포크는 학습을 더 잘 초래할 수 있지만 과적으로 적합한 위험을 증가시킬 수 있습니다.

 epochs = 20

할인 요인 (Gamma) :이 매개 변수는 예상 수익을 계산할 때 미래의 보상이 얼마나 할인되는지를 결정합니다. 1에 가까운 값은 에이전트가 더 멀리 떨어진 반면, 0에 가까운 값은 에이전트가 즉각적인 보상에 더 집중하게 만듭니다.

 gamma = 0.99

학습 속도 : 정책 업데이트에 사용되는 단계 크기. 학습 속도가 더 커지면 수렴이 빠를 수 있지만 학습의 불안정성을 초래할 수 있으며 학습 속도가 작을수록 수렴이 느려지는 비용으로 안정적인 학습을 보장합니다.

 lr = 1e-4

Epsilon : PPO 알고리즘에 사용 된 매개 변수는 정책 비율을 클립합니다. 이를 통해 정책 업데이트의 규모를 제어하여 학습을 불안정하게 할 수있는 과도하게 큰 업데이트를 방지합니다.

 epsilon = 0.2

엔트로피 계수 :이 매개 변수는 특정 조치를 덜 취하기위한 보너스 보상을 추가하여 탐사를 장려합니다. 더 높은 엔트로피 계수는 더 많은 탐사를 촉진하는 반면, 낮은 계수는 에이전트가 알려진 전략을 이용하는 데 중점을 둡니다.

 entropy_coef = 0.01

훈련 단계 : 교육 중에 대리인이 취하는 총 단계 수. 더 많은 단계는 일반적으로 더 나은 학습으로 이어지지만 더 많은 계산 시간이 필요할 수 있습니다.

 steps = 1000

평가 간격 : 평가 간 교육 단계 수. 평가 간격을 높이면 평가에 소요되는 계산 시간이 줄어들지 만 에이전트의 진행 상황을 모니터링 할 수있는 빈도를 줄일 수도 있습니다.

 eval_interval = 10000

최대 에피소드 길이 : 훈련 중에 단일 에피소드에서 허용되는 최대 단계 수입니다. 이렇게하면 에이전트가 길고 비생산적인 에피소드에 갇히지 못하게 할 수 있습니다.

 train_max_episode_len = 50

이러한 매개 변수는 최상의 성능을 달성하기 위해 특정 문제와 환경에 따라 신중하게 조정해야합니다. 일반적으로 기본값으로 시작한 다음 관찰 된 학습 행동에 따라 조정하는 것이 좋습니다.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-04-18
크기 387.79KB
출처 Github

TextRL

Textrl : 강화 학습을 가진 텍스트 생성

목차

소개

예 - `gpt2`

GPT2 예

예 - `flan-t5`

예제 코드

예 `bigscience/bloomz-7b1-mt`

Bloomz-7B1-MT 예제

예 - 176b Bloom

Bloomz-176B 예

예 - RL을 통한 제어 가능한 생성, Elon Musk가 Doge에 대해 병에 걸리도록합니다.

설치

PIP 설치

소스에서 빌드하십시오

용법

에이전트 및 환경을 초기화하십시오

환경에 대한 보상 기능을 설정하십시오

훈련 준비

기차

예측

Huggingface의 모델에 훈련 된 모델을 덤프합니다

RL 교육을위한 주요 매개 변수

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

TextRL

Textrl : 강화 학습을 가진 텍스트 생성

목차

소개

예 - gpt2

GPT2 예

예 - flan-t5

예제 코드

예 bigscience/bloomz-7b1-mt

Bloomz-7B1-MT 예제

예 - 176b Bloom

Bloomz-176B 예

예 - RL을 통한 제어 가능한 생성, Elon Musk가 Doge에 대해 병에 걸리도록합니다.

설치

PIP 설치

소스에서 빌드하십시오

용법

에이전트 및 환경을 초기화하십시오

환경에 대한 보상 기능을 설정하십시오

훈련 준비

기차

예측

Huggingface의 모델에 훈련 된 모델을 덤프합니다

RL 교육을위한 주요 매개 변수

예 - `gpt2`

예 - `flan-t5`

예 `bigscience/bloomz-7b1-mt`