Download do OpenPrompt - Download do código fonte OpenPrompt

OpenPrompt

Outro código-fonte

v1.0.0

Baixar

Uma estrutura de código aberto para aprendizado rápido.

Visão geral • Instalação • Como usar • Documentos • Papel • Citação • Desempenho •

O que há de novo?

❗️ Abril de 2023: $ color {Red} { normalsize { textbf {quer construir seu bate -papo ai?}}} $ Estamos lançando ultrachat, use o OpenPrompt e Ultrachat para realizar ajustes de instruções supervisionadas, consulte ./tutorial/9_UltraChat.py .
Agosto de 2022: Obrigado ao colaborador Zhiyongliu1114, o OpenPrompt agora suporta o Ernie 1.0 no Paddlepaddle.
Julho de 2022: o OpenPrompt suporta opt agora.
Junho de 2022: OpenPrompt vence o prêmio de melhor documento de demonstração da ACL 2022.
Mar 2022: Adicionamos um tutorial como a resposta à edição 124, que usa um tokenizer_wrapper personalizado para executar tarefas que não estão na configuração padrão do OpenPrompt (por exemplo, Bert Tokenizer+T5 Model）.
Fevereiro de 2022: Confira nossa irmã repo Opendelta!
Dezembro de 2021: pip install openprompt
Dezembro de 2021: o desempenho da supercola é adicionado
Dezembro de 2021: Apoiamos o paradigma da geração de todas as tarefas adicionando um novo verbalizador: generationVerbAlizer e um tutorial: 4.1_all_tasks_are_generation.py
Novembro de 2021: Agora lançamos um artigo OpenPrompt: uma estrutura de código aberto para aprendizado rápido.
Nov 2021 PrefixTuning suporta T5 agora.
Nov 2021: Fazemos algumas alterações importantes na última versão, onde uma linguagem de modelo flexível é introduzida recentemente! Parte dos documentos está desatualizada e o consertaremos em breve.

Visão geral

O prompt-learning é o mais recente paradigma a adaptar os modelos de idiomas pré-treinados (PLMs) às tarefas a jusante do PNL, que modifica o texto de entrada com um modelo textual e usa diretamente PLMs para realizar tarefas pré-treinadas. Esta biblioteca fornece uma estrutura padrão, flexível e extensível para implantar o pipeline de aprendizado rápido. O OpenPrompt suporta o carregamento de PLMs diretamente dos Transformers do Huggingface. No futuro, também apoiaremos PLMs implementados por outras bibliotecas. Para obter mais recursos sobre o aprendizado rápido, consulte nossa lista de papel.

O que você pode fazer via OpenPrompt?

demonstração

Use as implementações das abordagens de aprendizado de prompt atuais.* Implementamos vários métodos de solicitação, incluindo estratégias de modelagem, verbalização e otimização sob um padrão unificado. Você pode ligar e entender facilmente esses métodos.
Projete seu próprio trabalho de aprendizado rápido. Com a extensibilidade do OpenPrompt, você pode praticar rapidamente suas idéias de aprendizado rápido.

Instalação

NOTA: Por favor, use o Python 3.8+ para o OpenPrompt

Usando pip

Nosso repositório é testado no Python 3.8+ e Pytorch 1.8.1+ , instale o OpenPrompt usando o PIP da seguinte forma:

pip install openprompt

Para jogar com os recursos mais recentes, você também pode instalar o OpenPrompt a partir da fonte.

Usando git

Clone o repositório do GitHub:

git clone https://github.com/thunlp/OpenPrompt.git
cd OpenPrompt
pip install -r requirements.txt
python setup.py install

Modificar o código

 python setup.py develop

Use OpenPrompt

Conceitos de base

Um objeto PromptModel contém um Template PLM , um (ou múltiplo) e um (ou múltiplo) Verbalizer , onde a classe Template é definida para envolver a entrada original com os modelos, e a classe Verbalizer é construir uma projeção entre rótulos e palavras -alvo no vocabulário atual. E um objeto PromptModel participa praticamente de treinamento e inferência.

Introdução por um exemplo simples

Com a modularidade e a flexibilidade do OpenPrompt, você pode facilmente desenvolver um pipeline de aprendizado rápido.

Etapa 1: Defina uma tarefa

A primeira etapa é determinar a tarefa atual da PNL, pense na aparência dos seus dados e como você deseja dos dados! Ou seja, a essência desta etapa é determinar as classes e o InputExample da tarefa. Por simplicidade, usamos a análise de sentimentos como exemplo. tutorial_task.

 from openprompt . data_utils import InputExample
classes = [ # There are two classes in Sentiment Analysis, one for negative and one for positive
    "negative" ,
    "positive"
]
dataset = [ # For simplicity, there's only two examples
    # text_a is the input text of the data, some other datasets may have multiple input sentences in one example.
    InputExample (
        guid = 0 ,
        text_a = "Albert Einstein was one of the greatest intellects of his time." ,
    ),
    InputExample (
        guid = 1 ,
        text_a = "The film was badly made." ,
    ),
]

Etapa 2: Defina um modelos de idiomas pré-treinado (PLMS) como backbone.

Escolha um PLM para apoiar sua tarefa. Modelos diferentes têm atributos diferentes, incentivamos você a usar o OpenPrompt para explorar o potencial de vários PLMs. O OpenPrompt é compatível com os modelos no HuggingFace.

 from openprompt . plms import load_plm
plm , tokenizer , model_config , WrapperClass = load_plm ( "bert" , "bert-base-cased" )

Etapa 3: defina um modelo.

Um Template é um modificador do texto de entrada original, que também é um dos módulos mais importantes no aprendizado rápido. Nós definimos text_a na etapa 1.

 from openprompt . prompts import ManualTemplate
promptTemplate = ManualTemplate (
    text = '{"placeholder":"text_a"} It was {"mask"}' ,
    tokenizer = tokenizer ,
)

Etapa 4: Defina um verbalizador

Um Verbalizer é outro importante (mas não necessário) no aprendizado rápido, que projeta os rótulos originais (nós os definimos como classes , lembra?) Para um conjunto de palavras de etiqueta. Aqui está um exemplo de que projetamos a classe negative para a palavra ruim e projetamos a classe positive para as palavras boas, maravilhosas, ótimas.

 from openprompt . prompts import ManualVerbalizer
promptVerbalizer = ManualVerbalizer (
    classes = classes ,
    label_words = {
        "negative" : [ "bad" ],
        "positive" : [ "good" , "wonderful" , "great" ],
    },
    tokenizer = tokenizer ,
)

Etapa 5: Combine -os em um modelo de prompt

Dada a tarefa, agora temos um PLM , um Template e um Verbalizer , combinamos -os em um PromptModel . Observe que, embora o exemplo combine ingenuamente os três módulos, você pode definir algumas interações complicadas entre eles.

 from openprompt import PromptForClassification
promptModel = PromptForClassification (
    template = promptTemplate ,
    plm = plm ,
    verbalizer = promptVerbalizer ,
)

Etapa 6: Defina um Dataloader

Um PromptDataLoader é basicamente uma versão rápida do Pytorch Dataloader, que também inclui um Tokenizer , um Template e um TokenizerWrapper .

 from openprompt import PromptDataLoader
data_loader = PromptDataLoader (
    dataset = dataset ,
    tokenizer = tokenizer ,
    template = promptTemplate ,
    tokenizer_wrapper_class = WrapperClass ,
)

Etapa 7: trem e inferência

Feito! Podemos realizar treinamento e inferência o mesmo que outros processos em Pytorch.

 import torch

# making zero-shot inference using pretrained MLM with prompt
promptModel . eval ()
with torch . no_grad ():
    for batch in data_loader :
        logits = promptModel ( batch )
        preds = torch . argmax ( logits , dim = - 1 )
        print ( classes [ preds ])
# predictions would be 1, 0 for classes 'positive', 'negative'

Consulte nossos scripts do tutorial e documentação para obter mais detalhes.

Conjuntos de dados

Fornecemos uma série de scripts de download no dataset/ pasta, sinta -se à vontade para usá -los para baixar os benchmarks.

Relatório de desempenho

Existem muitas combinações possíveis alimentadas pelo OpenPrompt. Estamos tentando o nosso melhor para testar o desempenho de diferentes métodos o mais rápido possível. O desempenho será atualizado constantemente para as tabelas. Também incentivamos os usuários a encontrar os melhores hiper-parâmetros para suas próprias tarefas e relatar os resultados fazendo a solicitação de tração.

Questões conhecidas

Grande melhoria/aprimoramento no futuro.

Fizemos algumas mudanças importantes na última versão, então parte dos documentos está desatualizada. Vamos consertar em breve.

Citação

Cite nosso artigo se você usar o OpenPrompt em seu trabalho

 @article { ding2021openprompt ,
  title = { OpenPrompt: An Open-source Framework for Prompt-learning } ,
  author = { Ding, Ning and Hu, Shengding and Zhao, Weilin and Chen, Yulin and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong } ,
  journal = { arXiv preprint arXiv:2111.01998 } ,
  year = { 2021 }
}

Colaboradores

Agradecemos a todos os colaboradores deste projeto, mais colaboradores são bem -vindos!

Expandir

Informações adicionais

Versão v1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-28
tamanho 2.51MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos