Descargar OpenPrompt - Descargar el código fuente de OpenPrompt

OpenPrompt

Otro código fuente

v1.0.0

Descargar

Un marco de código abierto para el aprendizaje adicional.

Descripción general • Instalación • Cómo usar • Docios • Papel • Cita • rendimiento •

¿Qué hay de nuevo?

❗️ Abril de 2023: $ color {rojo} { normalSize { textbf {quiere construir su chat ai?}}} $ Estamos lanzando Ultrachat, usamos OpenPrompt y Ultrachat para realizar un ajuste de instrucciones supervisado, consulte ./tutorial/9_UltraChat.py .
Agosto de 2022: Gracias al contribuyente Zhiyongliu1114, OpenPrompt ahora es compatible con Ernie 1.0 en Paddlepaddle.
Julio de 2022: OpenPrompt admite OPT ahora.
Junio de 2022: OpenPrompt gana ACL 2022 Premio al Mejor Papel de demostración.
MAR 2022: Agregamos un tutorial como respuesta al problema 124, que utiliza un tokenizer_wrapper personalizado para realizar tareas que no están en la configuración predeterminada de OpenPrompt (por ejemplo, el modelo Bert Tokenizer+T5）.
Febrero de 2022: ¡Mira la opendelta de nuestro repositorio de la hermana!
Diciembre de 2021: pip install openprompt
Dic 2021: se agregan el rendimiento del superglue
Dic 2021: Apoyamos el paradigma de generación para todas las tareas agregando un nuevo verbalizador: GenerationValizer y un tutorial: 4.1_all_tasks_are_generation.py
Nov 2021: Ahora hemos lanzado un documento OpenPrompt: un marco de código abierto para el aprendizaje adicional.
Nov 2021 prefixtuning admite T5 ahora.
Nov 2021: ¡Hicimos algunos cambios importantes con respecto a la última versión, donde se introduce un lenguaje de plantilla flexible! Parte de los documentos está desactualizado y lo arreglaremos pronto.

Descripción general

El aprendizaje adicional es el último paradigma para adaptar los modelos de lenguaje previamente capacitados (PLMS) a las tareas de NLP aguas abajo, que modifica el texto de entrada con una plantilla textual y usa directamente PLMS para realizar tareas previamente capacitadas. Esta biblioteca proporciona un marco estándar, flexible y extensible para implementar la tubería de aprendizaje de aviso. OpenPrompt admite la carga de PLM directamente de Huggingface Transformers. En el futuro, también admitiremos PLM implementados por otras bibliotecas. Para obtener más recursos sobre el aprendizaje adicional, consulte nuestra lista de documentos.

¿Qué puedes hacer a través de OpenPrompt?

manifestación

Utilice las implementaciones de los enfoques de aprendizaje de inmediato actual.* Hemos implementado varios métodos de indicación, incluidas las estrategias de plantilla, verbalización y optimización bajo un estándar unificado. Puede llamar fácilmente y comprender estos métodos.
Diseñe su propio trabajo de aprendizaje rápido. Con la extensibilidad de OpenPrompt, puede practicar rápidamente sus ideas de aprendizaje de inmediato.

Instalación

Nota: Utilice Python 3.8+ para OpenPrompt

Usando Pip

Nuestro repositorio se prueba en Python 3.8+ y Pytorch 1.8.1+ , instale OpenPrompt usando PIP de la siguiente manera:

pip install openprompt

Para jugar con las últimas funciones, también puede instalar OpenPrompt desde la fuente.

Usando git

Clon el repositorio de GitHub:

git clone https://github.com/thunlp/OpenPrompt.git
cd OpenPrompt
pip install -r requirements.txt
python setup.py install

Modificar el código

 python setup.py develop

Usar OpenPrompt

Conceptos base

Un objeto PromptModel contiene una plantación PLM , una Template (o múltiple) y un Verbalizer (o múltiple), donde la clase Template se define para envolver la entrada original con plantillas, y la clase Verbalizer es construir una proyección entre etiquetas y palabras de destino en el vocabulario actual. Y un objeto PromptModel prácticamente participa en capacitación e inferencia.

Introducción por un ejemplo simple

Con la modularidad y flexibilidad de OpenPrompt, puede desarrollar fácilmente una tubería de aprendizaje de aviso.

Paso 1: Defina una tarea

El primer paso es determinar la tarea NLP actual, pensar en cómo se ven sus datos y cómo desea de los datos. Es decir, la esencia de este paso es determinar las classes y la InputExample de la tarea. Para simplificar, utilizamos el análisis de sentimientos como ejemplo. Tutorial_task.

 from openprompt . data_utils import InputExample
classes = [ # There are two classes in Sentiment Analysis, one for negative and one for positive
    "negative" ,
    "positive"
]
dataset = [ # For simplicity, there's only two examples
    # text_a is the input text of the data, some other datasets may have multiple input sentences in one example.
    InputExample (
        guid = 0 ,
        text_a = "Albert Einstein was one of the greatest intellects of his time." ,
    ),
    InputExample (
        guid = 1 ,
        text_a = "The film was badly made." ,
    ),
]

Paso 2: Defina un modelos de lenguaje previamente capacitados (PLMS) como columna vertebral.

Elija un PLM para apoyar su tarea. Diferentes modelos tienen diferentes atributos, le anotamos que use OpenPrompt para explorar el potencial de varios PLM. OpenPrompt es compatible con modelos en Huggingface.

 from openprompt . plms import load_plm
plm , tokenizer , model_config , WrapperClass = load_plm ( "bert" , "bert-base-cased" )

Paso 3: Defina una plantilla.

Una Template es un modificador del texto de entrada original, que también es uno de los módulos más importantes en el aprendizaje adicional. Hemos definido text_a en el paso 1.

 from openprompt . prompts import ManualTemplate
promptTemplate = ManualTemplate (
    text = '{"placeholder":"text_a"} It was {"mask"}' ,
    tokenizer = tokenizer ,
)

Paso 4: Defina un verbalizador

Un Verbalizer es otro importante (pero no necesario) en el aprendizaje inmediato, que proyecta las etiquetas originales (las hemos definido como classes , ¿recuerdas?) A un conjunto de palabras de etiqueta. Aquí hay un ejemplo de que proyectamos la clase negative a la palabra mala, y proyectamos la clase positive a las palabras buenas, maravillosas, geniales.

 from openprompt . prompts import ManualVerbalizer
promptVerbalizer = ManualVerbalizer (
    classes = classes ,
    label_words = {
        "negative" : [ "bad" ],
        "positive" : [ "good" , "wonderful" , "great" ],
    },
    tokenizer = tokenizer ,
)

Paso 5: Combínalos en un Modelo pridal

Dada la tarea, ahora tenemos un PLM , una Template y un Verbalizer , los combinamos en un PromptModel . Tenga en cuenta que aunque el ejemplo combina ingenuamente los tres módulos, en realidad puede definir algunas interacciones complicadas entre ellos.

 from openprompt import PromptForClassification
promptModel = PromptForClassification (
    template = promptTemplate ,
    plm = plm ,
    verbalizer = promptVerbalizer ,
)

Paso 6: Defina un dataloader

Un PromptDataLoader es básicamente una versión rápida de Pytorch DataLoader, que también incluye un Tokenizer , una Template y un TokenizerWrapper .

 from openprompt import PromptDataLoader
data_loader = PromptDataLoader (
    dataset = dataset ,
    tokenizer = tokenizer ,
    template = promptTemplate ,
    tokenizer_wrapper_class = WrapperClass ,
)

Paso 7: Tren e inferencia

¡Hecho! Podemos realizar capacitación e inferencia lo mismo que otros procesos en Pytorch.

 import torch

# making zero-shot inference using pretrained MLM with prompt
promptModel . eval ()
with torch . no_grad ():
    for batch in data_loader :
        logits = promptModel ( batch )
        preds = torch . argmax ( logits , dim = - 1 )
        print ( classes [ preds ])
# predictions would be 1, 0 for classes 'positive', 'negative'

Consulte nuestros scripts de tutoriales y documentación para obtener más detalles.

Conjuntos de datos

Proporcionamos una serie de scripts de descarga en el dataset/ carpeta, no dude en usarlos para descargar puntos de referencia.

Informe de rendimiento

Hay demasiadas combinaciones posibles impulsadas por OpenPrompt. Estamos haciendo todo lo posible para probar el rendimiento de los diferentes métodos lo antes posible. El rendimiento se actualizará constantemente en las tablas. También alentamos a los usuarios a encontrar los mejores hiperparametros para sus propias tareas e informar los resultados realizando una solicitud de extracción.

Problemas conocidos

Mejora/mejora importantes en el futuro.

Hicimos algunos cambios importantes desde la última versión, por lo que parte de los documentos está desactualizado. Lo arreglaremos pronto.

Citación

Por favor cita nuestro documento si usa OpenPrompt en su trabajo

 @article { ding2021openprompt ,
  title = { OpenPrompt: An Open-source Framework for Prompt-learning } ,
  author = { Ding, Ning and Hu, Shengding and Zhao, Weilin and Chen, Yulin and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong } ,
  journal = { arXiv preprint arXiv:2111.01998 } ,
  year = { 2021 }
}

Colaboradores

Agradecemos a todos los contribuyentes a este proyecto, ¡más contribuyentes son bienvenidos!

Expandir

Información adicional

Versión v1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-28
tamaño 2.51MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo