Descarga HumanPrompt - Descargar el código fuente HumanPrompt

HumanPrompt

HumanPrompt es un marco para un diseño humano en el circuito más fácil, administrar, compartir y usar métodos rápidos y rápidos. Está especialmente diseñado para investigadores. ¿Todavía está en progreso?, Damos la bienvenida a nuevas contribuciones sobre métodos y módulos. Mira nuestra propuesta aquí.

Contenido

Para empezar
Para acelerar su investigación
- Configuración
- Experimento de ejecución
Arquitectura
Que contribuye
- Precomito
Utilizado por
Citación

Para empezar

En primer lugar, clona este repositorio, luego ejecute:

pip install -e .

Esto instalará el paquete HumanPrompt y agregará un centro de enlace suave a ./humanprompt/artifacts/hub .

Luego debe establecer algunas variables ambientales como la tecla API OpenAI:

 export OPENAI_API_KEY = " YOUR_OPENAI_API_KEY "

Luego, depende de cómo usará este repositorio. Por ahora, la misión de este repositorio es ayudar a los investigadores a verificar sus ideas. Por lo tanto, hacemos que sea realmente flexible extender y usar.

Un ejemplo mínimo para ejecutar un método es el siguiente:

Nuestro uso es bastante simple, es casi similar si ha usado Huggingface Transformers antes.

Por ejemplo, use la cadena de pensamiento en Commonsenseqa:

 from humanprompt . methods . auto . method_auto import AutoMethod
from humanprompt . tasks . dataset_loader import DatasetLoader

# Get one built-in method
method = AutoMethod . from_config ( method_name = "cot" )

# Get one dataset, select one example for demo
data = DatasetLoader . load_dataset ( dataset_name = "commonsense_qa" , dataset_split = "test" )
data_item = data [ 0 ]

# Adapt the raw data to the method's input format, (we will improve this part later)
data_item [ "context" ] = "Answer choices: {}" . format (
        " " . join (
            [
                "({}) {}" . format ( label . lower (), text . lower ())
                for label , text in zip (
                data_item [ "choices" ][ "label" ], data_item [ "choices" ][ "text" ]
            )
            ]
        )
    )

# Run the method
result = method . run ( data_item )
print ( result )
print ( data_item )

Text2SQL de disparo cero:

 import os
from humanprompt . methods . auto . method_auto import AutoMethod
from humanprompt . tasks . dataset_loader import DatasetLoader

method = AutoMethod . from_config ( "db_text2sql" )
data = DatasetLoader . load_dataset ( dataset_name = "spider" , dataset_split = "validation" )
data_item = data [ 0 ]

data_item [ "db" ] = os . path . join (
data_item [ "db_path" ], data_item [ "db_id" ], data_item [ "db_id" ] + ".sqlite"
)

result = method . run ( data_item )
print ( result )
print ( data_item )

Para acelerar su investigación

Configuración

Adoptamos el paradigma "una configuración, un experimento" para facilitar la investigación, especialmente cuando comparamos diferentes métodos de indicación. En el archivo de configuración de cada experimento (.yaml) en examples/configs/ , puede configurar el conjunto de datos, el método de solicitud y las métricas.

El siguiente es un ejemplo de archivo de configuración para el método de cadena de pensamiento en GSM8K:

---
  dataset :
    dataset_name : " gsm8k "                # dataset name, aligned with huggingface dataset if loaded from it
    dataset_split : " test "                # dataset split
    dataset_subset_name : " main "          # dataset subset name, null if not used
    dataset_key_map :                     # mapping original dataset keys to humanprompt task keys to unify the interface
      question : " question "
      answer : " answer "
  method :
    method_name : " cot "                   # method name to initialize the prompting method class
    method_config_file_path : null        # method config file path, null if not used(will be overriden by method_args).
    method_args :
      client_name : " openai "              # LLM API client name, adopted from github.com/HazyResearch/manifest
      transform : " cot.gsm8k.transform_cot_gsm8k.CoTGSM8KTransform "  # user-defined transform class to build the prompts
      extract : " cot.gsm8k.extract_cot_gsm8k.CoTGSM8KExtract "        # user-defined extract class to extract the answers from output
      extraction_regex : " .*The answer is (.*). n ? "                  # user-defined regex to extract the answer from output
      prompt_file_path : " cot/gsm8k/prompt.txt "                      # prompt file path
      max_tokens : 512                    # max generated tokens
      temperature : 0                     # temperature for generated tokens
      engine : code-davinci-002           # LLM engine
      stop_sequence : " nn "              # stop sequence for generation
  metrics :
    - " exact_match "                      # metrics to evaluate the results

Los usuarios pueden crear las clases transform y extract para personalizar el proceso de extracción de generación y respuesta. El archivo de solicitud se puede reemplazar o especificar de acuerdo con la necesidad del usuario.

Experimento de ejecución

Para ejecutar experimentos, puede especificar el nombre del experimento y otras configuraciones meta en línea de comando en examples/ directorio.

Por ejemplo, ejecute el siguiente comando para ejecutar la cadena de pensamiento en GSM8K:

python run_experiment.py
  --exp_name cot-gsm8k
  --num_test_samples 300

Para una nueva combinación de métodos y tareas, simplemente puede agregar un nuevo archivo de configuración en examples/configs/ y ejecutar el comando.

Arquitectura

 .
├── examples
│   ├── configs                    # config files for experiments
│   ├── main.py                    # one sample demo script
│   └── run_experiment.py          # experiment script
├── hub                            # hub contains static files for methods and tasks
│   ├── cot                        # method Chain-of-Thought
│   │   ├── gsm8k                  # task GSM8K, containing prompt file and transform/extract classes, etc.
│   │   └── ...
│   ├── ama_prompting              # method Ask Me Anything
│   ├── binder                     # method Binder
│   ├── db_text2sql                # method text2sql
│   ├── react                      # method ReAct
│   ├── standard                   # method standard prompting
│   └── zero_shot_cot              # method zero-shot Chain-of-Thought
├── humanprompt                    # humanprompt package, containing building blocks for the complete prompting pipeline
│   ├── artifacts
│   │   ├── artifact.py
│   │   └── hub
│   ├── components                 # key components for the prompting pipeline
│   │   ├── aggregate              # aggregate classes to aggregate the answers
│   │   ├── extract                # extract classes to extract the answers from output
│   │   ├── post_hoc.py            # post-hoc processing
│   │   ├── prompt.py              # prompt classes to build the prompts
│   │   ├── retrieve               # retrieve classes to retrieve in-context examples
│   │   └── transform              # transform classes to transform the raw data to the method's input format
│   ├── evaluators                 # evaluators
│   │   └── evaluator.py           # evaluator class to evaluate the dataset results
│   ├── methods                    # prompting methods, usually one method is related to one paper
│   │   ├── ama_prompting          # Ask Me Anything(https://arxiv.org/pdf/2210.02441.pdf)
│   │   ├── binder                 # Binder(https://arxiv.org/pdf/2210.02875.pdf)
│   │   └── ...
│   ├── tasks                      # dataset loading and preprocessing
│   │   ├── add_sub.py             # AddSub dataset
│   │   ├── wikitq.py              # WikiTableQuestions dataset
│   │   └── ...
│   ├── third_party                # third party packages
│   └── utils                      # utils
│       ├── config_utils.py
│       └── integrations.py
└── tests                          # test scripts
    ├── conftest.py
    ├── test_datasetloader.py
    └── test_method.py

Que contribuye

Este repositorio está diseñado para que los investigadores proporcionen un uso rápido y una fácil manipulación de diferentes métodos inmediatos. Pasamos mucho tiempo en facilitar la extensión y el uso, por lo tanto, esperamos que pueda contribuir a este repositorio.

Si está interesado en contribuir con su método a este marco, puede:

Llegue un problema sobre su método requerido, y lo agregaremos a nuestra lista de TODO e implementaremos lo antes posible.
Agregue su método a la carpeta humanprompt/methods usted mismo. Para hacer eso, debe seguir los siguientes pasos:
1. Clon el repositorio.
2. Cree una rama de la rama main , llamado Métodos.
3. Comprometer su código en su rama, necesita:
  1. Agregue código en ./humanprompt/methods y agregue su método a ./humanprompt/methods/your_method_name ,
  2. Crea un centro de tu método en ./hub/your_method_name ,
  3. Asegúrese de tener una carpeta ./examples en ./hub/your_method_name para configurar el uso básico de este método,
  4. Una demostración mínima en ./examples para ejecutar y probar su método.
4. Cree una demostración de uso en la carpeta ./examples.
5. Requiere un PR para fusionar su rama en la rama main .
6. Nos encargaremos de los últimos pasos para que su método esté bien integrado en este marco.

Precomito

Utilizamos pre-Commit para controlar la calidad del código. Antes de comprometerse, asegúrese de ejecutar el código a continuación para repasar su código y solucionar los problemas.

 pip install pre-commit
pre-commit install # install all hooks
pre-commit run --all-files # trigger all hooks

Puede usar git commit --no-verify para omitir y permitirnos manejarlo más adelante.

Utilizado por

Solicitante por lotes

Citación

Si encuentra útil este repositorio, cite nuestro proyecto y manifiesto:

 @software { humanprompt ,
  author = { Tianbao Xie and
            Zhoujun Cheng and
            Yiheng Xu and
            Peng Shi and
            Tao Yu } ,
  title = { A framework for human-readable prompt-based method with large language models } ,
  howpublished = { url{https://github.com/hkunlp/humanprompt} } ,
  year = 2022 ,
  month = October
}

 @misc { orr2022manifest ,
  author = { Orr, Laurel } ,
  title = { Manifest } ,
  year = { 2022 } ,
  publisher = { GitHub } ,
  howpublished = { url{https://github.com/HazyResearch/manifest} } ,
}