Descargar llms - Descargar código fuente de llms

Modelos de idiomas grandes (LLM)

Fuente una encuesta de modelos de idiomas grandes

Ver también

LMM: modelos multimodales grandes
AI Sistemas de agentes múltiples
Flujos de trabajo de agente

Contenido

¿Qué es un modelo de idioma?
Aplicaciones de modelos de idiomas
Modelado de lenguaje estadístico
Modelos de lenguaje neuronal (NLM)
Modelo de idioma condicional
Evaluación: ¿Qué tan bueno es nuestro modelo?
Modelos de idiomas basados en transformadores
LLMS práctico: GPT, Bert, Falcon, Llama, Codet5
Cómo generar texto utilizando diferentes métodos de decodificación
Ingeniería rápida
LLMS ajustado
Recuperación de generación aumentada (trapo)
Pregunte casi todo (txt, pdf, video, etc.)
Evaluación de sistemas basados en LLM
Agentes de IA
LLMS para la visión por computadora (TBD)
Más lecturas

Introducción: ¿Qué es un modelo de idioma?

Definición simple: el modelado de idiomas es la tarea de predecir qué palabra viene a continuación.

"El perro está jugando en el ..."

parque
bosque
nieve
oficina
universidad
Red neuronal
?

El objetivo principal de los modelos de idiomas es asignar una probabilidad a una oración, para distinguir entre las oraciones más probables y menos probables.

Aplicaciones de modelos de idiomas:

Traducción automática: P (vientos fuertes esta noche)> P (vientos grandes esta noche)
Corrección de ortografía: P (a unos quince minutos de)> P (a unos quince minuets de) desde)
Reconocimiento de voz: P (vi una furgoneta)> P (ojos asombrados de un)
Identificación de autoría: quién escribió algún texto de muestra
Resumen, respuesta de preguntas, bots de diálogo, etc.

Para el reconocimiento de voz, utilizamos no solo el modelo de acústica (la señal de habla), sino también un modelo de lenguaje. Del mismo modo, para el reconocimiento de caracteres ópticos (OCR), utilizamos un modelo de visión y un modelo de lenguaje. Los modelos de idiomas son muy importantes para tales sistemas de reconocimiento.

A veces, escucha o lee una oración que no está clara, pero utilizando su modelo de idioma, aún puede reconocerla con una alta precisión a pesar de la ruidosa entrada de visión/voz.

El modelo de idioma calcula cualquiera de:

La probabilidad de una próxima palabra: $ P (W_5 | W_1, W_2, W_3, W_4) $
La probabilidad de una oración o secuencia de palabras (según el modelo de lenguaje): $ P (W_1, W_2, W_3, ..., W_N) $

El modelado de idiomas es un subcomponente de muchas tareas de PNL, especialmente aquellas que involucran a la generación de texto o estimando la probabilidad de texto.

La regla de la cadena: $ P (x_1, x_2, x_3, ..., x_n) = p (x_1) p (x_2 | x_1) P (x_3 | x_1, x_2) ... p (x_n | x_1,…, x_ {n-1}) $

$ P (el agua, es, así, claro) = p (el) × p (agua | el) × p (es | el agua) × p (entonces | el agua, es) × p (claro | el agua, es, así) $

¿Qué acaba de pasar? La regla de la cadena se aplica para calcular la probabilidad conjunta de palabras en una oración.

Modelado de lenguaje estadístico:

modelos de idiomas n-gram

Usando una gran cantidad de texto (corpus como Wikipedia), recopilamos estadísticas sobre cuán frecuentemente son diferentes palabras, y las usamos para predecir la siguiente palabra. Por ejemplo, la probabilidad de que una palabra W viene después de estas tres palabras que los estudiantes abren las suyas se pueden estimar de la siguiente manera:

P (W | Los estudiantes abrieron su) = Conde (los estudiantes abrieron su w) / recuento (los estudiantes abrieron su)

El ejemplo anterior es un modelo de 4 gramos. Y podemos obtener:

P (libros | Los estudiantes abrieron su) = 0.4
P (autos | estudiantes, abierto, su) = 0.05
P (... | Estudiantes, abierto, su) = ...

Podemos concluir que la palabra "libros" es más probable que los "autos" en este contexto.

Ignoramos el contexto anterior antes de que "los estudiantes abrieran su"

En consecuencia, el texto arbitrario se puede generar a partir de un modelo de lenguaje dado las palabras iniciales, mediante el muestreo de la distribución de probabilidad de salida de la siguiente palabra, y así sucesivamente.

Podemos entrenar un LM en cualquier tipo de texto, luego generar texto en ese estilo (Harry Potter, etc.).

Podemos extender a trigramas, 4 gramos, 5 gramos y N-gramos.

En general, este es un modelo de lenguaje insuficiente porque el lenguaje tiene dependencias de larga distancia. Sin embargo, en la práctica, estos 3,4 gramos funcionan bien para la mayoría de las aplicaciones.

Construir modelos de lenguaje estadístico:

Kilets de herramientas

SRILM es un conjunto de herramientas para construir y aplicar modelos de lenguaje estadístico, principalmente para su uso en reconocimiento de voz, etiquetado estadístico y segmentación, y traducción automática. Ha estado en desarrollo en el Laboratorio de Investigación e Tecnología de Discurso de SRI desde 1995.
KenLM es un kit de herramientas rápido y escalable que construye y consulta modelos de lenguaje.

Modelos N-gram

Los modelos N-Gram de Google le pertenecen: Google Research ha estado utilizando modelos Word N-Gram para una variedad de proyectos de I + D. Google N-Gram procesó 1.024,908,267,229 palabras de texto en ejecución y publicó los recuentos para todas las 1,176,470,663 secuencias de cinco palabras que aparecen al menos 40 veces.

Los recuentos de texto del consorcio de datos de lingüística LDC son los siguientes:

 File sizes: approx. 24 GB compressed (gzip'ed) text files

Number of tokens:    1,024,908,267,229
Number of sentences:    95,119,665,584
Number of unigrams:         13,588,391
Number of bigrams:         314,843,401
Number of trigrams:        977,069,902
Number of fourgrams:     1,313,818,354
Number of fivegrams:     1,176,470,663

El siguiente es un ejemplo de los datos de 4 gramos en este corpus:

 serve as the incoming 92
serve as the incubator 99
serve as the independent 794
serve as the index 223
serve as the indication 72
serve as the indicator 120
serve as the indicators 45
serve as the indispensable 111
serve as the indispensible 40

Por ejemplo, la secuencia de las cuatro palabras "servir como indicación" se ha visto en el corpus 72 veces.

Limitaciones de los modelos de lenguaje estadístico

A veces no tenemos suficientes datos para estimar. El aumento de N empeoran los problemas de escasez. Por lo general, no podemos tener N más de 5.

Problema de dispersión 1: Cuenta (los estudiantes abrieron su w) = 0? Solución de suavizado: ¿Agregar pequeño? a la cuenta para cada W en el vocabulario.
Problema de dispersión 2: Cuenta (los estudiantes abrieron su) = 0? Solución de retroceso: condición activada (abrí su) en su lugar.
Problema de almacenamiento: necesita almacenar el conteo para todos los n-gramos que vio en el corpus. El aumento de N o el aumento del corpus aumenta el tamaño del almacenamiento.

Modelos de lenguaje neuronal (NLM)

NLM generalmente (pero no siempre) usa un RNN para aprender secuencias de palabras (oraciones, párrafos, ... etc.) y, por lo tanto, puede predecir la siguiente palabra.

Ventajas:

Puede procesar la entrada de longitud variable como cálculos para el paso T, use información desde muchos pasos (por ejemplo: RNN)
No hay problema de escasez (puede alimentar cualquier N-gram que no se vea en los datos de entrenamiento)
El tamaño del modelo no aumenta para una entrada más larga ( $ W_h, w_e, $ ), se aplican los mismos pesos en cada paso de tiempo y necesitan almacenar solo los vectores de palabras de vocabulario.

Como se muestra, en cada paso, tenemos una distribución de probabilidad de la siguiente palabra sobre el vocabulario.

Entrenamiento de un NLM:

Use un gran corpus de texto (una secuencia de palabras como Wikipedia)
Alimentar al NLM (un lote de oraciones); Calcule la distribución de salida para cada paso. (Predecir el distrito de probabilidad de cada palabra, hasta ahora)
Función de pérdida en cada paso T Entropía transversal entre la distribución de probabilidad predicha y la verdadera palabra siguiente (un punto)

Ejemplo de aprendizaje de secuencia larga:

¿El escritor de los libros ( es o es )?
Respuesta correcta: El escritor de los libros está planeando una secuela
Recancia sintáctica : el escritor de los libros es ( correcto )
Recancia secuencial : el escritor de los libros es ( incorrecto )

Desventajas:

El cálculo recurrente es lento (secuencial, un paso a la vez)
En la práctica, para secuencias largas, difícil para acceder a la información_ desde muchos pasos atrás

Modelo de idioma condicional

LM se puede utilizar para generar condiciones de texto en entrada (habla, imagen (OCR), texto, etc.) en diferentes aplicaciones, como: reconocimiento de voz, traducción automática, resumen, etc.

Evaluación: ¿Qué tan bueno es nuestro modelo?

¿Nuestro modelo de idioma prefiere oraciones buenas (probablemente) a las malas?

Evaluación extrínseca:

Para comparar los modelos A y B, coloque cada modelo en una tarea (ortografía, corrector, reconocimiento de voz, traducción automática)
Ejecute la tarea y compare la precisión de A y para B
¡La mejor evaluación pero no práctica y lento!

Evaluación intrínseca:

Intuición : el mejor modelo de idioma es uno que mejor predice un conjunto de pruebas invisibles (asigna una alta probabilidad a las oraciones).
La perplejidad es la métrica de evaluación estándar para los modelos de idiomas.
La perplejidad se define como la probabilidad inversa de un texto, según el modelo de lenguaje.
Un buen modelo de idioma debería dar una menor perplejidad para un texto de prueba. Específicamente, una menor perplejidad para un texto dado significa que el texto tiene una alta probabilidad en los ojos de ese modelo de lenguaje.

La métrica de evaluación estándar para los modelos de lenguaje es la perplejidad de la perplejidad es la probabilidad inversa del conjunto de pruebas, normalizada por el número de palabras

Menor perplejidad = mejor modelo

La perplejidad está relacionada con el factor de rama: en promedio, cuántas cosas podrían ocurrir a continuación.

Modelos de idiomas basados en transformadores

En lugar de RNN, usemos la atención. Usemos grandes modelos previamente capacitados

¿Cuál es el problema? Uno de los mayores desafíos en el procesamiento del lenguaje natural (PNL) es la escasez de datos de capacitación para muchas tareas distintas. Sin embargo, los modernos modelos de PNL basados en el aprendizaje profundo mejoran cuando se entrenan en millones o miles de millones de ejemplos de capacitación anotada.
El entrenamiento previo es la solución: para ayudar a cerrar esta brecha, se han desarrollado una variedad de técnicas para capacitar a los modelos de representación del lenguaje de uso general utilizando la enorme cantidad de texto no anotado. El modelo previamente capacitado se puede ajustar en pequeños datos para diferentes tareas, como la respuesta a las preguntas y el análisis de sentimientos, lo que resulta en mejoras de precisión sustanciales en comparación con la capacitación en estos conjuntos de datos desde cero.

La arquitectura del transformador se propuso en la atención del papel es todo lo que necesita, utilizada para la Tarea de Traducción del Autor Neural (NMT), que consiste en:

Encoder : Red que codifica la secuencia de entrada.
Decoder : Red que genera las secuencias de salida condicionadas en la entrada.

Como se menciona en el documento:

" Proponemos una nueva arquitectura de red simple, el transformador, basado únicamente en mecanismos de atención, dispensando por completo la recurrencia y las convoluciones "

La idea principal de atención se puede resumir como se menciona en el artículo de OpenAI:

" ... Cada elemento de salida está conectado a cada elemento de entrada, y las ponderaciones entre ellos se calculan dinámicamente en función de las circunstancias , un proceso llamó la atención".

Basado en esta arquitectura (¡los transformadores de vainilla!), Los componentes de codificadores o decodificadores se pueden usar solos para habilitar modelos genéricos masivos previamente capacitados que se pueden ajustar para tareas aguas abajo, como la clasificación de texto, la traducción, el resumen, la respuesta de preguntas, etc. Por ejemplo:

"Prerrevenimiento de transformadores bidireccionales profundos para la comprensión del lenguaje" Bert se basa principalmente en la arquitectura del codificador capacitado en conjuntos de datos de texto masivos para predecir palabras enmascaradas aleatorias y tareas de clasificación de "oración IS-next".
GPT, por otro lado, es un modelo generativo auto-regresivo que se basa principalmente en la arquitectura del decodificador, entrenado en conjuntos de datos de texto masivos para predecir la siguiente palabra (a diferencia de Bert, GPT puede generar secuencias).

Estos modelos, BERT y GPT, por ejemplo, pueden considerarse como el Imagenet de la PNL.

Como se muestra, Bert es profundamente bidireccional, OpenAi GPT es unidireccional, y Elmo es superficialmente bidireccional.

Las representaciones previamente capacitadas pueden ser:

Sin contexto : como Word2Vec o Glove que genera una representación de incrustación de palabras única/fija (vector) para cada palabra en el vocabulario (independiente del contexto de esa palabra en el tiempo de prueba)
Contextual : genera una representación de cada palabra basada en las otras palabras en la oración.

Los modelos de lenguaje contextual pueden ser:

Modelo de lenguaje causal (CML) : Predecir el siguiente token pasado en los anteriores. (GPT)
Modelo de lenguaje enmascarado (MLM) : predice el token enmascarado basado en los tokens contextuales circundantes (Bert)

? LLMS práctico

En esta parte, vamos a usar diferentes modelos de idiomas grandes

Hola gpt2

GPT2 (un sucesor de GPT) es un modelo previamente capacitado en el idioma inglés que utiliza un objetivo de modelado de idioma causal ( CLM ), capacitado simplemente para predecir la siguiente palabra en 40 GB de texto de Internet. Fue lanzado por primera vez en esta página. GPT2 muestra un amplio conjunto de capacidades, incluida la capacidad de generar muestras de texto sintéticas condicionales. En tareas de lenguaje, como respuesta a las preguntas, comprensión de lectura, resumen y traducción, GPT2 comienza a aprender estas tareas del texto sin procesar, utilizando datos de capacitación específicos de tareas. DistilPPT2 es una versión destilada de GPT2, está destinada a usarse para casos de uso similares con la mayor funcionalidad de ser más pequeño y más fácil de ejecutar que el modelo base.

Aquí cargamos un modelo GPT2 previamente capacitado, le pedimos al modelo GPT2 que continúe nuestro texto de entrada (aviso) y, finalmente, extraiga características incrustadas del modelo DistilPPT2.

 from transformers import pipeline
generator = pipeline('text-generation', model='gpt2')
generator("The capital of Japan is Tokyo, The capital of Egypt is", max_length=13, num_return_sequences=2)

 [{'generated_text': 'The capital of Japan is Tokyo, The capital of Egypt is Cairo'},
{'generated_text': 'The capital of Japan is Tokyo, The capital of Egypt is Alexandria'}]

Hola Bert

Bert es un modelo de transformadores previamente entrenado en un gran corpus de datos ingleses de una manera auto-supervisada. Esto significa que fue priorizado solo en los textos sin procesar, sin humanos que los etiqueten de ninguna manera con un proceso automático para generar entradas y etiquetas de esos textos. Más precisamente, estaba provocado con dos objetivos:

Modelado de lenguaje enmascarado ( MLM ): tomando una oración, el modelo enmascara al azar el 15% de las palabras en la entrada y luego ejecuta toda la oración enmascarada a través del modelo y tiene que predecir las palabras enmascaradas. Esto es diferente de las redes neuronales recurrentes tradicionales (RNN) que generalmente ven las palabras una tras otra, o de modelos autorregresivos como GPT que enmascaran internamente los tokens futuros. Permite que el modelo aprenda una representación bidireccional de la oración.
Predicción de la siguiente oración ( NSP ): el modelo concatena dos oraciones enmascaradas como entradas durante el envío. A veces corresponden a oraciones que estaban al lado del otro en el texto original, a veces no. El modelo debe predecir si las dos oraciones se siguieron o no.

En este ejemplo, vamos a utilizar un modelo Bert previamente entrenado para la tarea de análisis de sentimientos.

Modelo LSTM de línea de base (precisión = 65%)
Use Bert como extractor de características utilizando solo la función [CLS] (precisión = 81%)
Use Bert como extractor de características para la representación de secuencia (precisión = 85%)

 import transformers as ppb

model_class, tokenizer_class, pretrained_weights = (ppb.BertModel, ppb.BertTokenizer, 'bert-base-uncased')
bert_tokenizer = tokenizer_class.from_pretrained(pretrained_weights)
bert_model = model_class.from_pretrained(pretrained_weights)

GPT4All

GPT4All es un ecosistema para entrenar y implementar modelos de lenguaje grandes y personalizados que se ejecutan localmente en las CPU de grado de consumo.

 import gpt4all
gptj = gpt4all.GPT4All("ggml-gpt4all-j-v1.3-groovy.bin")

with gptj.chat_session():
    response = gptj.generate(prompt='hello', top_k=1)
    response = gptj.generate(prompt='My name is Ibrahim, what is your name?', top_k=1)
    response = gptj.generate(prompt='What is the capital of Egypt?', top_k=1)
    response = gptj.generate(prompt='What is my name?', top_k=1)
    print(gptj.current_chat_session)

 [{'role': 'user', 'content': 'hello'}, 
{'role': 'assistant', 'content': 'Hello! How can I assist you today?'}, 

{'role': 'user', 'content': 'My name is Ibrahim, what is your name?'}, 
{'role': 'assistant', 'content': 'I am an artificial intelligence assistant. My name is AI-Assistant.'}, 

{'role': 'user', 'content': 'What is the capital of Egypt?'}, 
{'role': 'assistant', 'content': 'The capital city of Egypt is Cairo.'}, 

{'role': 'user', 'content': 'What is my name?'}, 
{'role': 'assistant', 'content': 'Your name is Ibrahim, what a beautiful name!'}]

Pruebe los siguientes modelos:

Vicuna : un asistente de chat ajustado de LLAMA en conversaciones compartidas por los usuarios de LMSYS
WizardLM : un LLM de seguimiento de instrucciones que usa Evol-Instructo de Microsoft
MPT-CHAT : un chatbot ajustado de MPT-7B por Mosaicml
ORCA : Un modelo, de Microsoft, que aprende a imitar el proceso de razonamiento de grandes modelos de cimientos (GPT-4), guiado por la asistencia del maestro de ChatGPT.

 import gpt4all
model = gpt4all.GPT4All("ggml-vicuna-7b-1.1-q4_2.bin")
model = gpt4all.GPT4All("ggml-vicuna-13b-1.1-q4_2.bin")
model = gpt4all.GPT4All("ggml-wizardLM-7B.q4_2.bin")
model = gpt4all.GPT4All("ggml-mpt-7b-chat.bin")
model = gpt4all.GPT4All("orca-mini-3b.ggmlv3.q4_0.bin")

Halcón

Falcon LLM es la serie insignia de TII de modelos de idiomas grandes, construidos desde cero utilizando una tubería de datos personalizada y capacitación distribuida. Los modelos Falcon-7B/40B son de última generación para su tamaño, superando a la mayoría de los otros modelos en puntos de referencia de PNL. De origen abierto Varios artefactos:

El Falcon-7/40B pretratado e instruye modelos, bajo la licencia de software Apache 2.0.

 from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model = "tiiuae/falcon-7b-instruct"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
)
sequences = pipeline(
   "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.nDaniel: Hello, Girafatron!nGirafatron:",
    max_length=200,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

 Result: Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.
Daniel: Hello, Girafatron!
Girafatron: Hi Daniel! I am Girafatron, the world's first Giraffe. How can I be of assistance to you, human boy?
Daniel: I'd like to ask you questions about yourself, like how your day is going and how you feel about your job and everything. Would you like to talk about that?
Girafatron: Sure, my day is going great. I'm feeling fantastic. As for my job, I'm enjoying it!
Daniel: What do you like most about your job?
Girafatron: I love being the tallest animal in the universe! It's really fulfilling.

? Llama 2

LLAMA2 es una familia de modelos de idiomas grandes de acceso abierto de última generación lanzados por Meta Today, y estamos entusiasmados de apoyar completamente el lanzamiento con integración integral en la cara de abrazo. Llama 2 se lanzará con una licencia comunitaria muy permisiva y está disponible para uso comercial. El código, los modelos previos a la aparición y los modelos ajustados se están lanzando hoy

 pip install transformers
huggingface-cli login

 from transformers import AutoTokenizer
import transformers
import torch

model = "meta-llama/Llama-2-7b-chat-hf"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

sequences = pipeline(
    'I liked "Breaking Bad" and "Band of Brothers". Do you have any recommendations of other shows I might like?n',
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    max_length=200,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

 Result: I liked "Breaking Bad" and "Band of Brothers". Do you have any recommendations of other shows I might like?
Answer:
Of course! If you enjoyed "Breaking Bad" and "Band of Brothers," here are some other TV shows you might enjoy:
1. "The Sopranos" - This HBO series is a crime drama that explores the life of a New Jersey mob boss, Tony Soprano, as he navigates the criminal underworld and deals with personal and family issues.
2. "The Wire" - This HBO series is a gritty and realistic portrayal of the drug trade in Baltimore, exploring the impact of drugs on individuals, communities, and the criminal justice system.
3. "Mad Men" - Set in the 1960s, this AMC series follows the lives of advertising executives on Madison Avenue, expl

Codet5+

Codet5+ es una nueva familia de modelos de lenguaje de código abierto con una arquitectura de codificador codificador que puede operar de manera flexible en diferentes modos (es decir, solo codificador, solo decodificador y decodificador de codificadores) para admitir una amplia gama de tareas de comprensión y generación de código.

 from transformers import T5ForConditionalGeneration, AutoTokenizer

checkpoint = "Salesforce/codet5p-770m-py"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = T5ForConditionalGeneration.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def factorial(n):", return_tensors="pt").to(device)
outputs = model.generate(inputs, max_length=150)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

 def factorial(n):
'''
Returns the factorial of a given number.
'''
if n == 0:
    return 1
return n * factorial(n - 1)

def main():
    '''
    Tests the factorial function.
    '''
    assert factorial(0) == 1
    assert factorial(1) == 1
    assert factorial(2) == 2
    assert factorial(3) == 6
    assert factorial(4) == 120
    assert factorial(5) == 720
    assert factorial(6) == 5040
    assert factorial(7) == 5040

Para obtener más modelos, consulte Codetf desde Salesforce, una biblioteca basada en transformador de Python para modelos de idiomas grandes (LLMS) e inteligencia de código, proporcionando una interfaz perfecta para capacitación e inferencia en tareas de inteligencia de código como resumen de código, traducción, generación de códigos, etc.

? Más LLMS

? ️ Chatear con modelos de lenguaje grande abierto

Vicuna : un asistente de chat ajustado de LLAMA en conversaciones compartidas por los usuarios de LMSYS
WizardLM : un LLM de seguimiento de instrucciones que usa Evol-Instructo de Microsoft
Guanaco : un modelo fino con Qlora por UW
MPT-CHAT : un chatbot ajustado de MPT-7B por Mosaicml
Koala : un modelo de diálogo para la investigación académica de Bair
RWKV-4-Rraven : un RNN con rendimiento de LLM de nivel de transformador
Alpaca : un modelo ajustado de Llama en demostraciones de seguimiento de instrucciones de Stanford
Chatglm : un modelo de lenguaje de diálogo bilingüe abierto de la Universidad de Tsinghua
OpenSistant (Oasst): un asistente abierto para todos por Laion
LLAMA : modelos de lenguaje de base abierto y eficiente por meta
Dolly : un modelo de lenguaje abierto abierto de instrucciones por Databricks
Fastchat-t5 : un asistente de chat ajustado de Flan-T5 por LMSYS

? Cómo generar texto utilizando diferentes métodos de decodificación

?????? ?????? es el método de decodificación más simple. Selecciona la palabra con la mayor probabilidad como su siguiente palabra. Sin embargo, el principal inconveniente de la búsqueda codiciosa es que pierde las palabras de alta probabilidad ocultas detrás de una palabra de baja probabilidad.
???? ?????? Reduce el riesgo de faltar secuencias de palabras de alta probabilidad ocultas al mantener los números más probables de hipótesis en cada paso de tiempo y finalmente elegir la hipótesis que tiene la mayor probabilidad general.

✅ La búsqueda del haz siempre encontrará una secuencia de salida con mayor probabilidad que la búsqueda codiciosa, pero no se garantiza que encuentre el resultado más probable.

En Transformers, simplemente establecemos el parámetro num_return_sequences en el número de vigas de puntuación más altas que deben devolverse. ¡Asegúrese de que num_return_sequences <= num_beams!

✅ La búsqueda del haz puede funcionar muy bien en las tareas donde la longitud de la generación deseada es más o menos predecible como en la traducción o resumen automático. ? Pero este no es el caso de la generación abierta, donde la longitud de salida deseada puede variar mucho, por ejemplo, diálogo y generación de historias. La búsqueda de haz sufre mucho de generación repetitiva. Como humanos, queremos que el texto generado nos sorprenda y no sea aburrido/predecible (la búsqueda de haz es menos sorprendente)

????????? significa elegir al azar la siguiente palabra de acuerdo con su distribución de probabilidad condicional. El muestreo ya no es determinista.

En Transformers, establecemos do_sample = true y desactivamos el muestreo Top-K (más sobre esto más tarde) a través de top_k = 0.

???-? ???????? GPT2 adoptó este esquema de muestreo.

???-? ????????: En lugar de muestrear solo a las palabras K más probables, en el muestreo TOP-P elige del conjunto de palabras más pequeño posible cuya probabilidad acumulativa excede la probabilidad p. La masa de probabilidad se redistribuye entre este conjunto de palabras. Habiendo establecido P = 0.92, el muestreo TOP-P elige el número mínimo de palabras que exceden juntas el 92% de la masa de probabilidad.

 # set top_k = 50 and set top_p = 0.95 and num_return_sequences = 3
sample_outputs = model.generate(
    **model_inputs,
    max_new_tokens=40,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    num_return_sequences=3,
)

✅ Si bien Top-P parece más elegante que Top-K, ambos métodos funcionan bien en la práctica. Top-P también se puede usar en combinación con Top-K, lo que puede evitar palabras de muy bajo rango al tiempo que permite una selección dinámica.

✅ Como métodos de decodificación ad-hoc, el muestreo Top-P y Top-K parece producir un texto más fluido que la búsqueda tradicional de haz, y la búsqueda de haz en la generación de idiomas abiertos.

Para obtener más información, vea por favor este blog: cómo generar texto: Uso de diferentes métodos de decodificación

? Ingeniería rápida

La ingeniería rápida es el proceso de diseño de las indicaciones (entrada de texto) para que un modelo de idioma genere la salida requerida. La ingeniería rápida implica seleccionar palabras clave apropiadas, proporcionar contexto, ser claro y específico de una manera que dirija el comportamiento del modelo de idioma que logre las respuestas deseadas. A través de ingeniería inmediata, podemos controlar el tono, el estilo, la longitud, etc. de un modelo sin ajustar.
El aprendizaje de disparo cero implica pedirle al modelo que haga predicciones sin proporcionar ejemplos (disparo cero), por ejemplo:

 Classify the text into neutral, negative or positive. 
Text: I think the vacation is excellent.
Sentiment:

Answer: Positive

Cuando cero-shot no es lo suficientemente bueno, se recomienda ayudar al modelo proporcionando ejemplos en el aviso que conduce a pocas solicitudes de disparo.

El aprendizaje de pocos disparos implica preguntarle al modelo mientras proporciona algunos ejemplos en el aviso, por ejemplo:

 Text: This is awesome!
Sentiment: Positive 

Text: This is bad!
Sentiment: Negative

Text: Wow that movie was rad!
Sentiment: Positive

Text: What a horrible show!
Sentiment:  

Answer: Negative

La indicación de la cadena de pensamiento (COT) permite capacidades de razonamiento complejas a través de pasos de razonamiento intermedio. Podemos combinarlo con pocos disparos para obtener mejores resultados en tareas complejas que requieren un razonamiento paso a paso antes de responder.

Además de la ingeniería rápida , podemos considerar más opciones:

Ajuste el modelo en datos adicionales.
Generación aumentada de recuperación (RAG) para proporcionar datos externos adicionales a la solicitud para formar un contexto mejorado a partir de fuentes de conocimiento archivadas.

Para obtener más información rápida de ingeniería, consulte la guía de ingeniería rápida que contiene los últimos documentos, guías de aprendizaje, conferencias, referencias y herramientas.

LLMS ajustado

El ajuste de LLMS en conjuntos de datos aguas abajo da como resultado grandes ganancias de rendimiento en comparación con el uso de los LLM previos a la caja (inferencia de disparo cero, por ejemplo). Sin embargo, a medida que los modelos se vuelven cada vez más grandes, el ajuste completo completo se vuelve inviable para entrenar en el hardware del consumidor. Además, almacenar e implementar modelos ajustados de forma independiente para cada tarea aguas abajo se vuelve muy costoso, porque los modelos ajustados son del mismo tamaño que el modelo original previamente. ¡Los enfoques de ajuste fino (PEFT) de parámetros están destinados a abordar ambos problemas! Los enfoques de PEFT le permiten obtener el rendimiento comparable al ajuste completo completo, mientras que solo tiene un pequeño número de parámetros entrenables. Por ejemplo:

Ajuste rápido: un mecanismo simple pero efectivo para aprender "indicaciones suaves" que condicionen modelos de lenguaje congelado para realizar tareas específicas aguas abajo. Al igual que las indicaciones de texto diseñadas, las indicaciones suaves se concatenan al texto de entrada. Pero en lugar de seleccionar de los elementos de vocabulario existentes, los "tokens" de la solicitud suave son los vectores aprendizables. Esto significa que un aviso suave puede optimizarse de extremo a extremo a través de un conjunto de datos de entrenamiento, como se muestra a continuación:
La adaptación de bajo rango de Lora de LLM es un método que congela los pesos del modelo previamente e inyecta matrices de descomposición de rango entrenable en cada capa de la arquitectura del transformador. Reduciendo en gran medida el número de parámetros capacitables para las tareas aguas abajo. La siguiente figura, de este video, explica la idea principal:

Recuperación de generación aumentada (trapo)

Los modelos de idiomas grandes suelen ser de propósito general, menos efectivos para tareas específicas del dominio. Sin embargo, se pueden ajustar en algunas tareas, como el análisis de sentimientos. Para Taks más complejos que requieren un conocimiento externo, es posible construir un sistema basado en modelos de idiomas que acceda a fuentes de conocimiento externas para completar las tareas requeridas. Esto permite una mayor precisión objetiva y ayuda a mitigar el problema de la "alucinación". Como se muestra en el Figuer a continuación:

En este caso, en lugar de usar LLM para acceder a su conocimiento interno, utilizamos la LLM como interfaz de lenguaje natural para nuestro conocimiento externo. El primer paso es convertir los documentos y cualquier consulta de usuario en un formato compatible para realizar una búsqueda de relevancia (convertir texto en vectores o incrustaciones). El mensaje del usuario original se adjunta con documentos relevantes / similares dentro de la fuente de conocimiento externo (como un contexto). Luego, el modelo responde las preguntas basadas en el contexto externo proporcionado.

? ️? Langchain

Los modelos de idiomas grandes (LLM) están surgiendo como una tecnología transformadora. Sin embargo, el uso de estos LLM aislados a menudo es insuficiente para crear aplicaciones verdaderamente poderosas. Langchain tiene como objetivo ayudar en el desarrollo de tales aplicaciones.

Hay seis áreas principales con las que Langchain está diseñada para ayudar. Estos son, en un orden creciente de complejidad:

? LLMS y indicaciones:

Esto incluye administración inmediata, optimización rápida, una interfaz genérica para todos los LLM y utilidades comunes para trabajar con LLM. Los modelos de LLMS y Chat son sutiles, pero más importantes, diferentes. Los LLM en Langchain se refieren a los modelos de finalización de texto puro. Las API que envuelven toman un indicador de cadena como entrada y salida de una completación de cadena. El GPT-3 de Openai se implementa como un LLM. Los modelos de chat a menudo están respaldados por LLM, pero se ajustan específicamente para tener conversaciones.

LLM: Hay muchos proveedores de LLM (OpenAi, Cohere, Hugging Face, etc.): la clase LLM está diseñada para proporcionar una interfaz estándar para todos ellos.

 pip install openai
export OPENAI_API_KEY="..."
from langchain.llms import OpenAI

llm = OpenAI(openai_api_key="...")

llm("Tell me a joke")
# 'Why did the chicken cross the road?nnTo get to the other side.'

También puede acceder a la información específica del proveedor que se devuelve. Esta información no está estandarizada entre los proveedores.

 llm_result.llm_output

    {'token_usage': {'completion_tokens': 3903,
      'total_tokens': 4023,
      'prompt_tokens': 120}}

Modelos de chat : en lugar de exponer una API de "texto en, enviar mensajes de texto", los modelos de chat exponen una interfaz donde los "mensajes de chat" son las entradas y salidas. La mayoría de las veces, solo lidiará con HumanMessage, Aimessage y SystemsMessage.

 from langchain.chat_models import ChatOpenAI

chat = ChatOpenAI()

messages = [
    SystemMessage(content="You are a helpful assistant that translates English to French."),
    HumanMessage(content="I love programming.")
]
chat(messages)

# AIMessage(content="J'aime programmer.", additional_kwargs={})

Las plantillas de inmediato son recetas predefinidas para generar indicaciones para modelos de idiomas. Una plantilla puede incluir instrucciones, pocos ejemplos de disparos y contexto específico y preguntas apropiadas para una tarea determinada.

 from langchain import PromptTemplate

prompt_template = PromptTemplate.from_template(
    "Tell me a {adjective} joke about {content}."
)
prompt_template.format(adjective="funny", content="chickens")

La solicitud de los modelos de chat es una lista de mensajes de chat. Cada mensaje de chat está asociado con el contenido y un parámetro adicional llamado rol. Por ejemplo, en la API de finalización de chat de Operai, un mensaje de chat puede asociarse con un asistente de IA, un papel humano o un sistema.

 from langchain.prompts import ChatPromptTemplate

template = ChatPromptTemplate.from_messages([
    ("system", "You are a helpful AI bot. Your name is {name}."),
    ("human", "Hello, how are you doing?"),
    ("ai", "I'm doing well, thanks!"),
    ("human", "{user_input}"),
])

messages = template.format_messages(
    name="Bob",
    user_input="What is your name?")

? Cadenas

Las cadenas van más allá de una sola llamada LLM e involucran secuencias de llamadas (ya sea a un LLM o una utilidad diferente). Langchain proporciona una interfaz estándar para cadenas, muchas integraciones con otras herramientas y cadenas de extremo a extremo para aplicaciones comunes. La cadena muy genéricamente se puede definir como una secuencia de llamadas a los componentes, que pueden incluir otras cadenas.

 from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
# To use the LLMChain, first create a prompt template.
llm = OpenAI(temperature=0.9)
prompt = PromptTemplate(
    input_variables=["product"],
    template="What is a good name for a company that makes {product}?",)

# We can now create a very simple chain that will take user input, format the prompt with it, and then send it to the LLM.
from langchain.chains import LLMChain
chain = LLMChain(llm=llm, prompt=prompt)

# Run the chain only specifying the input variable.
print(chain.run("colorful socks"))

# Result
Colorful Toes Co.

Generación aumentada de datos:

La generación aumentada de datos implica tipos específicos de cadenas que primero interactúan con una fuente de datos externa para obtener datos para su uso en el paso de generación. Los ejemplos incluyen preguntas/respuesta sobre fuentes de datos específicas.

Cargadores de documentos: Cargue documentos de muchas fuentes diferentes. Por ejemplo, hay cargadores de documentos para cargar un archivo .txt simple, para cargar el contenido de texto de cualquier página web, o incluso para cargar una transcripción de un video de YouTube.

 from langchain.document_loaders import TextLoader

loader = TextLoader("./index.md")
loader.load()

Transformadores de documentos: dividir documentos, convertir documentos en formato de preguntas y respuestas, soltar documentos redundantes y más

 # This is a long document we can split up.
with open('../../state_of_the_union.txt') as f:
    state_of_the_union = f.read()

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    chunk_size = 100,
    chunk_overlap  = 20,
    length_function = len,
    add_start_index = True,
)

texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
print(texts[1])


# page_content='Madam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and' metadata={'start_index': 0}
#page_content='of Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans.' metadata={'start_index': 82}

Modelos de incrustación de texto: tome texto y conviértelo en una lista de números de puntos flotantes (vectores). Hay muchos proveedores de modelos de incrustación (OpenAi, Cohere, Hugging Face, etc.): esta clase está diseñada para proporcionar una interfaz estándar para todos ellos.

 from langchain.embeddings import OpenAIEmbeddings
embeddings_model = OpenAIEmbeddings(openai_api_key="...")

embeddings = embeddings_model.embed_documents(
    [
        "Hi there!",
        "Oh, hello!",
        "What's your name?",
        "My friends call me World",
        "Hello World!"
    ]
)

Tiendas vectoriales: almacene y busque datos integrados. Una de las formas más comunes de almacenar y buscar datos no estructurados es incrustarlo y almacenar los vectores de incrustación resultantes, y luego en el momento de la consulta para incrustar la consulta no estructurada y recuperar los vectores de incrustación que son "más similares" a la consulta integrada. Una tienda vectorial se encarga de almacenar datos integrados y realizar una búsqueda vectorial para usted.

 from langchain.document_loaders import TextLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma

# Load the document, split it into chunks, embed each chunk and load it into the vector store.
raw_documents = TextLoader('../../../state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
db = Chroma.from_documents(documents, OpenAIEmbeddings())

Búsqueda de similitud

 query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)
print(docs[0].page_content)

#    Tonight. I call on the Senate to: Pass the Freedom to Vote Act. Pass the John Lewis Voting Rights Act. And while you’re at it, pass the Disclose Act so Americans can know who is funding our elections.
#    One of the most serious constitutional responsibilities a President has is nominating someone to serve on the United States Supreme Court.
#    And I did that 4 days ago, when I nominated Circuit Court of Appeals Judge Ketanji Brown Jackson. One of our nation’s top legal minds, who will continue Justice Breyer’s legacy of excellence.

Retrievers: consulte sus datos. Un retriever es una interfaz que devuelve documentos dada una consulta no estructurada. Es más general que una tienda vectorial. Un retriever no necesita poder almacenar documentos, solo para devolverlo (o recuperarlo). Las tiendas vectoriales se pueden usar como la columna vertebral de un retriever, pero también hay otros tipos de retrievers.

 # Let's walk through this in code
documents = loader.load()

#Next, we will split the documents into chunks.
from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# We will then select which embeddings we want to use.
from langchain.embeddings import OpenAIEmbeddings
embeddings = OpenAIEmbeddings()

# We now create the vectorstore to use as the index.
from langchain.vectorstores import Chroma
db = Chroma.from_documents(texts, embeddings)

# So that's creating the index. Then, we expose this index in a retriever interface.
retriever = db.as_retriever()

# Then, as before, we create a chain and use it to answer questions!
qa = RetrievalQA.from_chain_type(llm=OpenAI(), chain_type="stuff", retriever=retriever)
query = "What did the president say about Ketanji Brown Jackson"
qa.run(query)

#     " The President said that Judge Ketanji Brown Jackson is one of the nation's top legal minds, a former top litigator in private practice, a former federal public defender, and from a family of public school educators and police officers. He said she is a consensus builder and has received a broad range of support from organizations such as the Fraternal Order of Police and former judges appointed by Democrats and Republicans."

? Agentes:

Los agentes involucran a una LLM tomando decisiones sobre qué acciones tomar, tomando esa acción, viendo una observación y repitiendo eso hasta que se haga. Langchain proporciona una interfaz estándar para agentes, una selección de agentes para elegir y ejemplos de agentes de extremo a extremo. La idea central de los agentes es usar un LLM para elegir una secuencia de acciones a tomar. En las cadenas, una secuencia de acciones está codificada (en código). En los agentes, se utiliza un modelo de idioma como motor de razonamiento para determinar qué acciones tomar y en qué orden.

 from langchain.agents import tool

@tool
def get_word_length(word: str) -> int:
    """Returns the length of a word."""
    return len(word)

tools = [get_word_length]


from langchain.agents import AgentExecutor
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

? Memoria:

La memoria se refiere al estado persistente entre las llamadas de una cadena/agente. Langchain proporciona una interfaz estándar para la memoria, una colección de implementaciones de memoria y ejemplos de cadenas/agentes que usan la memoria.

 from langchain.chat_models import ChatOpenAI
from langchain.prompts import (
    ChatPromptTemplate,
    MessagesPlaceholder,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate,
)
from langchain.chains import LLMChain
from langchain.memory import ConversationBufferMemory


llm = ChatOpenAI()
prompt = ChatPromptTemplate(
    messages=[
        SystemMessagePromptTemplate.from_template(
            "You are a nice chatbot having a conversation with a human."
        ),
        # The `variable_name` here is what must align with memory
        MessagesPlaceholder(variable_name="chat_history"),
        HumanMessagePromptTemplate.from_template("{question}")
    ]
)
# Notice that we `return_messages=True` to fit into the MessagesPlaceholder
# Notice that `"chat_history"` aligns with the MessagesPlaceholder name.
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
conversation = LLMChain(
    llm=llm,
    prompt=prompt,
    verbose=True,
    memory=memory
)

# Notice that we just pass in the `question` variables - `chat_history` gets populated by memory
conversation({"question": "hi"})

? ? Pregúntele a sus documentos

Podemos usar diferentes métodos para chatear con nuestros documentos. No es necesario ajustar todo el LLM, en su lugar, podemos proporcionar el contexto correcto junto con nuestra pregunta al modelo previamente capacitado y simplemente obtener las respuestas basadas en nuestros documentos proporcionados.

Fase de índice: nuestros documentos se dividen en trozos, extraen incrustaciones por fragmento y ahorran en una base de datos de incrustación como el croma.
Fase de respuesta a las preguntas: dada una pregunta, utilizamos la base de datos de incrustación para obtener trozos similares, construir un aviso que consiste en la pregunta y el contexto, y alimentamos esto a los LLM y obtener nuestras respuestas.

Aquí, ¿chateamos con este bonito artículo titulado Transformers sin dolor? Hacer preguntas relacionadas con transformadores, atención, codificador de codificadores, etc. mientras utiliza el poderoso modelo de palma de Google y el marco Langchain para desarrollar aplicaciones alimentadas por modelos de idiomas.

 # load docs and construct the index
urls = ['https://www.linkedin.com/pulse/transformers-without-pain-ibrahim-sobh-phd/',]
loader = WebBaseLoader(urls)
index = VectorstoreIndexCreator(
        embedding=GooglePalmEmbeddings(),
        text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000,
                                 chunk_overlap=0, separators=[" ", ",", "n"])).from_loaders([loader])

# QA Retrieval
qa_retriever = RetrievalQA.from_chain_type(llm=Palm_llm, chain_type="stuff",
                                    retriever=index.vectorstore.as_retriever(),
                                    input_key="question")

Pregunta : ? '¿De qué tratan estos documentos?'
Respuesta : ? "Los documentos son sobre transformadores, que son un tipo de red neuronal que se ha utilizado con éxito en el procesamiento del lenguaje natural y las tareas de visión por computadora".
Pregunta : ? '¿Cuál es la idea principal de los transformadores?'
Respuesta : ? "La idea principal de los transformadores es usar mecanismos de atención para modelar dependencias de largo alcance en secuencias".
Pregunta : ? '¿Qué es la codificación posicional?'
Respuesta : ? "La codificación posicional es una técnica utilizada para representar el orden de las palabras en una secuencia".
Pregunta : ? '¿Cómo se utilizan los vectores de consulta, clave y valor?'
Respuesta : ? 'El vector de consulta se usa para calcular una suma ponderada de los valores a través de las claves. Específicamente: P Producto de P Dot todas las teclas, luego Softmax para obtener pesos y finalmente usa estos pesos para calcular una suma ponderada de los valores.
Pregunta : ? '¿Cómo comenzar a usar transformadores?'
Respuesta : ? 'Para comenzar a usar Transformers, puede usar la biblioteca Huggingface Transformers. Esta biblioteca proporciona miles de modelos previos a la realización para realizar tareas en textos como clasificación, extracción de información, respuesta a preguntas, resumen, traducción, generación de texto, etc. en más de 100 idiomas.

¡Puede probar sus propios documentos y preguntas!

? Pregunte casi todo (txt, pdf, video, etc.)

En estos tutoriales simples: cómo obtener respuestas de documentos de texto , archivos PDF e incluso videos de YouTube utilizando la base de datos de Chroma Vector, Palm LLM de Google y una cadena de contestadores de preguntas de Langchain. Finalmente, use Streamlit para desarrollar y alojar la aplicación web. Deberá usar su Google_api_Key (puede obtener uno de Google). La arquitectura del sistema es la siguiente:

Pregúntale a YouTube

Pregúntele a PDF

? Evaluación de sistemas basados en LLM

Hay una diferencia entre evaluar un LLM versus evaluar un sistema basado en LLM. Por lo general, después de la capacitación genérica , los LLM se evalúan en puntos de referencia estándar:

Pegue un punto de referencia de nueve oraciones o tareas de comprensión del lenguaje de pares de oraciones.
Escuadrón 2.0 Un conjunto de datos de comprensión de lectura, que consiste en preguntas planteadas por los trabajadores de la multitudes en un conjunto de artículos de Wikipedia, donde la respuesta a cada pregunta es un segmento de texto, o el tramo, desde el pasaje de lectura correspondiente, o la pregunta podría ser sin respuesta.
SNLI Una colección de 570k pares de oraciones ingleses escritas por humanos etiquetados manualmente para una clasificación equilibrada con las etiquetas implican, contradicción y neutral.
etc.

Los sistemas LLMS pueden resumir el texto, hacer preguntas sobre la pregunta, encontrar el sentimiento de un texto, puede hacer traducción y más. Según el sistema, la evaluación puede ser la siguiente:

Como buena prueba de concepto, podemos examinar manualmente algunas entradas y respuestas esperadas, donde sintonizamos y construimos el sistema intentando diferentes componentes, indicados, etc. Sin embargo, los sistemas deben evaluarse a fondo.
Cree un conjunto de datos de evaluación en nuestros datos proivados. Sin embargo, este enfoque es que generalmente tiene un alto costo.

LLMS evaluando LLMS

Use un LLM para generar casos de prueba y luego evaluar el sistema basado en LLM en ellos.

Por ejemplo, en el caso del sistema de respuesta de preguntas , necesitamos pares de preguntas y respuestas en nuestro conjunto de evaluación. Podemos usar anotadores humanos para crear pares de preguntas y respuestas estándar de oro manualmente. Sin embargo, es costoso y requiere mucho tiempo. One feasible way of creating such a dataset is to leverage an LLM.

 You are a smart assistant designed to come up with meaninful question and answer pair. The question should be to the point and the answer should be as detailed as possible.
Given a piece of text, you must come up with a question and answer pair that can be used to evaluate a QA bot. Do not make up stuff. Stick to the text to come up with the question and answer pair.
When coming up with this question/answer pair, you must respond in the following format:

{{
    "question": "$YOUR_QUESTION_HERE",
    "answer": "$THE_ANSWER_HERE"
}}


Everything between the ``` must be valid json.


Please come up with a question/answer pair, in the specified JSON format, for the following text:
----------------
{text}

Use an LLM to find how well the prediction is compared to the true answer Given two texts (true and predicted answers), an LLM can, in theory, find whether they are semantically identical. Langchain has a chain called $QAEvalChain$ that can take in a question and "true" answer along with the predicted answer and output "CORRECT" or "INCORRECT" labels.
Moreover, we can use standard metrics for evaluation such as recall, precision and F1 Score.
Once we have an eval dataset, a hyperparameter optimisation approach makes sens and can be applied across different models, prompts, etc.

For more, this article provides an interactive look into how to go about evaluating your large language model (LLM) systems.

ragas is a framework that helps you evaluate your Retrieval Augmented Generation (RAG) pipelines. RAG denotes a class of LLM applications that use external data to augment the LLM's context. There are existing tools and frameworks that help you build these pipelines but evaluating it and quantifying your pipeline performance can be hard. This is where ragas (RAG Assessment) comes in.

AI Agents

AI agents use an LLM to determine which actions to take and in what order to complete a task.
An action can either be using a tool and observing its output, or returning a response to the user.
Tools are functions that an agent calls. Examples of tools include APIs, databases, search engines, LLMs, other agents, etc.

The core idea of agents is to use an LLM to choose a sequence of actions to take. In chains, a sequence of actions is hardcoded (in code). In agents, a language model is used as a reasoning engine to determine which actions to take and in which order.

This code shows how to use agents to interact with data in CSV format. It is mostly optimized for question answering.

ChatGPT plugins

ChatGPT plugins are tools designed to help ChatGPT access up-to-date information, run computations, or use third-party services.

Examples of extending the power of ChatGPT:

By creating and editing diagrams via Show Me Diagrams

By accessing the power of mathematics provided by Wolfram

By allowing you to connect applications, services and tools together, leading to automating your life. The Zapier plugin connects you with 100s of online services such as email, social media, cloud storage, and more.

? AutoGPT autonomously achieves whatever goal you set! Auto-GPT is an experimental open-source application showcasing the capabilities of the GPT-4 language model. This program, driven by GPT-4, chains together LLM "thoughts", to autonomously achieve whatever goal you set.

llms