¿Hola amantes de los cupcake? ❤️! ¡Estoy emocionado de presentarles mi último proyecto, Cupcakeagi!
Puede encontrar la documentación aquí: https://akshitireddy.github.io/cupcakeagi/
Abra una terminal y vaya a Backend/Virtual Aagi virtual multisensorial (necesita tener conDa instalado)
npm install next
conda env create -f environment.ymlAbre una terminal y vaya a Backend/Virtual Aagi virtual multisensorial
conda activate aagi
uvicorn inference:appAbra otro terminal y vaya a Frontend/Assistant (necesita tener el nodo instalado)
npm run devIngrese sus claves API en el archivo .env, necesitará una tecla API de OpenAI, la tecla API Serper

Cupcakeagi es un agente que tiene como objetivo imitar el comportamiento humano y las habilidades cognitivas para ayudar a los usuarios a realizar diversas tareas. ¿Está equipado con algo de dulce? Características, incluida la capacidad de soñar?, tienen pensamientos aleatorios y realizan simulaciones mentales sobre cómo completar una tarea. Al igual que los humanos tenemos pensamientos flotando alrededor de nuestras cabezas, Cupcakeagi tiene una burbuja de pensamiento? con palabras abstractas.
Para hacer que Cupcakeagi sea más expresivo, he agregado parámetros de emoción. Esto permitirá que interactúe con los usuarios de una manera más personal.
Una de las características más impresionantes de Cupcakeagi es su capacidad para aceptar varias formas de datos sensoriales, como imágenes, ¿videos?, Y audio?. Aunque no he implementado el olor?, ¿Toque y gusto? Sin embargo, debería ser similar a lo que hice para la imagen, el video y el audio. Necesitará una función para convertir los datos sensoriales en texto y luego se agregará como una descripción del archivo para el archivo que se utilizará al solicitar el modelo.
Cupcakeagi proporciona dos características principales para la interacción del usuario: hablar y tarea. La función de conversación permite respuestas inmediatas a consultas de usuarios utilizando herramientas como motores de búsqueda, calculadores y traductores, lo que lo convierte en un solucionador de problemas en tiempo real. ¿Y quién no ama un buen solucionador de problemas?, Especialmente cuando se trata de hornear cupcakes?
La función de tarea se utiliza para completar las tareas en una hora de inicio o en una fecha límite. Tanto las características de tareas como la charla permiten encadenar múltiples herramientas utilizando una función de tarea de lenguaje natural que convierte la salida de una herramienta en la entrada de otra, lo que hace que diferentes herramientas sean compatibles entre sí. Entonces, ya sea que necesite hornear algunos cupcakes para una fiesta de cumpleaños o un concurso de cupcake, ¡Cupcakeagi está aquí para ayudarlo!
Algunas habilidades como la búsqueda, la calculadora, la búsqueda de Wikipedia están predefinidas, estas habilidades se definen como funciones de Python que el agente puede usar creando un script de Python e importando estas funciones seguido de ejecutar el script final y guardar la salida en un archivo de texto al que puede acceder. Se pueden definir más habilidades y las existentes pueden modificarse de manera modular, todo lo que uno debe hacer es eliminar el script de Python en funciones de habilidad y luego mencionar su nombre, descripción e instrucciones para usar en habilidades. El agente puede encadenar estas habilidades para hacer tareas más complejas y garantizar la compatibilidad de que pueda usar el Natural_Task_Function.
En general, espero que encuentres a Cupcakeagi para ser una dulce adición a tu vida. Este proyecto fue muy divertido de crear, y estoy emocionado de ver a dónde va. ¡Gracias por leer y Happy Baking!
Nuestro cerebro procesa e integra estas entradas sensoriales para formar una percepción coherente del mundo que nos rodea. Del mismo modo, en el ámbito de la inteligencia artificial, la capacidad de procesar e integrar datos multisensoriales es crucial para construir agentes inteligentes que puedan interactuar con los humanos de una manera más natural y efectiva.
En los últimos años, los modelos de idiomas grandes (LLM) como ChatGPT y GPT-4 han demostrado habilidades notables en la generación de textos similares a los humanos basados en grandes cantidades de datos de capacitación. Sin embargo, estos modelos generalmente se limitan a trabajar con datos de texto e imagen y carecen de la capacidad de procesar otros tipos de entradas sensoriales.
Más allá de la capacidad de procesar datos multisensoriales, el agente LLM también exhibe varias habilidades cognitivas que generalmente están asociadas con humanos. Por ejemplo, el agente está equipado con la capacidad de soñar y tener pensamientos aleatorios, que se cree que juegan un papel importante en la creatividad humana, la consolidación de la memoria y la resolución de problemas. Al incorporar estas características en el agente LLM, nuestro objetivo es crear un agente que pueda ayudar a los usuarios a realizar tareas de una manera más natural y efectiva y hacer que estos agentes sean más humanos.
? ¡Bienvenido de nuevo al mundo de los cupcakes y hornear! Todos sabemos que la experiencia humana es mucho más que solo interacciones basadas en texto. No se trata solo de leer, sino también de experimentar el mundo con todos nuestros sentidos, incluida la vista, ¿sonido?, ¿Olor?, Sabor y toque?. Del mismo modo, un agente de LLM que puede trabajar con datos multisensoriales puede abrir un nuevo mundo de posibilidades para el aprendizaje automático.
En lugar de perder los datos ricos y variados disponibles a través de otras modalidades sensoriales, podemos usar arquitecturas de redes neuronales que convierten diversas formas de datos sensoriales en datos de texto con los que el LLM puede trabajar.
Por ejemplo, podemos usar modelos de subtítulos de imágenes como VIT-GPT2 y BLIP para convertir las imágenes en datos de texto, que el agente LLM puede procesar. Del mismo modo, para los datos de audio, los modelos de audio a texto como OpenAI's Whisper se pueden usar para convertir las señales de audio en datos de texto.
Ahora, sé lo que estás pensando: ¿qué pasa con los videos?, ¿Olor?, Sabor? Y touch? ¡No te preocupes, te tenemos cubierto! Para guardar el cálculo, podemos usar un cuadro por segundo de los datos de video y usar modelos de subtítulos de imagen para convertir cada cuadro en texto. La pista de audio del video se puede separar y transcribirse utilizando modelos de audio a texto, proporcionando al agente LLM con datos visuales y auditivos.
¿En cuanto al olor?, ¿Taste? Y Touch?, Podemos usar narices y lenguas electrónicas para capturar diferentes tipos de datos químicos y de gusto y convertirlos en datos de texto que el LLM pueda procesar. Los sensores hápticos pueden capturar presión, temperatura y otras sensaciones físicas y convertirlos en datos de texto utilizando una red neuronal o cualquier otra cosa.
Recuerde, estos modelos deben usarse como componentes modulares que se pueden cambiar fácilmente a medida que surgen nuevos modelos. Piense en ellos como bloques LEGO o componentes reaccionados que podemos ensamblar para crear un sistema más integral.
Entonces, hagamos hornear con Cupcakeagi e incorporemos datos multisensoriales en un agente de LLM para crear una interacción humana más natural y efectiva. Con la disponibilidad de diferentes datos sensoriales, el agente de LLM puede procesar y comprender varios tipos de datos, lo que lleva a un agente más humano que puede ayudarnos en diferentes tareas.
? ¡Bienvenido a Cupcakeagi, donde horneamos un poco de bondad dulce y cremosa! ?
Estas son algunas de las características clave de nuestro agente LLM que lo hacen más humano y efectivo:
? Comportamiento humano: nuestro agente de LLM está equipado con varias características que imitan el comportamiento humano, incluida la capacidad de soñar, tener pensamientos aleatorios y realizar simulaciones mentales sobre cómo completar una tarea. Estas características permiten al agente comprender y responder mejor a las consultas de los usuarios.
? Memoria persistente: nuestro agente de LLM tiene un estado mental donde se almacenan todos los archivos relacionados con su personalidad, emociones, pensamientos, conversaciones y tareas. Incluso si el agente ha dejado de funcionar, toda la información relevante todavía se almacena en esta ubicación. Esto permite al agente proporcionar una experiencia más personalizada y efectiva.
? Parámetros de la emoción: utilizamos parámetros emocionales como la felicidad, la tristeza, la ira, el miedo, la curiosidad y la creatividad para hacer que el agente de LLM sea más expresivo y comprenda mejor las necesidades y preferencias del usuario.
? Bubble de pensamiento: nuestro agente LLM también tiene una burbuja de pensamiento, que es esencialmente una lista de listas que corresponde a diferentes temas. Esto permite al agente procesar e integrar de manera más efectiva sus pensamientos con las consultas y tareas del usuario.
Almacenamiento de conversación: el agente de LLM almacena la conversación que ha tenido hasta ahora y la lista de tareas que debe realizar. Rompe la conversación en trozos y la resume para mantener la coherencia y la relevancia. Esto permite al agente mantener una conversación coherente y relevante con el usuario.
Con estas características, nuestro agente LLM está mejor equipado para ayudar a los usuarios a realizar tareas de manera natural y efectiva. ¡Esperamos que disfrutes de nuestra dulce y cremosa bondad de IA! ????
? ¡Bienvenido a Cupcakeagi! Aquí hay algunos dulces deets sobre el agente de LLM que hará que sus tareas sean un caminata:
¡Bienvenido a Cupcakeagi! ????
Hablemos de algunas cosas importantes que debe saber sobre este dulce proyecto:
Tareas complejas: si bien Cupcakeagi es lo más humano posible, es posible que no pueda resolver tareas complejas que requieren un significado de ida y vuelta. Estamos hablando de tareas que implican negociar con múltiples partes para alcanzar una solución. Cupcakeagi está destinado a ayudar a las personas a nivel personal, pero puede no ser adecuado para resolver problemas altamente intrincados. Sin embargo, no se preocupe, ¡Cupcakeagi sigue siendo su opción para todas sus necesidades de hornear cupcake! ???
Precisión de la conversión de datos sensoriales: la efectividad de Cupcakeagi se basa en gran medida en la precisión de las arquitecturas de redes neuronales utilizadas para convertir los datos sensoriales en texto. Si estos modelos no son precisos, Cupcakeagi puede malinterpretar la entrada del usuario, lo que lleva a respuestas incorrectas o ineficaces. Pero no se preocupe, estamos trabajando constantemente en mejorar la precisión de Cupcakeagi para garantizar que obtenga la mejor experiencia posible. ?
Ética y privacidad: Cupcakeagi tiene el potencial de recopilar y procesar una gran cantidad de datos personales de los usuarios. Por lo tanto, existe el riesgo de que los datos confidenciales se vean comprometidos, lo que lleva a preocupaciones de privacidad. ¡Cupcakeagi hará que es mejor mantener seguros los secretos de tus cupcake! ?
Gracias por visitar Cupcakeagi, y recuerde, con Cupcakeagi a su lado, ¡siempre tendrá la receta de cupcake perfecta! ?
¡Bienvenido a la conclusión de nuestro proyecto multisensorial de agentes LLM! ????
¿Aquí están las conclusiones clave de nuestro proyecto?