Hé là, les amateurs de cupcakes? ❤️! Je suis ravi de vous présenter mon dernier projet, CupCakeagi!
Vous pouvez trouver la documentation ici: https://akshireddy.github.io/cupcakeagi/
Ouvrez un terminal et accédez à Aagi virtuel backend / multi-sensoriel (vous devez installer conda)
npm install next
conda env create -f environment.ymlOuvrez un terminal et allez à Backend / Multi-Sensory Virtual Aagi
conda activate aagi
uvicorn inference:appOuvrez un autre terminal et allez sur Frontend / Assistant (vous devez installer un nœud)
npm run devEntrez vos touches API dans le fichier .env, vous aurez besoin d'une touche API OpenAI, clé API Serper

CupCakeagi est un agent qui vise à imiter le comportement humain et les capacités cognitives pour aider les utilisateurs à effectuer diverses tâches. Il est équipé de doux? Les fonctionnalités, y compris la possibilité de rêver?, ont des pensées aléatoires et effectuer des simulations mentales sur la façon de terminer une tâche. Tout comme la façon dont nous, les humains, avons des pensées flottant autour de nos têtes, CupCakeagi a une bulle de pensée? avec des mots abstraits.
Pour rendre CupCakeagi plus expressif, j'ai ajouté des paramètres d'émotion. Cela lui permettra d'interagir avec les utilisateurs d'une manière plus personnelle❤️.
L'une des caractéristiques les plus impressionnantes de CupCakeagi est sa capacité à accepter diverses formes de données sensorielles, telles que des images ?, Vidéos ?, Et audio?. Bien que je n'ai pas mis en œuvre l'odeur ?, Touch and Taste? Pourtant, cela devrait être similaire à ce que j'ai fait pour l'image, la vidéo et l'audio. Vous aurez besoin d'une fonction pour convertir les données sensorielles en texte, puis elle sera ajoutée en tant que description du fichier pour le fichier qui sera utilisé tout en invitant le modèle.
CupCakeagi offre deux fonctionnalités principales pour l'interaction utilisateur: la conversation et la tâche. La fonction de discussion permet des réponses immédiates aux requêtes utilisateur à l'aide d'outils tels que les moteurs de recherche, les calculatrices et les traducteurs, ce qui en fait un résolveur de problèmes en temps réel. Et qui n'aime pas un bon résolveur de problèmes ?, Surtout quand il s'agit de cuisiner des cupcakes ??
La fonction de tâche est utilisée pour accomplir des tâches à une heure de début ou par une date limite. Les fonctionnalités de tâche et de conversation permettent de chaîner plusieurs outils ensemble en utilisant une fonction de tâche de langage naturel qui convertit la sortie d'un outil en entrée d'un autre, ce qui rend différents outils compatibles les uns avec les autres. Donc, que vous ayez besoin de cuire des cupcakes pour une fête d'anniversaire ou un concours de cupcakes, CupCakeagi est là pour vous aider!
Certaines capacités telles que la recherche, la calculatrice, la recherche Wikipedia sont prédéfinies, ces capacités sont définies comme des fonctions Python que l'agent peut utiliser en créant un script Python et en important ces fonctions suivie par l'exécution du script final et l'enregistrement de la sortie dans un fichier texte à laquelle elle peut accéder. Plus de capacités peuvent être définies et celles existantes peuvent être modifiées de manière modulaire, tout ce que l'on doit faire est de supprimer le script Python dans les fonctions de capacité, puis de mentionner son nom, sa description et ses directions à utiliser dans les capacités.json dans le répertoire State_of_Mind et tout comme cela, l'agent aura une nouvelle capacité. L'agent peut enchaîner ces capacités pour effectuer des tâches plus complexes et pour garantir la compatibilité qu'il peut utiliser le naturel_task_function.
Dans l'ensemble, j'espère que vous trouverez CupCakeagi comme un doux ajout à votre vie. Ce projet était très amusant à créer, et je suis ravi de voir où il va. Merci d'avoir lu et de cuisson heureuse!
Notre cerveau traite et intègre ces entrées sensorielles pour former une perception cohérente du monde qui nous entoure. De même, dans le domaine de l'intelligence artificielle, la capacité de traiter et d'intégrer des données multisensorielles est cruciale pour la construction d'agents intelligents qui peuvent interagir avec les humains d'une manière plus naturelle et plus efficace.
Ces dernières années, les modèles de grandes langues (LLM) tels que Chatgpt et GPT-4 ont démontré des capacités remarquables dans la génération de texte humain basé sur de grandes quantités de données de formation. Cependant, ces modèles sont généralement limités à travailler avec des données de texte et d'image et n'ont pas la capacité de traiter d'autres types d'entrées sensorielles.
Au-delà de la capacité de traiter les données multisensorielles, l'agent LLM présente également plusieurs capacités cognitives qui sont généralement associées aux humains. Par exemple, l'agent est équipé de la capacité de rêver et d'avoir des pensées aléatoires, qui sont censées jouer un rôle important dans la créativité humaine, la consolidation de la mémoire et la résolution de problèmes. En incorporant ces fonctionnalités dans l'agent LLM, nous visons à créer un agent qui peut aider les utilisateurs à effectuer des tâches de manière plus naturelle et efficace et à rendre ces agents plus humains.
? Bienvenue dans le monde des cupcakes et de la cuisson! Nous savons tous que l'expérience humaine est bien plus que des interactions textuelles. Il ne s'agit pas seulement de lire, mais aussi de vivre le monde avec tous nos sens, y compris la vue ?, De même, un agent LLM qui peut fonctionner avec des données multisensorielles peut ouvrir un nouveau monde de possibilités d'apprentissage automatique.
Au lieu de manquer les données riches et variées disponibles grâce à d'autres modalités sensorielles, nous pouvons utiliser des architectures de réseau neuronales qui convertissent diverses formes de données sensorielles en données de texte avec lesquelles le LLM peut fonctionner.
Par exemple, nous pouvons utiliser des modèles de sous-titrage d'image comme Vit-GPT2 et BLIP pour convertir les images en données de texte, que l'agent LLM peut ensuite traiter. De même, pour les données audio, les modèles audio-texte comme le chuchotement d'Openai peuvent être utilisés pour convertir les signaux audio en données texte. ??
Maintenant, je sais ce que vous pensez: qu'en est-il des vidéos ?, Sodeur ?, Goûte? Et touche ?? Ne vous inquiétez pas, nous vous sommes couverts! Pour enregistrer le calcul, nous pouvons utiliser une trame par seconde de données vidéo et utiliser des modèles de sous-titrage d'image pour convertir chaque trame en texte. La piste audio de la vidéo peut être séparée et transcrite à l'aide de modèles audio-texte, fournissant à l'agent LLM des données visuelles et auditives.
Quant à l'odeur ?, Taste ?, Et toucher ?, Nous pouvons utiliser le nez et les langues électroniques pour capturer différents types de données chimiques et gustatives et les convertir en données texte que le LLM peut traiter. Les capteurs haptiques peuvent capturer la pression, la température et d'autres sensations physiques et les convertir en données de texte à l'aide d'un réseau neuronal ou autre chose.
N'oubliez pas que ces modèles doivent être utilisés comme composants modulaires qui peuvent être facilement commutés à mesure que de nouveaux modèles émergent. Considérez-les comme des blocs LEGO ou des composants réagis que nous pouvons assembler pour créer un système plus complet.
Alors, faisons la cuisson avec CupCakeagi et incorporons des données multisensorielles dans un agent LLM pour créer une interaction humaine-machine plus naturelle et efficace. Avec la disponibilité de différentes données sensorielles, l'agent LLM peut traiter et comprendre différents types de données, conduisant à un agent plus humain qui peut nous aider dans différentes tâches.?
? Bienvenue à CupCakeagi, où nous préparons une bonté AI sucrée et crémeuse! ??
Voici quelques-unes des principales caractéristiques de notre agent LLM qui le rendent plus humain et efficace:
? Comportement humain: notre agent LLM est équipé de plusieurs caractéristiques qui imitent le comportement humain, y compris la capacité de rêver, d'avoir des pensées aléatoires et d'effectuer des simulations mentales sur la façon de terminer une tâche. Ces fonctionnalités permettent à l'agent de mieux comprendre et répondre aux requêtes utilisateur.
? Mémoire persistante: notre agent LLM a un état d'esprit où tous les fichiers relatifs à sa personnalité, ses émotions, ses pensées, ses conversations et ses tâches sont stockés. Même si l'agent a cessé de fonctionner, toutes les informations pertinentes sont toujours stockées à cet endroit. Cela permet à l'agent de fournir une expérience plus personnalisée et efficace.
? Paramètres d'émotion: nous utilisons des paramètres d'émotion tels que le bonheur, la tristesse, la colère, la peur, la curiosité et la créativité pour rendre l'agent LLM plus expressif et mieux comprendre les besoins et les préférences de l'utilisateur.
? Bubble de pensée: notre agent LLM a également une bulle de pensée, qui est essentiellement une liste de listes qui correspond à différents sujets. Cela permet à l'agent de traiter et d'intégrer plus efficacement ses réflexions avec les requêtes et les tâches de l'utilisateur.
Stockage de conversation: l'agent LLM stocke la conversation qu'elle a eu jusqu'à présent et la liste des tâches qu'il doit effectuer. Il divise la conversation en morceaux et le résume pour maintenir la cohérence et la pertinence. Cela permet à l'agent de maintenir une conversation cohérente et pertinente avec l'utilisateur.
Avec ces fonctionnalités, notre agent LLM est mieux équipé pour aider les utilisateurs à effectuer des tâches de manière naturelle et efficace. Nous espérons que vous apprécierez notre bonté de l'IA douce et crémeuse! ???
? Bienvenue à CupCakeagi! Voici quelques déettes sucrées sur l'agent LLM qui feront de vos tâches un gâteau:
Bienvenue à CupCakeagi! ????
Parlons de certaines choses importantes que vous devez savoir sur ce doux projet:
Tâches complexes: Bien que CupCakeagi soit aussi semblable à l'homme que possible, il peut ne pas être en mesure de résoudre des tâches complexes qui nécessitent des allers-retours importants. Nous parlons de tâches qui impliquent de négocier avec plusieurs parties pour atteindre une solution. CupCakeagi est destiné à aider les individus à un niveau personnel, mais il peut ne pas convenir pour résoudre des problèmes très complexes. Ne vous inquiétez pas, cependant, CupCakeagi est toujours votre go-to pour tous vos besoins de cuisson à cupcakes! ???
Précision de la conversion des données sensorielles: L'efficacité de CupCakeagi repose fortement sur la précision des architectures de réseau neuronal utilisées pour convertir les données sensorielles en texte. Si ces modèles ne sont pas précis, CupCakeagi peut mal comprendre les contributions de l'utilisateur, conduisant à des réponses incorrectes ou inefficaces. Mais ne vous inquiétez pas, nous travaillons constamment à l'amélioration de la précision de CupCakeagi pour vous assurer d'obtenir la meilleure expérience possible! ??
Éthique et confidentialité: CupCakeagi a le potentiel de collecter et de traiter une grande quantité de données personnelles des utilisateurs. Ainsi, il existe un risque que les données sensibles puissent être compromises, ce qui entraîne des problèmes de confidentialité. CupCakeagi fera le mieux de garder vos secrets de cupcakes en sécurité! ?
Merci d'avoir vérifié CupCakeagi, et rappelez-vous, avec CupCakeagi à vos côtés, vous aurez toujours la recette parfaite du cupcake! ?
Bienvenue à la conclusion de notre projet d'agent LLM multisensoriel! ????
Voici les principaux points à retenir de notre projet ??