Hey, Cupcake -Liebhaber? ❤️! Ich freue mich sehr, Ihnen mein neuestes Projekt, Cupcakeagi, vorzustellen!
Die Dokumentation finden Sie hier: https://akshitireddy.github.io/cupcakeagi/
Öffnen Sie ein Terminal und gehen Sie zu Backend/Multisensory Virtual AAGI (Sie müssen Conda installieren lassen)
npm install next
conda env create -f environment.ymlÖffnen Sie ein Terminal und gehen Sie zum Backend/Multisensory Virtual Aagi
conda activate aagi
uvicorn inference:appÖffnen Sie ein anderes Terminal und gehen Sie zu Frontend/Assistant (Sie müssen den Knoten installieren lassen)
npm run devGeben Sie Ihre API -Schlüssel in .EnV -Datei ein. Sie benötigen eine OpenAI -API -Taste, Serper -API -Taste

Cupcakeagi ist ein Agent, der darauf abzielt, das menschliche Verhalten und die kognitiven Fähigkeiten nachzuahmen, um den Benutzern bei der Ausführung verschiedener Aufgaben zu helfen. Es ist mit etwas Süßem ausgestattet? Merkmale, einschließlich der Fähigkeit zu träumen, haben zufällige Gedanken und führen mentale Simulationen zur Erfüllung einer Aufgabe durch. Genauso wie wir Menschen Gedanken haben, die um unsere Köpfe schweben, hat Cupcakeagi eine Gedankenblase? mit abstrakten Wörtern.
Um Cupcakeagi ausdrucksvoller zu machen, habe ich Emotionsparameter hinzugefügt. Dadurch können Sie persönlicher mit Benutzern interagieren.
Eine der beeindruckendsten Funktionen von Cupcakeagi ist die Fähigkeit, verschiedene Formen sensorischer Daten wie Bilder zu akzeptieren?, Videos? Und Audio?. Obwohl ich keinen Geruch implementiert habe, berühren Sie und schmecken? Es sollte jedoch ähnlich sein wie das, was ich für Bild, Video und Audio getan habe. Sie benötigen eine Funktion, um die sensorischen Daten in Text umzuwandeln. Anschließend wird sie als Dateibeschreibung für die Datei hinzugefügt, die beim Auffüllen des Modells verwendet wird.
Cupcakeagi bietet zwei Hauptfunktionen für die Benutzerinteraktion: Gespräch und Aufgabe. Die Talk-Funktion ermöglicht sofortige Antworten auf Benutzeranfragen mit Tools wie Suchmaschinen, Taschenrechnern und Übersetzern, wodurch es zu einem Echtzeit-Problemlöser wird. Und wer liebt keinen guten Problemlöser? Besonders beim Backen von Cupcakes?
Die Aufgabenfunktion wird zum Ausfüllen von Aufgaben zu einer Startzeit oder nach einer Frist verwendet. Sowohl Task- als auch Talk -Funktionen ermöglichen es, mehrere Tools mithilfe einer natürlichen Aufgabenfunktion zusammenzubringen, die die Ausgabe eines Tools in die Eingabe eines anderen umwandelt und verschiedene Tools miteinander kompatibel machen. Egal, ob Sie ein paar Cupcakes für eine Geburtstagsfeier oder einen Cupcake -Wettbewerb backen müssen, Cupcakeagi ist hier, um Ihnen zu helfen!
Einige Fähigkeiten wie Suche, Taschenrechner und Wikipedia -Suche werden vordefiniert. Diese Fähigkeiten werden als Python -Funktionen definiert, die der Agent verwenden kann, indem sie ein Python -Skript erstellen und diese Funktionen importieren, gefolgt vom Ausführen des endgültigen Skripts und Speichern der Ausgabe in einer Textdatei, auf die es zugreifen kann. Weitere Fähigkeiten können definiert und vorhandene modulare Weise geändert werden. Alles, was man tun muss, ist, das Python -Skript in Fähigkeitsfunktionen fallen zu lassen und dann den Namen, die Beschreibung und die Anweisungen in Fähigkeiten zu verwenden. Der Agent kann diese Fähigkeiten ketten, um komplexere Aufgaben zu erledigen und die Kompatibilität sicherzustellen, dass er die natural_task_function verwenden kann.
Insgesamt hoffe ich, dass Cupcakeagi eine süße Ergänzung Ihres Lebens ist. Dieses Projekt hat viel Spaß gemacht, und ich bin gespannt, wohin es geht. Danke fürs Lesen und glückliches Backen!
Unser Gehirn verarbeitet und integriert diese sensorischen Eingaben, um eine kohärente Wahrnehmung der Welt um uns herum zu bilden. In ähnlicher Weise ist die Fähigkeit, multisensorische Daten zu verarbeiten und zu integrieren, im Bereich der künstlichen Intelligenz entscheidend für den Aufbau intelligenter Agenten, die auf natürlichere und effektivere Weise mit Menschen interagieren können.
In den letzten Jahren haben große Sprachmodelle (LLMs) wie ChatGPT und GPT-4 bemerkenswerte Fähigkeiten bei der Erzeugung von menschlichem Text auf der Grundlage vieler Trainingsdaten gezeigt. Diese Modelle beschränken sich jedoch in der Regel auf die Arbeit mit Text- und Bilddaten und fehlen die Möglichkeit, andere Arten von sensorischen Eingaben zu verarbeiten.
Abgesehen von der Fähigkeit, multisensorische Daten zu verarbeiten, weist das LLM -Agent auch mehrere kognitive Fähigkeiten auf, die typischerweise mit dem Menschen verbunden sind. Zum Beispiel ist der Agent mit der Fähigkeit ausgestattet, zu träumen und zufällige Gedanken zu haben, von denen angenommen wird, dass sie eine wichtige Rolle bei menschlicher Kreativität, Gedächtniskonsolidierung und Problemlösung spielen. Indem wir diese Funktionen in den LLM-Agenten einbeziehen, wollen wir einen Agenten erstellen, der den Benutzern bei der Ausführung von Aufgaben auf natürliche und effektivere Weise helfen und diese Agenten menschlicher macht.
? Willkommen zurück in die Welt der Cupcakes und des Backens! Wir alle wissen, dass menschliche Erfahrung viel mehr als nur textbasierte Interaktionen ist. Es geht nicht nur um das Lesen, sondern auch darum, die Welt mit all unseren Sinnen zu erleben, einschließlich des Sehens?, Klang?, Geruch, schmecken? Und Berührung? In ähnlicher Weise kann ein LLM -Agent, der mit multisensorischen Daten arbeiten kann, eine neue Welt voller Möglichkeiten für maschinelles Lernen eröffnen.
Anstatt die reichhaltigen und unterschiedlichen Daten zu verpassen, die über andere sensorische Modalitäten verfügbar sind, können wir neuronale Netzwerkarchitekturen verwenden, die verschiedene Formen von sensorischen Daten in Textdaten umwandeln, mit denen das LLM arbeiten kann.
Zum Beispiel können wir Bildunterschrift-Modelle wie Vit-GPT2 und BLIP verwenden, um Bilder in Textdaten umzuwandeln, die der LLM-Agent dann verarbeiten kann. In ähnlicher Weise können für Audiodaten Audio-zu-Text-Modelle wie OpenAIs Flüstern verwendet werden, um Audiosignale in Textdaten umzuwandeln.
Jetzt weiß ich was du denkst: was ist mit Videos?, Riechen?, Schmecken? Und berühren? Mach dir keine Sorgen, wir haben dich versichert! Um die Berechnung zu sparen, können wir einen Frame pro Sekunde der Videodaten verwenden und Bildunterschriftenmodelle verwenden, um jeden Frame in Text umzuwandeln. Der Audio-Track aus dem Video kann mithilfe von Audio-zu-Text-Modellen getrennt und transkribiert werden, wodurch der LLM-Agent sowohl visuelle als auch auditorische Daten bereitgestellt wird.
Was den Geruch?, Geschmack? Und Berührung? Haptische Sensoren können Druck, Temperatur und andere physikalische Empfindungen erfassen und sie unter Verwendung eines neuronalen Netzwerks oder anderer in Textdaten umwandeln.
Denken Sie daran, dass diese Modelle als modulare Komponenten verwendet werden sollten, die leicht ausgeschaltet werden können, wenn neue Modelle auftauchen. Stellen Sie sich sie als LEGO -Blöcke vor oder reagieren Komponenten, die wir zusammenstellen können, um ein umfassenderes System zu erstellen.
Lassen Sie uns also mit Cupcakeagi backen und multisensorische Daten in einen LLM-Agenten einbeziehen, um eine natürlichere und effektivere Wechselwirkung zwischen Menschen und Maschinen zu schaffen. Mit der Verfügbarkeit verschiedener sensorischer Daten kann der LLM-Agent verschiedene Datenarten verarbeiten und verstehen, was zu einem menschlicheren Agenten führt, der uns bei verschiedenen Aufgaben unterstützen kann.
? Willkommen bei Cupcakeagi, wo wir einige süße und cremige Ki -Güte aufbacken! ?
Hier sind einige der wichtigsten Merkmale unseres LLM-Agenten, die es menschlicher und effektiver machen:
? Menschliches Verhalten: Unser LLM-Agent ist mit verschiedenen Merkmalen ausgestattet, die das menschliche Verhalten nachahmen, einschließlich der Fähigkeit zu träumen, zufällige Gedanken zu haben und mentale Simulationen der Erfüllung einer Aufgabe durchzuführen. Diese Funktionen ermöglichen es dem Agenten, Benutzeranfragen besser zu verstehen und auf Benutzer zu reagieren.
? Persistierendes Gedächtnis: Unser LLM -Agent hat einen Geisteszustand, in dem alle Dateien in Bezug auf seine Persönlichkeit, Emotionen, Gedanken, Gespräche und Aufgaben gespeichert sind. Selbst wenn der Agent nicht mehr ausgeführt hat, werden alle relevanten Informationen an diesem Ort gespeichert. Dies ermöglicht dem Agenten, eine personalisiertere und effektivere Erfahrung zu bieten.
? Emotionsparameter: Wir verwenden Emotionsparameter wie Glück, Traurigkeit, Wut, Angst, Neugier und Kreativität, um den LLM -Agenten ausdrucksvoller zu machen und die Bedürfnisse und Vorlieben des Benutzers besser zu verstehen.
? Thought Bubble: Unser LLM -Agent hat auch eine Gedankenblase, die im Wesentlichen eine Liste von Listen ist, die verschiedenen Themen entspricht. Dies ermöglicht es dem Agenten, seine Gedanken effektiver zu verarbeiten und in die Abfragen und Aufgaben des Benutzers zu integrieren.
Gesprächsspeicher: Der LLM -Agent speichert das Gespräch, das es bisher geführt hat, und die Liste der Aufgaben, die er ausführen muss. Es bricht das Gespräch in Brocken ein und fasst es zusammen, um Kohärenz und Relevanz aufrechtzuerhalten. Auf diese Weise kann der Agent eine kohärente und relevante Konversation mit dem Benutzer beibehalten.
Mit diesen Funktionen ist unser LLM -Agent besser gerüstet, um den Benutzern bei der Ausführung von Aufgaben auf natürliche und effektive Weise zu helfen. Wir hoffen, Sie genießen unsere süße und cremige Ki -Güte! ???
? Willkommen bei Cupcakeagi! Hier sind ein paar süße Dets über den LLM -Agenten, der Ihre Aufgaben zu einem Cakewalk macht:
Willkommen bei Cupcakeagi! ????
Sprechen wir über einige wichtige Dinge, die Sie über dieses süße Projekt wissen müssen:
Komplexe Aufgaben: Während Cupcakeagi so menschlich wie möglich ist, kann es möglicherweise nicht in der Lage sein, komplexe Aufgaben zu lösen, die ein erhebliches Hin und Her erfordern. Wir sprechen von Aufgaben, bei denen es darum geht, mit mehreren Parteien zu verhandeln, um eine Lösung zu erreichen. Cupcakeagi soll Einzelpersonen auf persönlicher Ebene unterstützen, aber es ist möglicherweise nicht geeignet, sehr komplizierte Probleme zu lösen. Machen Sie sich jedoch keine Sorgen, Cupcakeagi ist immer noch Ihre Anlaufstelle für all Ihre Cupcake-Backbedürfnisse! ???
Genauigkeit der sensorischen Datenumwandlung: Die Effektivität von Cupcakeagi hängt stark von der Genauigkeit der für die Umwandlung sensorischen Daten verwendeten neuronalen Netzwerkarchitekturen ab. Wenn diese Modelle nicht genau sind, kann Cupcakeagi die Eingabe des Benutzers falsch verstehen, was zu falschen oder ineffektiven Antworten führt. Aber ärgern Sie sich nicht, wir arbeiten ständig daran, die Genauigkeit von Cupcakeagi zu verbessern, um sicherzustellen, dass Sie die bestmögliche Erfahrung machen! ?
Ethik und Privatsphäre: Cupcakeagi hat das Potenzial, eine große Menge an personenbezogenen Daten der Benutzer zu sammeln und zu verarbeiten. Daher besteht das Risiko, dass sensible Daten beeinträchtigt werden können, was zu Datenschutzbedenken führt. Cupcakeagi wird es am besten tun, um Ihre Cupcake -Geheimnisse zu schützen! ?
Vielen Dank, dass Sie sich Cupcakeagi angesehen haben, und denken Sie daran, dass Sie mit Cupcakeagi an Ihrer Seite immer das perfekte Cupcake -Rezept haben! ?
Willkommen zum Abschluss unseres multisensorischen LLM -Agentenprojekts! ????
Hier sind die wichtigsten Imbissbuden aus unserem Projekt?