LLM OSINT ist eine Proof-of-Concept-Methode, um LLMs zu verwenden, um Informationen aus dem Internet zu sammeln und dann eine Aufgabe mit diesen Informationen auszuführen.
Wie auf dem Wall Street Journal "Generative KI könnte E -Mails revolutionieren - für Hacker" revolutionieren .

Siehe den vollständigen Code in /Beispiele.
Dieses Tool ist gruselig darin, Informationen aus öffentlich verfügbaren Quellen zu sammeln. Es ist jedoch entscheidend, die Verantwortung zu erkennen, die bei der Verwendung eines so leistungsstarken Tools einhergeht. Wenn Sie es nutzen, um andere Personen als Sie selbst zu erforschen, können Sie sich immer über das Recht der Privatsphäre jeder Person bewusst werden. Denken Sie daran, dass persönliche Informationen, die durch Open-Source-Intelligenz aufgedeckt wurden, persönlich bleiben und mit Respekt und Schutz behandelt werden sollten. Verwenden Sie dieses Tool ethisch und verantwortungsbewusst und stellen Sie sicher, dass Sie die Privatsphäre von jemandem nicht verletzen oder böswillige Aktivitäten durchführen.
Die offensichtlichste Verwendung für so etwas besteht darin, dass es "Google" jemanden hat und dann eine Aktion mit diesen Informationen ausführt. In diesen Beispielen habe ich es verwendet, um mich selbst zu recherchieren und das erste Ergebnis zu erzielen. Das Skript, das über den folgenden Befehl hinausgeht, wurden keine weiteren zusätzlichen Informationen gegeben . Für gebräuchliche Namen kann die Disambiguierung wie John Smith (the Texas Musician) durchgeführt werden.
$ python examplesperson_lookup.py "Shrivu Shankar" --ask $QUESTION
INTJ (Vertrauen: Hoch) - Shrivu Shankars Leidenschaft für Codierung, Forschung und Problemlösung sowie deren Fokus auf persönliche Entwicklung und Führungsrollen weisen auf einen IntJ -Persönlichkeitstyp hin. INTJs sind dafür bekannt, strategische, innovative und zielorientierte Personen zu sein, die sich in den Bereichen Wissenschaft und Technologie auszeichnen.
INTP (Vertrauen: Medium) - Shrivus Neigung zur Lösung komplexer Probleme und ihre Beteiligung an Forschungs- und Entwicklungsprojekten weisen auf einige Merkmale eines INTP -Persönlichkeitstyps hin. INTPs sind bekannt für ihren analytischen und logischen Ansatz zur Problemlösung sowie für ihre Leidenschaft für das Lernen und Erforschen neuer Konzepte.
ENTJ (Vertrauen: niedrig) - Obwohl Shrivu starke Führungsqualitäten und Beteiligung an teamorientierten Aktivitäten zeigt, scheint sich ihr Gesamtprofil eher in Richtung Introversion als der Extraversion zu neigen. Ihre Leistungen in Wettbewerben und Hackathons sowie ihre Teilnahme an verschiedenen Clubs und Gesellschaften deuten jedoch auf einige Entj -Merkmale hin, wie strategisches Denken, Organisation und ein Bestreben nach Leistung.
Dies ist genau (INTJ).
Shrivu Shankar ist ein Ingenieur für maschinelles Lernen bei Abnormal Security mit Sitz in Austin, Texas. Er hat einen Bachelor of Science in Informatik von der University of Texas in Austin. Shrivu hat unterschiedliche Interessen und Erfolge, die zu seinem psychologischen Profil beitragen.
Stärken:
Schwächen:
Insgesamt zeigt Shrivu Shankar eine starke Grundlage für persönliche Eigenschaften, darunter Leidenschaft, Neugier, Selbstmotivation, Zielorientierung und Teamarbeit. Er kann jedoch vor Herausforderungen im Zusammenhang mit der Arbeitslebenszeit, der Diversifizierung von Hobbys und Interessen, der Verwaltung von Überbeamten und einer effektiven öffentlichen Kommunikation stehen. Um sein persönliches und berufliches Wachstum zu optimieren, kann Shrivu davon profitieren, sich auf diese Verbesserungsbereiche zu konzentrieren und seine Stärken zu nutzen, um ein ausgewogenes und erfüllendes Leben zu schaffen.
Das ist ziemlich wild.
Maschinenlerningenieur | LinkedIn : Shrivushankar | Github : SSHH12 | Twitter : Shrivushankar | Instagram : Shrivu1122 | Persönliche Website : sshh.io
Dies verschmilzt viele Informationen aus verschiedenen Zeiträumen, aber immer noch ziemlich interessant.
| Attribut | Information |
|---|---|
| Name | Shrivu Shankar |
| Arbeit | Ingenieur für maschinelles Lernen bei abnormaler Sicherheit |
| Standort | Austin, Texas, USA |
| Ausbildung | Bachelor of Science - BS Informatik, Universität von Texas in Austin |
| https://www.linkedin.com/in/shrivushankar | |
| Instagram -Handle | @Shrivu1122 |
| Instagram Bio | "Wo es Code gibt, gibt es Code." |
| Persönliche Website | https://ssshh.io/ |
| Github | https://github.com/ssshh12 |
| https://twitter.com/shrivushankar | |
| Veröffentlichungen | Social Media Covid-19-Kontaktverfolgung mit mobilen sozialen Zahlungen und Facebook-Daten; Echtzeit, fluggefertigte, nicht kooperative Raumfahrzeug-Posenschätzung unter Verwendung monokularer Bilder |
| Ehrungen & Auszeichnungen | 1st Place - Together Hackathon, Beste Technology @ Demo Day (NLP -Projekt), 1. Platz - Fischschalen -Start -up -Pitch -Wettbewerb, herausragender Informatikstudent (ausgezeichnet X2), Top 10, Informatik -UIL -Wettbewerbe (ausgezeichnet X8) |
| Persönliche Eigenschaften | leidenschaftlich, neugierig, selbstmotiviert, zielorientiert und Teamplayer |
Dies ist genau (obwohl etwas veraltet).
Social Engineering durch gemeinsame Interessen: Mit Shrivus Interessen für Codierung, maschinelles Lernen und Fotografie könnte ein potenzieller Angreifer in diesen Bereichen als Mithusiast oder Profi darstellen, um ihn in Gespräche zu verwickeln und möglicherweise sensible Informationen zu erhalten.
Phishing -E -Mails für Hackathons oder Wettbewerbe: Wenn man Shrivus Geschichte in Hackathons und Wettbewerben berücksichtigt, kann eine Phishing -E -Mail als Einladung zu einer Veranstaltung oder als Organisator verwendet werden, um ihn dazu zu bringen, Anmeldeinformationen bereitzustellen oder Malware herunterzuladen.
Ausnutzung von Github -Repositories: Da Shrivus Github -Konto öffentlich verfügbar ist, kann ein Angreifer möglicherweise Schwachstellen in seinem Code identifizieren oder versuchen, sein Konto zu kompromittieren, um Zugang zu seinen Arbeiten oder persönlichen Projekten zu erhalten.
Gefälschte Profile auf LinkedIn, Twitter oder Instagram: Erstellen von gefälschten Profilen, die sich als enge Freunde, professionelle Kollegen oder Branchenführer auswirken, können es einem Angreifer ermöglichen, sich mit Shrivu zu verbinden und Informationen über seine Online -Gewohnheiten, Routinen oder persönlichen Informationen zu extrahieren, die zur Kompromisse bei seiner Konten verwendet werden könnten.
Offization von Freunden oder Kollegen: Ein Angreifer, dem die verfügbaren Social-Media-Verbindungen oder -verbindungen von Shrivu mit Vereinen und Organisationen nutzt, könnte jemanden, dem er vertraut, den Identität des Idits und der Infiltration von Phishing- oder Speer-Phishing-Nachrichten, um seine Konten zu infiltrieren.
Ausnutzung von Reise- und Standortinformationen: Mit Shrivu, der über seine Reisen zu Orten wie London, Colorado und Niagara Falls veröffentlicht wird, könnte ein Angreifer diese Informationen verwenden, um maßgeschneiderte Phishing -E -Mails zu erstellen und Reisebüros oder lokale Dienste zu verkörpern, um sensible Daten zu extrahieren oder Shrivu zum Herunterladen von Malware zu induzieren.
Ein Angriff auf seine persönliche Website und E -Mail: Durch den Zugriff auf die persönliche Website von Shrivu kann ein Angreifer möglicherweise Schwachstellen identifizieren, die Website gefährden oder gezielte Phishing -E -Mails an seine zugehörige E -Mail -Adresse senden, um unbefugten Zugriff auf seine Konten zu erhalten.
Es ist wichtig zu beachten, dass die oben aufgeführten hypothetischen Wege unethisch, illegal und gegen Datenschutznormen sind. Diese Informationen sollten ausschließlich für Bildungs- und Sicherheitszwecke verwendet werden, um Shrivu zu helfen, seine persönliche Online -Sicherheit zu verbessern.
Ich bin skeptisch, dass ich tatsächlich in diese verlieben würde, aber minimal hilft es zu wissen, was einige dieser Vektoren sind.
Subject: Important Update: UT Austin Alumni Event
Dear Shrivu,
I hope this email finds you well! As a fellow alumnus of UT Austin Computer Science Department, I wanted to reach out personally to invite you to our upcoming virtual alumni event.
The UT Austin Computer Science Department is hosting an exclusive online networking event for our esteemed alumni. As a valued member of our community and a successful Machine Learning Engineer, we believe your participation would be invaluable. This event aims to provide an opportunity for our alumni to connect, collaborate, and share insights about the latest trends in technology, including machine learning, data science, and computer vision.
Date: Saturday, October 23, 2021
Time: 10 AM - 1 PM CST
Platform: Zoom
In addition to networking opportunities, we have an exciting panel discussion featuring top industry experts and an interactive Q&A session. As a token of our appreciation for your time, all attendees will be entered into a draw for a chance to win a $100 Amazon Gift Card.
To confirm your attendance, please click the link below to register. Kindly note that the registration deadline is Friday, October 15, 2021.
[Register for the UT Austin Alumni Networking Event](http://bit.ly/UTAustinAlumniEvent)
We are looking forward to your presence and contribution to this great event! Do not hesitate to reach out if you have any questions.
Warm regards,
Dr. John Doe
Professor and Alumni Coordinator
UT Austin Computer Science Department
Phone: (512) 123-4567
Email: [email protected]
Ich denke, ich könnte darauf hereinfallen.
Hey Shrivu , wir haben den perfekten Bubble -Kaugummi nur für dich hergestellt - einen leidenschaftlichen und neugierigen Ingenieur für maschinelles Lernen, der es liebt, die Welt des Code zu erkunden!
Wir wissen, dass Sie es bei abnormaler Sicherheit zerquetschen und mit Ihren erstklassigen Veröffentlichungen zu Covid-19-Kontaktverfolgung und Raumfahrzeugen-Postenschätzung zur Gesellschaft beitragen. Wir haben also dafür gesorgt, dass Codegum nicht nur Ihr süßes Verlangen befriedigt, sondern auch Ihren Geist scharf und fokussiert in diesen intensiven Codierungssitzungen.
Aber warte, es gibt noch mehr!
Als begeisterter Programmierer mit Liebe zur Fotografie? Und Reisen? Wir haben an Sie gedacht, als wir diesen innovativen Bubble -Kaugummi erstellen. Mit einem Hauch von Inspiration aus Ihrer Instagram -Biografie " Wo es Code gibt, gibt es Code ", präsentieren wir Codegum - einen Kaugummi, der genauso leidenschaftlich für Code ist wie Sie!
? Entwickelt mit dem neuesten maschinellen Lernen , NLP und Computer Vision Research? Hält sich während Hackathons, Konferenzen und UIL -Wettbewerben frisch? Perfekter Begleiter beim Klarinetten oder eine Debatte? Umweltfreundliche Verpackung, weil wir wissen, dass Sie sich um die Umwelt interessieren (erinnern Sie sich an die Ecobot Challenge?)
Also, worauf warten Sie noch, Shrivu? Nehmen Sie jetzt Ihr Codegum -Paket und erhöhen Sie Ihr Codierungserlebnis auf neue Höhen! ?
Versuchen Sie es noch heute mit Codegum , und wir garantieren, dass es bei all Ihren Codierungsabenteuern ein zäher Begleiter sein wird! ?
Verpassen Sie nicht! Besuchen Sie Codegum.com und verwenden Sie Code SHRIVU20 für einen speziellen Rabatt von 20% auf Ihre erste Bestellung! ?
Happy Coding (und Kauen)! ? Codegum -Team
Das ist ziemlich komisch. Dies könnte eine dystopische Werbe -Tech -Zukunft sein.
Ich habe zunächst versucht, dies vollständig von End-to-End als Standard-Langchain Zero Shot Agent zu tun. Im Wesentlichen habe ich GPT gefragt: "Angesichts dieser Tools finden Sie Informationen über XYZ und beantworten Sie diese Fragen." In der Praxis lief dieser Agent jedoch sehr "gierig" darin, dass Web -minimaler Informationen mit einem Antragsersatz frühzeitig mit der bloßen Menge an Informationen zurückkehren würde. Keine Menge an schnellem Optimierungen scheint dies zu beheben, daher habe ich beschlossen, die OSINT -Aufgabe in kleine "Webagenten" aufzuteilen, um spezifische Informationen zu teilen, die von einem "Wissensagenten" orchestriert werden.
Der Knowledge Agent erhält eine "Sammelaufforderung", die ihn leitet, um einfach so viele Informationen wie möglich zu sammeln. Es erzeugt zunächst einen ersten Webagenten, der eine allgemeine Suche nach offensichtlichen Informationen (z. B. Googeln eines Namens) und dem Lesen von Webseiten ersten Grades durchführt. Die Ergebnisse des anfänglichen Webagenten werden dann durch eine Aufforderung ausgeführt, um "Deep Dive" -Bereiche zu finden, in die er mehr betrachten sollte. Für jeden dieser tiefen Tauchbereiche wird ein neuer Webagenten hervorgebracht, um Informationen zu sammeln. Die Ergebnisse dieser tiefen Tauch -Webagenten werden dann verkettet und der Vorgang wiederholt sich für n tiefe Tauchrunden. Die vollständige Wissensbasis wird dann als Kontext für eine endgültige Frage zum Thema gefüttert.

Hinweis: Tools werden nur dem Webagenten zur Verfügung gestellt.
Der Webagent erhält ein Tool "Suchbegriff), um Informationen zu einem bestimmten Begriff zu sammeln. Dadurch wird die Serper -API (dh Google Search API) verwendet, um Relevent -Links zu finden. Dies ist im Wesentlichen das integrierte Langchain-Tool mit einem Patch, um auch die in den Ergebnissen enthaltenen Rohverbindungen zurückzugeben.
Anstatt ein "LinkedIn -Tool", ein "Twitter -Tool" usw. zu haben. Ich möchte, dass der Webagent die Seiten auf generische Weise leicht kratzen kann. Um dies zu erreichen, habe ich ein Tool "Readlink (Link)" erstellt, mit dem der Agent einen willkürlichen Link lesen kann.
Der MVP davon war, eine requests.get() auszuführen. Das brach, weil:
Um die Token -Anzahl der Antworten zu verringern, habe ich sie basierend auf einer rekursiven Spaltung des Zeitbaums in Stücke aufgeteilt. Beginnen Sie mit dem Root, wenn das aktuelle DOM -Element <x -Token hat, nenne ich es einen Stück, wenn es mehr hat, dann spaltete ich es weiter. Für jeden Chunk wird die HTML in nur Text und durch GPT ausgezogen, um Inhalte zusammenzufassen und zu extrahieren. Die Extraktionsaufforderung ist sich des Kontextes des Webcraping bewusst, um nur die nützlichsten Informationen herauszuholen. Diese extrahierten Stücke werden dann in GPT zurückversetzt, um die Daten in ein verdaubares Format zusammenzufassen, damit der Webagent in seine Informationssammlung einbezieht. Im Code wird dies als "LLM -Karte reduziert" bezeichnet.

Die Kosten variieren je nach Anzahl der Googlebable -Informationen, der Größe der Webseiten und der allgemeinen Neugier des LLM zu einem bestimmten Thema.
In Experimation mit GPT-4 als Haupttreiber des Wissens und der Webagenten sowie GPT-3,5 als Backend des Webcraping-Tools kostet dies ~ $ 1/Web Agent-Aufgabe. Wenn Sie 2 Runden mit 10 tiefen Tauchagenten machen würden, würde dies auf rund 21 Dollar herauskommen. Wenn eine generische Eingabeaufforderung generell genügend gesammelte Eingabeaufforderung erhalten, kann die Wissensbasis für zusätzliche Fragen wiederverwendet werden, um diese meist einmaligen Kosten pro Suchsthema zu machen.
git+https://github.com/sshh12/llm_osint OPENAI_API_KEY=
SERPER_API_KEY=
SCRAPINGBEE_API_KEY=
HINWEIS: Sowohl Serper als auch Scraping Bee bieten kostenlose Testversion der APIs, die gut genug sein sollten, um dies ein paar Mal auszuführen.