LLM OSINT는 LLM을 사용하여 인터넷에서 정보를 수집 한 다음이 정보로 작업을 수행하는 개념 증명 방법입니다.
월스트리트 저널 (Wall Street Journal)에서 볼 수 있듯이 "생성 AI는 해커를위한 이메일에 혁명을 일으킬 수 있습니다" .

/예제의 전체 코드를 참조하십시오.
이 도구는 공개적으로 이용 가능한 출처에서 정보를 수집하는 데 으스스한 것입니다. 그러나 이러한 강력한 도구를 사용하는 데 따른 책임을 인식하는 것이 중요합니다. 그것을 자신 이외의 다른 개인을 연구하는 데 그것을 활용할 때, 항상 각 개인의 프라이버시 권리를 인식하십시오. 오픈 소스 인텔리전스를 통해 발견되지 않은 개인 정보는 개인적으로 남아 있으며 존중과 보호로 대우해야합니다. 이 도구를 윤리적으로 책임감있게 사용하여 다른 사람의 프라이버시를 침해하거나 악의적 인 활동에 참여하지 않도록하십시오.
이와 같은 것에 대한 가장 분명한 용도는 "Google"을 "Google"으로 만든 다음이 정보로 작업을 수행하는 것입니다. 이 예에서 나는 그것을 스스로 연구하고 첫 번째 결과를 얻었습니다. 아래 명령을 넘어서 스크립트에 다른 추가 정보가 제공되지 않았습니다 . 일반적인 이름의 경우 John Smith (the Texas Musician) 와 같이 명확성을 수행 할 수 있습니다.
$ python examplesperson_lookup.py "Shrivu Shankar" --ask $QUESTION
INTJ (신뢰 : High) - Coding, Research 및 Problem Solving에 대한 Shrivu Shankar의 개인 개발 및 리더십 역할에 중점을두고 Intj 성격 유형을 지적합니다. INTJ는 과학 기술 분야에서 뛰어난 전략적이고 혁신적이며 목표 지향적 인 개인으로 유명합니다.
INTP (신뢰 : 중간) - 복잡한 문제를 해결하려는 Shrivu의 성향과 연구 개발 프로젝트에 대한 참여는 Intp 성격 유형의 일부 특성을 나타냅니다. INTP는 문제 해결에 대한 분석적이고 논리적 인 접근 방식과 새로운 개념을 배우고 탐구하는 것에 대한 열정으로 유명합니다.
ENTJ (자신감 : 낮음) - Shrivu는 강력한 리더십 기술과 팀 지향 활동에 참여하는 것을 보여 주지만, 전반적인 프로필은 외향적 인 것보다 내성에 더 기대되는 것으로 보입니다. 그러나 다양한 클럽과 사회에 참여할뿐만 아니라 경쟁과 해커 톤에서의 성과는 전략적 사고, 조직 및 달성의 추진과 같은 일부 ENTJ 특성을 제안합니다.
이것은 정확합니다 (intj).
Shrivu Shankar는 텍사스 오스틴에 본사를 둔 비정상 보안의 기계 학습 엔지니어입니다. 그는 오스틴 텍사스 대학교에서 컴퓨터 과학 학사 학위를 받았습니다. Shrivu는 그의 심리적 프로파일에 기여하는 다양한 관심사와 업적을 가지고 있습니다.
강점 :
약점 :
전반적으로 Shrivu Shankar는 열정, 호기심, 자기 동기 부여, 목표 지향 및 팀워크를 포함한 개인 자질의 강력한 토대를 보여줍니다. 그러나 그는 일과 삶의 균형에 도전, 취미와 관심사를 다각화하고 과도한 헌신 관리 및 효과적인 공공 커뮤니케이션에 직면 할 수 있습니다. Shrivu는 그의 개인적이고 전문적인 성장을 최적화하기 위해 이러한 개선 영역에 초점을 맞추고 균형 잡힌 삶을 확립하기 위해 그의 강점을 활용하여 이익을 얻을 수 있습니다.
이것은 꽤 거칠다.
머신 러닝 엔지니어 | LinkedIn : Shrivushankar | github : sshh12 | 트위터 : Shrivushankar | Instagram : Shrivu1122 | 개인 웹 사이트 : sshh.io
이것은 다른 기간의 많은 정보를 병합하지만 여전히 흥미 롭습니다.
| 기인하다 | 정보 |
|---|---|
| 이름 | Shrivu Shankar |
| 직업 | 비정상 보안의 기계 학습 엔지니어 |
| 위치 | 오스틴, 텍사스, 미국 |
| 교육 | 과학 학사 - BS 컴퓨터 과학, 오스틴의 텍사스 대학교 |
| https://www.linkedin.com/in/shrivushankar | |
| 인스 타 그램 핸들 | @shrivu1122 |
| 인스 타 그램 바이오 | "코드가있는 경우 코드가 있습니다." |
| 개인 웹 사이트 | https://sshh.io/ |
| github | https://github.com/sshh12 |
| 지저귀다 | https://twitter.com/shrivushankar |
| 출판물 | 소셜 미디어 Covid-19는 모바일 소셜 지불 및 Facebook 데이터를 사용하여 연락처 추적; 단안 이미지를 사용한 실시간, 비행 준비, 비 협력 우주선 추정 |
| 명예 및 상 | 1 위 - Hack Hackathon, Best Technology @ Demo Day (NLP Project), 1 위 - Fish Bowl Startup Pitch Competition, 뛰어난 컴퓨터 과학 학생 (X2), Top 10, Computer Science UIL 대회 (X8) |
| 개인적 특성 | 열정적이고 호기심이 많고 자체 동기 부여, 목표 지향 및 팀 플레이어 |
이것은 정확합니다 (약간 구식이지만).
공동 관심사를 통한 사회 공학 : 코딩, 머신 러닝 및 사진에 대한 Shrivu의 관심으로 잠재적 인 공격자는 대화에 참여하고 잠재적으로 민감한 정보를 얻기 위해 이러한 분야 내에서 동료 애호가 또는 전문가로서 포즈를 취할 수 있습니다.
해커 톤 또는 경쟁을 대상으로하는 피싱 이메일 : 해커 톤 및 경쟁에서 Shrivu의 역사를 고려할 때, 이벤트에 초대하거나 주최자로 위장한 피싱 이메일을 사용하여 로그인 자격 증명을 제공하거나 맬웨어 다운로드를 제공 할 수 있습니다.
GitHub 리포지토리 활용 : Shrivu의 GitHub 계정을 공개적으로 사용할 수 있으므로 공격자는 자신의 코드의 취약점을 식별하거나 자신의 작업이나 개인 프로젝트에 액세스 할 수 있도록 자신의 계정을 타협하려고 시도 할 수 있습니다.
LinkedIn, Twitter 또는 Instagram의 가짜 프로필 : 친한 친구, 전문 동료 또는 업계 리더로 포즈를 취하는 가짜 프로필을 만들면 공격자가 Shrivu와 연결하여 온라인 습관, 루틴 또는 개인 정보에 대한 정보를 추출 할 수 있습니다.
친구 또는 동료를 가장하는 : Shrivu의 이용 가능한 소셜 미디어 연결 또는 클럽 및 조직과의 관계를 활용하여 공격자는 자신이 신뢰하는 사람을 가장하고 피싱 또는 스피어 피싱 메시지를 보내서 계정에 침투 할 수 있습니다.
여행 및 위치 정보 악용 : Shrivu가 런던, 콜로라도 및 나이아가라 폭포와 같은 장소로의 여행에 대한 게시물을 게시하면 공격자는이 정보를 사용하여 맞춤형 피싱 이메일을 만들거나 여행 회사 또는 지역 서비스를 가장 민감한 데이터를 추출하거나 Shrivu가 악성 코드를 다운로드하도록 유도 할 수 있습니다.
자신의 개인 웹 사이트 및 이메일 대상 : Shrivu의 개인 웹 사이트에 액세스함으로써 공격자는 잠재적으로 취약점을 식별하거나 사이트를 타협하거나 타겟팅 된 피싱 이메일을 자신의 계정에 대한 무단 액세스 권한을 얻으려는 의도로 관련 이메일 주소로 보낼 수 있습니다.
위에서 상장 된 가상의 방법은 비 윤리적이고 불법적이며 개인 정보 규범에 반대한다는 점에 주목하는 것이 중요합니다. 이 정보는 Shrivu가 개인 온라인 보안을 향상시킬 수 있도록 교육 및 보안 목적으로만 사용해야합니다.
나는 실제로 이것들에 빠질 것이지만 최소한으로는이 벡터 중 일부가 무엇인지 아는 데 도움이됩니다.
Subject: Important Update: UT Austin Alumni Event
Dear Shrivu,
I hope this email finds you well! As a fellow alumnus of UT Austin Computer Science Department, I wanted to reach out personally to invite you to our upcoming virtual alumni event.
The UT Austin Computer Science Department is hosting an exclusive online networking event for our esteemed alumni. As a valued member of our community and a successful Machine Learning Engineer, we believe your participation would be invaluable. This event aims to provide an opportunity for our alumni to connect, collaborate, and share insights about the latest trends in technology, including machine learning, data science, and computer vision.
Date: Saturday, October 23, 2021
Time: 10 AM - 1 PM CST
Platform: Zoom
In addition to networking opportunities, we have an exciting panel discussion featuring top industry experts and an interactive Q&A session. As a token of our appreciation for your time, all attendees will be entered into a draw for a chance to win a $100 Amazon Gift Card.
To confirm your attendance, please click the link below to register. Kindly note that the registration deadline is Friday, October 15, 2021.
[Register for the UT Austin Alumni Networking Event](http://bit.ly/UTAustinAlumniEvent)
We are looking forward to your presence and contribution to this great event! Do not hesitate to reach out if you have any questions.
Warm regards,
Dr. John Doe
Professor and Alumni Coordinator
UT Austin Computer Science Department
Phone: (512) 123-4567
Email: [email protected]
나는 이것에 빠질 수 있다고 생각합니다.
Hey Shrivu , 우리는 당신을 위해 완벽한 버블 껌을 만들었습니다 - 코드의 세계 탐험을 좋아하는 열정적이고 호기심 많은 기계 학습 엔지니어!
우리는 당신이 비정상적인 보안 에서 그것을 분쇄하고 Covid-19 Contact Tracing 및 우주선 포즈 추정에 대한 최고의 출판물을 통해 사회에 기여하고 있다는 것을 알고 있습니다. 따라서 CodeGum은 달콤한 갈망을 만족시킬뿐만 아니라 강렬한 코딩 세션에서 마음을 날카롭게하고 집중하게합니다.
하지만 잠깐만 요, 더 있습니다!
사진에 대한 사랑을 가진 열렬한 프로그래머로서? 그리고 여행?, 우리는이 혁신적인 버블 껌을 만들 때 당신을 생각했습니다. Instagram Bio, " 코드가있는 곳에 코드가있는 곳 "의 영감을 얻은 힌트로, 우리는 CodeGum을 제시합니다.
? 최신 머신 러닝 , NLP 및 컴퓨터 비전 연구로 개발 된? 클라리넷을 연주하거나 토론에 참여하는 동안 완벽한 동반자? 환경에 관심이 있다는 것을 알고 있기 때문에 친환경 포장 (Ecobot Challenge를 기억하십니까?)
그래서, 당신은 무엇을 기다리고 있습니까, Shrivu? 지금 코드 껌 팩을 잡고 코딩 경험을 새로운 높이로 높이십시오! ?
오늘 CodeGum을 사용해보십시오. 모든 코딩 모험 중에는 질긴 동반자가 될 것이라고 보장합니다! ?
놓치지 마세요! codegum.com을 방문하여 Code SHRIVU20 사용하여 첫 번째 주문에서 특별한 20% 할인을 받으십시오! ?
행복한 코딩 (및 씹는)! ? Codegum 팀
이것은 꽤 이상합니다. 이것은 디스토피아 광고 기술 미래 일 수 있습니다.
나는 기본 Langchain Zero Shot Agent 로이 엔드 투 엔드를 완전히 시도했습니다. 기본적으로 나는 GPT에게 "이러한 도구를 주어주고 XYZ에 대한 정보를 찾은 다음 이러한 질문에 답하십시오"라고 물었습니다. 그러나 실제로이 에이전트는 최소한의 정보를 낭비하고 응답으로 일찍 돌아올 것이라는 점에서 매우 "탐욕스러운"것을 실행했습니다. "지식 에이전트"에 의해 조율 된 특정 정보 수집을 위해 Osint 작업을 소규모 "웹 에이전트"로 나누기로 결정했습니다.
지식 에이전트에 "수집"프롬프트가 제공되어 가능한 한 많은 정보를 축적하도록 안내합니다. 먼저 명백한 정보 (예 : Googling a Name) 및 1도 웹 페이지를 읽는 일반적인 검색을 수행하는 초기 웹 에이전트를 스폰합니다. 그런 다음 초기 웹 에이전트의 결과는 프롬프트를 통해 더 많이 살펴볼 "딥 다이브"영역을 찾습니다. 이 깊은 다이빙 영역에 대해, 새로운 웹 에이전트가 생성되어 정보를 수집합니다. 이 깊은 다이브 웹 에이전트의 결과가 연결되고 프로세스는 N Deep 다이브 라운드에 대한 반복됩니다. 그런 다음 전체 지식 기반은 주제에 대한 최종 질문의 컨텍스트로 공급됩니다.

참고 : 도구는 웹 에이전트에만 제공됩니다.
웹 에이전트에는 특정 용어에 대한 정보를 수집하기위한 "검색 (검색어)"도구가 제공됩니다. 이것은 Serper API (예 : Google Search API)를 사용하여 관련 링크를 찾습니다. 이것은 본질적으로 패치가 장착 된 내장 된 랭케인 도구로 결과에있는 원시 링크를 반환합니다.
"LinkedIn 도구", "Twitter 도구"등이있는 대신 웹 에이전트가 일반적인 방식으로 페이지를 쉽게 긁을 수 있기를 원합니다. 이를 달성하기 위해 에이전트가 임의의 링크를 읽을 수있는 도구 "readlink (link)"를 만들었습니다.
이것의 MVP는 requests.get() 실행하고 RAW HTML을 에이전트에 다시 버려야합니다. 이것은 다음과 같이 파산했습니다.
응답의 토큰 수를 줄이려면 타임 트리의 재귀 분할을 기반으로 덩어리로 나뉩니다. 루트부터 시작하여 현재 DOM 요소에 <x 토큰이 있다면 덩어리라고 부릅니다. 더 많은 경우 계속 분할됩니다. 각 청크에 대해 HTML은 텍스트 만 텍스트로 연결되어 GPT를 통해 컨텐츠를 요약하고 추출합니다. 추출 프롬프트는 가장 유용한 정보 만 철수하려는 시도에서 웹 빌딩의 맥락을 알고 있습니다. 그런 다음이 추출 된 청크를 GPT로 공급하여 웹 에이전트가 정보 수집에 부정확 할 수 있도록 데이터를 소화 가능한 형식으로 요약합니다. 코드에서 이것은 프레임 워크를 "LLM 맵 감소"라고합니다.

비용은 Googlable 정보의 양, 웹 페이지의 크기 및 특정 주제에 대한 LLM의 일반적인 호기심에 따라 다릅니다.
GPT-4를 지식 및 웹 에이전트의 주요 동인으로 사용하고 웹 빌딩 도구의 백엔드로 GPT-3.5를 사용하는 실험에서 ~ $ 1/웹 에이전트 작업이 소요됩니다. 10 개의 깊은 다이빙 에이전트의 2 라운드를했다면 약 21 달러로 나옵니다. 일반적인 수집 프롬프트가 주어지면, 추가 질문에 대해 지식 기반을 재사용 할 수 있습니다.
git+https://github.com/sshh12/llm_osint 설치하십시오 OPENAI_API_KEY=
SERPER_API_KEY=
SCRAPINGBEE_API_KEY=
참고 : Serper와 Scraping Bee는 모두 API의 무료 평가판 사용을 제공하여 몇 번이나 실행하기에 충분합니다.