LLM Osint เป็นวิธีการพิสูจน์แนวคิดของการใช้ LLM เพื่อรวบรวมข้อมูลจากอินเทอร์เน็ตจากนั้นทำงานกับข้อมูลนี้
เท่าที่เห็นในวารสาร Wall Street "Generative AI สามารถปฏิวัติอีเมล - สำหรับแฮ็กเกอร์"

ดูรหัสเต็มใน /ตัวอย่าง
เครื่องมือนี้น่ากลัวในการรวบรวมข้อมูลจากแหล่งข้อมูลสาธารณะ อย่างไรก็ตามมันเป็นสิ่งสำคัญที่จะตระหนักถึงความรับผิดชอบที่มาพร้อมกับการใช้เครื่องมือที่ทรงพลังดังกล่าว เมื่อใช้ประโยชน์กับบุคคลอื่นที่ไม่ใช่ตัวคุณเองให้รับรู้ถึงสิทธิส่วนบุคคลของแต่ละคนเสมอ โปรดจำไว้ว่าข้อมูลส่วนบุคคลที่เปิดเผยผ่านข่าวกรองโอเพ่นซอร์สยังคงเป็นส่วนตัวและควรได้รับการปฏิบัติด้วยความเคารพและการป้องกัน ใช้เครื่องมือนี้อย่างมีจริยธรรมและมีความรับผิดชอบเพื่อให้แน่ใจว่าคุณจะไม่ละเมิดความเป็นส่วนตัวของใครหรือมีส่วนร่วมในกิจกรรมที่เป็นอันตราย
การใช้งานที่ชัดเจนที่สุดสำหรับสิ่งนี้คือการมีใครบางคน "Google" แล้วดำเนินการกับข้อมูลนี้ ในตัวอย่างเหล่านี้ฉันใช้มันเพื่อค้นคว้าตัวเองและรับผลลัพธ์แรก ไม่มีข้อมูลเพิ่มเติมอื่น ๆ ให้กับสคริปต์นอกเหนือจากคำสั่งด้านล่าง สำหรับชื่อสามัญ disambiguation สามารถทำได้เช่น John Smith (the Texas Musician)
$ python examplesperson_lookup.py "Shrivu Shankar" --ask $QUESTION
INTJ (ความมั่นใจ: สูง) - ความหลงใหลในการเขียนโค้ดการวิจัยและการแก้ปัญหาของ Shrivu Shankar พร้อมกับการพัฒนาส่วนบุคคลและบทบาทความเป็นผู้นำชี้ไปที่บุคลิกภาพของ INTJ INTJs เป็นที่รู้จักกันดีว่าเป็นกลยุทธ์เชิงกลยุทธ์นวัตกรรมและบุคคลที่มุ่งเน้นเป้าหมายที่เก่งในด้านวิทยาศาสตร์และเทคโนโลยี
INTP (ความเชื่อมั่น: สื่อ) - ความชอบของ Shrivu ในการแก้ปัญหาที่ซับซ้อนและการมีส่วนร่วมในโครงการวิจัยและพัฒนาระบุลักษณะบางอย่างของประเภทบุคลิกภาพ INTP INTP เป็นที่รู้จักกันดีในเรื่องการวิเคราะห์และตรรกะในการแก้ปัญหารวมถึงความหลงใหลในการเรียนรู้และสำรวจแนวคิดใหม่ ๆ
ENTJ (ความเชื่อมั่น: ต่ำ) - แม้ว่า Shrivu จะแสดงให้เห็นถึงทักษะความเป็นผู้นำที่แข็งแกร่งและการมีส่วนร่วมในกิจกรรมที่มุ่งเน้นทีม แต่โปรไฟล์โดยรวมของพวกเขาดูเหมือนจะเอนไปสู่การเก็บตัวมากกว่าการแสดงตัว อย่างไรก็ตามความสำเร็จของพวกเขาในการแข่งขันและแฮ็คฮอร์นรวมถึงการมีส่วนร่วมในสโมสรและสังคมต่างๆแนะนำลักษณะของ ENTJ เช่นการคิดเชิงกลยุทธ์องค์กรและแรงผลักดันเพื่อความสำเร็จ
สิ่งนี้แม่นยำ (INTJ)
Shrivu Shankar เป็นวิศวกรการเรียนรู้ของเครื่องจักรที่ Normal Security ซึ่งตั้งอยู่ใน Austin, Texas เขามีวิทยาศาสตรบัณฑิตสาขาวิทยาศาสตร์คอมพิวเตอร์จากมหาวิทยาลัยเท็กซัสที่ออสติน Shrivu มีความสนใจและความสำเร็จที่หลากหลายซึ่งนำไปสู่โปรไฟล์ทางจิตวิทยาของเขา
จุดแข็ง:
จุดอ่อน:
โดยรวมแล้ว Shrivu Shankar แสดงให้เห็นถึงรากฐานที่แข็งแกร่งของคุณสมบัติส่วนบุคคลรวมถึงความหลงใหลความอยากรู้อยากเห็นแรงจูงใจในการปรับเป้าหมายเป้าหมายและการทำงานเป็นทีม อย่างไรก็ตามเขาอาจเผชิญกับความท้าทายในความสมดุลระหว่างชีวิตการทำงานการกระจายงานอดิเรกและความสนใจการจัดการการ overcommitment และการสื่อสารสาธารณะที่มีประสิทธิภาพ เพื่อเพิ่มประสิทธิภาพการเติบโตส่วนบุคคลและอาชีพของเขา Shrivu อาจได้รับประโยชน์จากการมุ่งเน้นไปที่การปรับปรุงด้านเหล่านี้ใช้ประโยชน์จากจุดแข็งของเขาเพื่อสร้างชีวิตที่สมดุลและเติมเต็ม
นี่มันค่อนข้างดุร้าย
วิศวกรการเรียนรู้ของเครื่อง LinkedIn : Shrivushankar | GitHub : SSHH12 | Twitter : Shrivushankar | Instagram : Shrivu1122 | เว็บไซต์ส่วนตัว : sshh.io
สิ่งนี้รวมข้อมูลจำนวนมากจากช่วงเวลาที่แตกต่างกัน แต่ก็ยังน่าสนใจทีเดียว
| คุณลักษณะ | ข้อมูล |
|---|---|
| ชื่อ | Shrivu Shankar |
| งาน | วิศวกรการเรียนรู้ของเครื่องที่ความปลอดภัยผิดปกติ |
| ที่ตั้ง | ออสตินเท็กซัสสหรัฐอเมริกา |
| การศึกษา | วิทยาศาสตรบัณฑิต - วิทยาศาสตร์คอมพิวเตอร์ BS, มหาวิทยาลัยเท็กซัสที่ออสติน |
| https://www.linkedin.com/in/shrivushankar | |
| มือจับ Instagram | @Shrivu1122 |
| Instagram Bio | "ที่มีรหัสมีรหัส" |
| เว็บไซต์ส่วนตัว | https://sshh.io/ |
| คนอื่น ๆ | https://github.com/sshh12 |
| https://twitter.com/shrivushankar | |
| สิ่งพิมพ์ | โซเชียลมีเดีย COVID-19 การติดตามการติดต่อโดยใช้การชำระเงินทางสังคมมือถือและข้อมูล Facebook ยานอวกาศแบบเรียลไทม์พร้อมเที่ยวบินที่ไม่ร่วมมือ |
| เกียรตินิยมและรางวัล | อันดับที่ 1 - แฮ็ค Hackathon, Best Technology @ Demo Day (โครงการ NLP), อันดับที่ 1 - การแข่งขันระดับเริ่มต้นของ Fish Bowl, นักศึกษาวิทยาศาสตร์คอมพิวเตอร์ดีเด่น (ได้รับรางวัล X2), 10 อันดับแรก, การแข่งขัน UIL วิทยาศาสตร์คอมพิวเตอร์ (รางวัล x8) |
| ลักษณะส่วนบุคคล | หลงใหลมีความอยากรู้อยากเห็นมีแรงจูงใจตนเองมุ่งเน้นเป้าหมายและผู้เล่นในทีม |
สิ่งนี้แม่นยำ (แม้ว่าจะล้าสมัยเล็กน้อย)
วิศวกรรมสังคมผ่านความสนใจร่วมกัน: ด้วยความสนใจของ Shrivu ในการเขียนโค้ดการเรียนรู้ของเครื่องจักรและการถ่ายภาพผู้โจมตีที่มีศักยภาพอาจก่อให้เกิดความกระตือรือร้นหรือมืออาชีพในสาขาเหล่านี้เพื่อให้เขามีส่วนร่วมในการสนทนาและอาจได้รับข้อมูลที่ละเอียดอ่อน
อีเมลฟิชชิ่งที่กำหนดเป้าหมายไปที่แฮ็กฮ็อตหรือการแข่งขัน: เมื่อพิจารณาถึงประวัติของ Shrivu ในการแฮ็กและการแข่งขันอีเมลฟิชชิ่งที่ปลอมตัวเป็นคำเชิญให้เข้าร่วมกิจกรรมหรือในฐานะผู้จัดงานสามารถใช้เพื่อหลอกให้เขาให้ข้อมูลรับรองการเข้าสู่ระบบหรือดาวน์โหลดมัลแวร์
การใช้ประโยชน์จากที่เก็บของ GitHub: เนื่องจากบัญชี GitHub ของ Shrivu นั้นเปิดเผยต่อสาธารณชนผู้โจมตีอาจระบุช่องโหว่ในรหัสของเขาหรือพยายามประนีประนอมบัญชีของเขาเพื่อเข้าถึงงานหรือโครงการส่วนตัวของเขา
โปรไฟล์ปลอมใน LinkedIn, Twitter หรือ Instagram: การสร้างโปรไฟล์ปลอมที่วางตัวเป็นเพื่อนสนิทเพื่อนร่วมงานมืออาชีพหรือผู้นำอุตสาหกรรมสามารถอนุญาตให้ผู้โจมตีเชื่อมต่อกับ Shrivu และแยกข้อมูลเกี่ยวกับนิสัยออนไลน์กิจวัตรหรือข้อมูลส่วนบุคคลที่สามารถใช้ในการประนีประนอมบัญชีของเขา
การแอบอ้างเป็นเพื่อนหรือเพื่อนร่วมงาน: ใช้ประโยชน์จากการเชื่อมต่อสื่อสังคมออนไลน์ของ Shrivu หรือสมาคมกับสโมสรและองค์กรผู้โจมตีสามารถปลอมตัวเป็นคนที่เขาไว้วางใจและส่งข้อความฟิชชิงหรือหอกฟิชชิ่งเพื่อแทรกซึมบัญชีของเขา
การใช้ประโยชน์จากข้อมูลการเดินทางและสถานที่ตั้ง: ด้วยการโพสต์ของ Shrivu เกี่ยวกับการเดินทางไปยังสถานที่ต่าง ๆ เช่นลอนดอนโคโลราโดและน้ำตกไนแองการ่าผู้โจมตีสามารถใช้ข้อมูลนี้เพื่อสร้างอีเมลฟิชชิ่งที่เหมาะสม
การกำหนดเป้าหมายเว็บไซต์ส่วนตัวและอีเมลของเขา: โดยการเข้าถึงเว็บไซต์ส่วนตัวของ Shrivu ผู้โจมตีอาจระบุช่องโหว่ประนีประนอมเว็บไซต์หรือส่งอีเมลฟิชชิ่งเป้าหมายไปยังที่อยู่อีเมลที่เกี่ยวข้องของเขาโดยมีเจตนาที่จะเข้าถึงบัญชีของเขาโดยไม่ได้รับอนุญาต
เป็นสิ่งสำคัญที่จะต้องทราบว่าวิธีการสมมุติฐานที่ระบุไว้ข้างต้นนั้นผิดจรรยาบรรณผิดกฎหมายและต่อต้านบรรทัดฐานความเป็นส่วนตัว ข้อมูลนี้ควรใช้เพื่อวัตถุประสงค์ทางการศึกษาและความปลอดภัยเพียงอย่างเดียวเพื่อช่วยให้ SHRIVU ปรับปรุงความปลอดภัยออนไลน์ส่วนบุคคลของเขา
ฉันสงสัยว่าจริง ๆ แล้วฉันจะตกหลุมรักสิ่งเหล่านี้ แต่น้อยที่สุดมันช่วยให้รู้ว่าเวกเตอร์เหล่านี้คืออะไร
Subject: Important Update: UT Austin Alumni Event
Dear Shrivu,
I hope this email finds you well! As a fellow alumnus of UT Austin Computer Science Department, I wanted to reach out personally to invite you to our upcoming virtual alumni event.
The UT Austin Computer Science Department is hosting an exclusive online networking event for our esteemed alumni. As a valued member of our community and a successful Machine Learning Engineer, we believe your participation would be invaluable. This event aims to provide an opportunity for our alumni to connect, collaborate, and share insights about the latest trends in technology, including machine learning, data science, and computer vision.
Date: Saturday, October 23, 2021
Time: 10 AM - 1 PM CST
Platform: Zoom
In addition to networking opportunities, we have an exciting panel discussion featuring top industry experts and an interactive Q&A session. As a token of our appreciation for your time, all attendees will be entered into a draw for a chance to win a $100 Amazon Gift Card.
To confirm your attendance, please click the link below to register. Kindly note that the registration deadline is Friday, October 15, 2021.
[Register for the UT Austin Alumni Networking Event](http://bit.ly/UTAustinAlumniEvent)
We are looking forward to your presence and contribution to this great event! Do not hesitate to reach out if you have any questions.
Warm regards,
Dr. John Doe
Professor and Alumni Coordinator
UT Austin Computer Science Department
Phone: (512) 123-4567
Email: [email protected]
ฉันคิดว่าฉันจะตกหลุมรักสิ่งนี้
เฮ้ Shrivu เราได้สร้างหมากฝรั่งฟองที่สมบูรณ์แบบสำหรับ คุณ - วิศวกรการเรียนรู้ของเครื่องจักรที่หลงใหลและอยากรู้อยากเห็นที่รักการสำรวจโลกแห่งรหัส!
เรารู้ว่าคุณกำลังบดขยี้มันด้วย ความปลอดภัยที่ผิดปกติ และมีส่วนร่วมในสังคมด้วยสิ่งพิมพ์ชั้นนำของคุณเกี่ยวกับการติดตามการติดต่อของ COVID-19 และการประมาณยานอวกาศ ดังนั้นเราจึงตรวจสอบให้แน่ใจว่า codegum ไม่เพียง แต่ตอบสนองความอยากหวาน ๆ ของคุณเท่านั้น
แต่เดี๋ยวก่อนมีอีกมาก!
ในฐานะโปรแกรมเมอร์ตัวยงที่มีความรักในการถ่ายภาพ? และการเดินทาง? เราคิดถึงคุณเมื่อสร้างหมากฝรั่งฟองที่เป็นนวัตกรรมนี้ ด้วยคำแนะนำของแรงบันดาลใจจาก Bio Instagram ของคุณ " ที่มีรหัสมีรหัส " เรานำเสนอ codegum - หมากฝรั่งที่หลงใหลเกี่ยวกับรหัสอย่างที่คุณเป็น!
- พัฒนาขึ้นด้วย การเรียนรู้ของเครื่องจักร ล่าสุด NLP และการวิจัย วิสัยทัศน์คอมพิวเตอร์ ทำให้จิตใจของคุณสดชื่นในระหว่างการแฮ็กฮอร์นการประชุมและการแข่งขัน UIL? เพื่อนที่สมบูรณ์แบบในขณะที่เล่นคลาริเน็ตหรือมีส่วนร่วมในการอภิปราย? บรรจุภัณฑ์ที่เป็นมิตรกับสิ่งแวดล้อมเพราะเรารู้ว่าคุณใส่ใจเกี่ยวกับสภาพแวดล้อม (จำความท้าทายของ Ecobot ได้ไหม?)
แล้วคุณจะรออะไร Shrivu? คว้า codegum ของคุณตอนนี้และยกระดับประสบการณ์การเข้ารหัสของคุณให้สูงขึ้น! -
ลอง Codegum วันนี้และเรารับประกันได้ว่ามันจะเป็นเพื่อนที่เหนียวแน่นในระหว่างการผจญภัยการเข้ารหัสทั้งหมดของคุณ! -
อย่าพลาด! เยี่ยมชม codegum.com และใช้รหัส SHRIVU20 เพื่อรับส่วนลดพิเศษ 20% สำหรับการสั่งซื้อครั้งแรกของคุณ! -
การเขียนโค้ดที่มีความสุข (และเคี้ยว)! - ทีม Codegum
นี่มันแปลกมาก นี่อาจเป็นอนาคตของเทคโนโลยีโฆษณา dystopian
ฉันเริ่มพยายามทำสิ่งนี้อย่างสมบูรณ์แบบ end-to-end เป็นตัวแทน Langchain Zero SHOT เริ่มต้น โดยพื้นฐานแล้วฉันถาม GPT "ให้เครื่องมือเหล่านี้ค้นหาข้อมูลเกี่ยวกับ XYZ จากนั้นตอบคำถามเหล่านี้" อย่างไรก็ตามในทางปฏิบัติตัวแทนคนนี้มี "โลภ" มากในการที่จะทำ webscrape จำนวนข้อมูลขั้นต่ำที่เปลือยเปล่าและกลับมาก่อนด้วยคำตอบ ดูเหมือนว่าการปรับแต่งที่รวดเร็วนั้นจะไม่มีการแก้ไขปัญหานี้ดังนั้นฉันจึงตัดสินใจแยกงาน OSINT ออกเป็น "ตัวแทนเว็บ" ขนาดเล็กสำหรับการรวบรวมข้อมูลเฉพาะที่จัดโดย "ตัวแทนความรู้"
ตัวแทนความรู้จะได้รับพรอมต์ "รวบรวม" ซึ่งนำทางเพื่อสะสมข้อมูลให้มากที่สุดเท่าที่จะเป็นไปได้ ก่อนอื่นจะวางไข่ตัวแทนเว็บเริ่มต้นซึ่งทำการค้นหาข้อมูลทั่วไปสำหรับข้อมูลที่ชัดเจน (เช่น googling ชื่อ) และอ่านเว็บเพจระดับแรก ผลลัพธ์ของตัวแทนเว็บเริ่มต้นจะถูกเรียกใช้ผ่านพรอมต์เพื่อค้นหาพื้นที่ "ดำน้ำลึก" ที่ควรดูมากขึ้น สำหรับแต่ละพื้นที่ดำน้ำลึกเหล่านี้ตัวแทนเว็บใหม่จะวางไข่เพื่อรวบรวมข้อมูล ผลลัพธ์ของตัวแทนเว็บดำน้ำลึกเหล่านี้จะถูกต่อกันและกระบวนการทำซ้ำสำหรับรอบการดำน้ำลึก ฐานความรู้เต็มรูปแบบจะถูกป้อนเป็นบริบทสำหรับคำถามสุดท้ายเกี่ยวกับหัวข้อ

หมายเหตุ: เครื่องมือมีให้เฉพาะตัวแทนเว็บเท่านั้น
เว็บเอเจนต์ได้รับเครื่องมือ "ค้นหา (คำค้นหา)" เพื่อรวบรวมข้อมูลเกี่ยวกับคำที่เฉพาะเจาะจง สิ่งนี้ใช้ Serper API (เช่น Google Search API) เพื่อค้นหาลิงก์ที่เกี่ยวข้อง นี่คือเครื่องมือ Langchain ในตัวที่มีแพตช์เพื่อส่งคืนลิงก์ดิบที่พบในผลลัพธ์
แทนที่จะมี "LinkedIn Tool", "Twitter Tool" ฯลฯ ฉันต้องการให้ตัวแทนเว็บสามารถขูดหน้าเว็บได้อย่างง่ายดาย เพื่อให้ได้สิ่งนี้ฉันได้สร้างเครื่องมือ "readlink (ลิงก์)" ที่อนุญาตให้เอเจนต์อ่านลิงก์โดยพลการ
MVP ของสิ่งนี้คือการเรียกใช้ requests.get() และเพียงแค่ทิ้ง HTML ดิบกลับไปที่ตัวแทน สิ่งนี้ยากจนเพราะ:
เพื่อลดจำนวนโทเค็นของการตอบสนองฉันแยกมันออกเป็นชิ้น ๆ ตามการแยกซ้ำของต้นไม้เวลา เริ่มต้นด้วยรูทหากองค์ประกอบ DOM ปัจจุบันมี <x โทเค็นฉันเรียกมันว่าก้อนถ้ามันมีมากกว่านั้นฉันจะแยกมันต่อไป สำหรับแต่ละก้อน HTML จะถูกถอดออกเป็นเพียงข้อความและเรียกใช้ผ่าน GPT เพื่อสรุปและแยกเนื้อหา พรอมต์การสกัดนั้นตระหนักถึงบริบทของการทำเว็บในความพยายามที่จะดึงข้อมูลที่มีประโยชน์มากที่สุดเท่านั้น ชิ้นส่วนที่สกัดเหล่านี้จะถูกป้อนกลับเข้าไปใน GPT เพื่อสรุปข้อมูลในรูปแบบย่อยที่ย่อยได้สำหรับตัวแทนเว็บเพื่อรวมเข้ากับการรวบรวมข้อมูล ในรหัสนี่คือเฟรมเวิร์กเรียกว่า "แผนที่ LLM ลด"

ค่าใช้จ่ายแตกต่างกันไปตามจำนวนข้อมูล googlable ขนาดของหน้าเว็บและความอยากรู้ทั่วไปของ LLM ในบางหัวข้อ
ในการทดลองโดยใช้ GPT-4 เป็นตัวขับเคลื่อนหลักของความรู้และตัวแทนเว็บและ GPT-3.5 เป็นแบ็กเอนด์ของเครื่องมือ WebScraping ซึ่งมีค่าใช้จ่าย ~ $ 1/เว็บตัวแทน หากคุณทำ 2 รอบจากตัวแทนดำน้ำลึก 10 รอบมันจะออกมาประมาณ $ 21 หากได้รับการรวบรวมโดยทั่วไปมากพอฐานความรู้สามารถนำกลับมาใช้ใหม่สำหรับคำถามเพิ่มเติมซึ่งทำให้ค่าใช้จ่ายครั้งเดียวส่วนใหญ่เป็นครั้งเดียวต่อหัวข้อการค้นหา
git+https://github.com/sshh12/llm_osint OPENAI_API_KEY=
SERPER_API_KEY=
SCRAPINGBEE_API_KEY=
หมายเหตุ: ทั้ง Serper และ Scraping Bee ให้การใช้ APIs ทดลองใช้ฟรีซึ่งน่าจะดีพอที่จะเรียกใช้งานนี้ได้สองสามครั้ง