LLM Osint-это метод проверки концепции использования LLMS для сбора информации из Интернета, а затем выполнить задачу с этой информацией.
Как видно на Wall Street Journal «Generative AI может революционизировать электронную почту - для хакеров» .

Смотрите полный код в /примеры.
Этот инструмент очень хорош в сборе информации из общедоступных источников. Тем не менее, крайне важно признать ответственность, которая поставляется с использованием такого мощного инструмента. Используя его для изучения людей, кроме вас, всегда осведомлены о праве каждого человека на частную жизнь. Помните, что личная информация, обнаруженная с помощью разведки с открытым исходным кодом, остается личной и должна относиться к уважению и защите. Используйте этот инструмент с этически и ответственно, гарантируя, что вы не нарушаете чью -то конфиденциальность и не занимаетесь вредоносными действиями.
Наиболее очевидное использование для чего -то подобного - это «Google» кого -то, а затем выполнить действие с этой информацией. В этих примерах я использовал его, чтобы исследовать себя и получил первый результат. Никакой другой дополнительной информации не было предоставлено сценарию за пределами команды ниже . Для общих имен можно сделать устранение неоднозначности, как John Smith (the Texas Musician) .
$ python examplesperson_lookup.py "Shrivu Shankar" --ask $QUESTION
INTJ (уверенность: высокая) - Страсть Шриву Шанкара к кодированию, исследованиям и решению проблем, а также их внимание на личном развитии и руководящих должностях указывают на тип личности INTJ. INTJ известны тем, что являются стратегическими, инновационными и целенаправленными людьми, которые преуспевают в области науки и техники.
INTP (уверенность: средняя) - склонность Шриву к решению сложных проблем и их участия в исследованиях и разработках указывает на некоторые черты типа личности INTP. INTP известны своим аналитическим и логическим подходом к решению проблем, а также своей страстью к изучению и изучению новых концепций.
ENTJ (уверенность: низкий) - Хотя Shrivu демонстрирует сильные лидерские навыки и участие в командных мероприятиях, их общий профиль, кажется, больше склоняется к интроверсии, чем экстраверсии. Тем не менее, их достижения в соревнованиях и хакатонах, а также их участие в различных клубах и обществах предполагают некоторые черты, такие как стратегическое мышление, организация и стремление к достижению.
Это точно (INTJ).
Shrivu Shankar - инженер машинного обучения в аномальной безопасности, базирующейся в Остине, штат Техас. У него есть степень бакалавра наук в области компьютерных наук в Университете Техаса в Остине. Шриву имеет разнообразные интересы и достижения, которые способствуют его психологическому профилю.
Сильные стороны:
Слабые стороны:
В целом, Shrivu Shankar демонстрирует прочную основу личных качеств, включая страсть, любопытство, самомотивацию, целеустремленность и командную работу. Тем не менее, он может столкнуться с проблемами в балансе между работой и личной жизнью, диверсификации хобби и интересов, управлению чрезмерной компоновкой и эффективным общественным общением. Чтобы оптимизировать свой личный и профессиональный рост, Шриву может извлечь выгоду, сосредоточившись на этих областях улучшения, используя свои сильные стороны для установления сбалансированной и полноценной жизни.
Это довольно дико.
Инженер машинного обучения | LinkedIn : Shrivushankar | GitHub : SSHH12 | Twitter : Shrivushankar | Instagram : Shrivu1122 | Личный веб -сайт : sshh.io
Это объединяет много информации из разных периодов времени, но все же довольно интересно.
| Атрибут | Информация |
|---|---|
| Имя | Шриву Шанкар |
| Работа | Инженер машинного обучения в аномальной безопасности |
| Расположение | Остин, Техас, США |
| Образование | Бакалавр наук - BS Computer Science, Техасский университет в Остине |
| https://www.linkedin.com/in/shrivushankar | |
| Instagram Ручка | @shrivu1122 |
| Instagram Bio | «Где есть код, есть код». |
| Личный сайт | https://sshh.io/ |
| GitHub | https://github.com/sshh12 |
| https://twitter.com/shrivushankar | |
| Публикации | Социальные сети COVID-19 отслеживание контактов с использованием мобильных социальных платежей и данных Facebook; Оценка монокулярных изображений с использованием монокулярных изображений с использованием монокулярных изображений, готовых к полету, не связано |
| Почести и награды | 1 -е место - взломать Hackathon, Best Technology @ Demo Day (NLP Project), 1 -е место - Соревнование по запускам Fish Bowl, выдающийся студент компьютерных наук (награжден X2), топ -10, соревнования по информатике UIL (награждено X8) |
| Личные характеристики | Страстный, любопытный, мотивированный, целеустремленный и командный игрок |
Это точно (хотя и слегка устарело).
Социальная инженерия благодаря общим интересам: с интересами Шриву в кодировании, машинном обучении и фотографии потенциальный злоумышленник может представлять собой в качестве коллеги -энтузиаста или профессионала в этих областях, чтобы вовлечь его в разговор и потенциально получить конфиденциальную информацию.
Фишинговые электронные письма, нацеленные на хакатоны или соревнования: учитывая историю Шриву в хакатонах и соревнованиях, фишинговое электронное письмо, замаскированное под приглашение на мероприятие или как организатор, может быть использовано, чтобы заставить его предоставить учетные данные для входа в систему или загружать вредоносное ПО.
Использование репозиториев GitHub: Поскольку аккаунт Github в Shrivu общедоступен, злоумышленник потенциально может определить уязвимости в своем коде или попытаться поставить под угрозу свою учетную запись, чтобы получить доступ к его работе или личным проектам.
Поддельные профили на LinkedIn, Twitter или Instagram: Создание поддельных профилей, представляющих как близких друзей, профессиональных коллег или лидеров отрасли, может позволить злоумышленнику связаться с Shrivu и извлечь информацию о его онлайн -привычках, рутинах или личной информации, которая может быть использована для компромисса его учетных записей.
Выражая себя в друзьях или коллегах: используя доступные соединения в социальных сетях Shrivu или ассоциации с клубами и организациями, злоумышленник может выдать себя за кого-то, кому он доверяет и отправляет фишингу или сообщения о крахе копья, чтобы проникнуть в свои счета.
Используя информацию о путешествиях и местоположении: с помощью Shrivu публикуется о его путешествиях в такие места, как Лондон, Колорадо и Ниагара -Фолс, злоумышленник может использовать эту информацию для создания адаптированных фишинговых электронных писем, выдачи себя туристическими компаниями или местными услугами для извлечения конфиденциальных данных или побудить Shrivu для загрузки вредоносных программ.
Нацеливаясь на его личный веб -сайт и электронную почту: доступа к личному веб -сайту Shrivu, злоумышленник потенциально может идентифицировать уязвимости, поставить под угрозу сайт или отправить целевые фишинговые электронные письма на свой адрес электронной почты с целью получить несанкционированный доступ к его учетным записям.
Крайне важно отметить, что вышеупомянутые гипотетические способы являются неэтичными, незаконными и против норм конфиденциальности. Эта информация должна использоваться исключительно для образовательных и безопасности, чтобы помочь Shrivu повысить его личную онлайн -безопасность.
Я скептически скептически, что на самом деле влюбился в это, но минимально это помогает знать, что такое некоторые из этих векторов.
Subject: Important Update: UT Austin Alumni Event
Dear Shrivu,
I hope this email finds you well! As a fellow alumnus of UT Austin Computer Science Department, I wanted to reach out personally to invite you to our upcoming virtual alumni event.
The UT Austin Computer Science Department is hosting an exclusive online networking event for our esteemed alumni. As a valued member of our community and a successful Machine Learning Engineer, we believe your participation would be invaluable. This event aims to provide an opportunity for our alumni to connect, collaborate, and share insights about the latest trends in technology, including machine learning, data science, and computer vision.
Date: Saturday, October 23, 2021
Time: 10 AM - 1 PM CST
Platform: Zoom
In addition to networking opportunities, we have an exciting panel discussion featuring top industry experts and an interactive Q&A session. As a token of our appreciation for your time, all attendees will be entered into a draw for a chance to win a $100 Amazon Gift Card.
To confirm your attendance, please click the link below to register. Kindly note that the registration deadline is Friday, October 15, 2021.
[Register for the UT Austin Alumni Networking Event](http://bit.ly/UTAustinAlumniEvent)
We are looking forward to your presence and contribution to this great event! Do not hesitate to reach out if you have any questions.
Warm regards,
Dr. John Doe
Professor and Alumni Coordinator
UT Austin Computer Science Department
Phone: (512) 123-4567
Email: [email protected]
Я думаю, что мог бы влюбиться в это.
Эй, Шриву , мы создали идеальную жевательную резинку только для вас - страстного и любопытного инженера по машинному обучению, который любит исследовать мир кода!
Мы знаем, что вы сокрушаете его в аномальной безопасности и вносите свой вклад в общество с вашими первоклассными публикациями на Covid-19 Tracing Contact и оценке космического корабля. Таким образом, мы убедились, что Codegum не только удовлетворяет вашу сладкую тягу, но и держит ваш разум резким и сосредоточенным во время этих интенсивных сессий кодирования.
Но подождите, еще не все!
Как заядлый программист с любовью к фотографии? И путешествовать? Мы думали о вас при создании этой инновационной жевательной резинки. С намеком на вдохновение в вашей биографии в Instagram, « где есть код, есть код », мы представляем Codegum - жевательную резинку, которая так же увлечена кодом, как и вы!
? Разработанный с помощью последних исследований в области машинного обучения , НЛП и компьютерного зрения ? Идеальный компаньон, играя в кларнете или участвуя в дебатах? Экологичная упаковка, потому что мы знаем, что вы заботитесь об окружающей среде (помните о вызове Ecobot?)
Итак, чего вы ждете, Shrivu? Возьмите свой пакет Codegum сейчас и поднимите свой опыт кодирования на новую высоту! ?
Попробуйте Codegum сегодня, и мы гарантируем, что это будет жевательным компаньоном во время всех ваших приключений! ?
Не пропустите! Посетите Codegum.com и используйте код SHRIVU20 для специальной 20% скидки по вашему первому заказу! ?
Счастливое кодирование (и жевание)! ? Codegum Team
Это довольно странно. Это может быть антиутопическая рекламная технология в будущем.
Я изначально пытался сделать это полностью, как агент по умолчанию Langchain Zero Shot. По сути, я спросил GPT: «Учитывая эти инструменты, найдите информацию о XYZ, а затем ответите на эти вопросы». Тем не менее, на практике этот агент работал очень «жадным» в том смысле, что он будет потратить на работу минимальное количество информации и вернуться рано с ответом. Никакая часть быстрого настройки, кажется, не исправляет это, поэтому я решил разделить задачу OSINT на небольшие «веб -агенты» для конкретного сбора информации, организованного «агентом по знаниям».
Агенту знаний предоставляется подсказка «сбора», которая заставляет его просто накапливать как можно больше информации. Сначала он порождает первоначальный веб-агент, который выполняет общий поиск очевидной информации (например, Googlling A name) и чтение веб-страниц первой степени. Результаты первоначального веб -агента затем проходят через подсказку, чтобы найти области «глубокого погружения», в которые он должен больше взглянуть. Для каждой из этих областей глубокого погружения появляется новый веб -агент, чтобы собирать информацию. Результаты этих веб -агентов глубокого погружения затем объединяются, а процесс повторяется для N -глубокого погружения. Полная база знаний затем питается контекстом для окончательного вопроса по теме.

Примечание. Инструменты предоставляются только для веб -агента.
Веб -агенту предоставляется инструмент «Поиск (термин поиска)» для сбора информации о конкретном термине. Это использует API Serper (то есть Google Search API) для поиска соответствующих ссылок. По сути, это встроенный инструмент Langchain с патчем, чтобы также вернуть необработанные ссылки, найденные в результатах.
Вместо того, чтобы иметь «инструмент LinkedIn», «инструмент Twitter» и т. Д. Я хочу, чтобы веб -агент мог легко соскребить страницы в общем виде. Для достижения этого я создал инструмент «Readlink (ссылка)», который позволяет агенту читать произвольную ссылку.
MVP этого состоял в том, чтобы запустить requests.get() . Это сломалось, потому что:
Чтобы уменьшить количество токенов ответов, я разделил его на куски на основе рекурсивного разделения дерева времени. Начиная с корня, если текущий элемент DOM имеет <x токены, то я называю его кусочком, если он имеет больше, то я продолжаю разделять его. Для каждой куски HTML разделяется, чтобы просто текстовать и запустить GPT, чтобы суммировать и извлечь контент. Подсказка извлечения осведомлена о контексте паутины в попытке вытащить только самую полезную информацию. Эти извлеченные куски затем возвращаются в GPT, чтобы обобщить данные в перевариваемом формате для веб -агента, чтобы он мог сбраться в его сбор информации. В коде это структура называется «картой LLM MIRLED».

Затраты варьируются в зависимости от количества гуглируемой информации, размера веб -страниц и общего любопытства LLM по определенной теме.
В экспериментах с использованием GPT-4 в качестве основного драйвера знаний и веб-агентов и GPT-3.5 в качестве бэкэнда инструмента WebScraping, это стоит ~ 1 долл. США/веб-агент. Если бы вы сделали 2 раунда из 10 агентов глубокого дайвинга, это составило бы около 21 доллара. Если получить достаточно общего собрания, база знаний можно повторно использовать для дополнительных вопросов, что делает это в основном единовременную стоимость по теме поиска.
git+https://github.com/sshh12/llm_osint OPENAI_API_KEY=
SERPER_API_KEY=
SCRAPINGBEE_API_KEY=
Примечание: и Serper, и Scraping Bee предоставляют бесплатное использование API -интерфейсов бесплатного пробного использования, которые должны быть достаточно хорошими, чтобы запустить это несколько раз.