Weibo терминатор
Этот проект является перезапущенной версией предыдущего проекта. Вот предыдущий адрес проекта, проект останется обновленным. Это рабочая версия Weibo Terminator. Эта версия сделала некоторые оптимизации в предыдущей версии. Конечная цель здесь состоит в том, чтобы Crawl Corpus, включая анализ настроений, диалог, корпус общественного мнения, контроль рисков, анализ больших данных и другие приложения.
Обновление 2017-5-16
обновление:
- Скорректировал первую логику приобретения cookie, и если программа не обнаруживает файлы cookie, она выйдет, предотвращая ползание большего количества контента и сбоя;
- Был добавлен класс Weiboscraperm, который все еще находится в стадии строительства. Реализация PR отправки приветствуется. Этот класс в основном реализует ползание от другого доменного имени Вейбо, то есть имени мобильного домена;
Вы можете вытащить обновление.
Обновление 2017-5-15
После некоторых незначительных модификаций и PR из нескольких участников Код преодолел некоторые незначительные изменения. По сути, это исправляет ошибки и улучшение логики, а модификации следующие:
- Исправлена проблема с ошибкой сохранения. Когда вы нажимаете в первый раз, вам нужно вытащить код клона;
- Ошибка в
WeiboScraper has not attribute weibo_content , новый код был исправлен;
@Fence отправьте PR, чтобы изменить некоторый контент:
- Оригинальный фиксированный отдых 30S заменяется случайным временем, и конкретные параметры могут быть определены сами.
- Добавлено big_v_ids_file, чтобы записать идентификаторы знаменитостей, которые были сохранены для фанатов; Используйте формат TXT, чтобы облегчить участника, чтобы вручную добавить и удалить
- Страницы ползания обеих функций были изменены на страницу+1, чтобы избежать повторного ползания, когда точка останова продолжает ползать.
- Измените оригинал «All Weibo и комментарии после ползания идентификатора», чтобы «Сохранить после ползания твита и комментариев после ползания твита»
- (Необязательно) Поместите часть, которая сохраняет файл в качестве функции отдельно, потому что есть 2 и 3 места для сохранения соответственно.
Вы можете git pull origin master , чтобы получить недавно обновленную версию. В то же время, вы можете продолжать просить меня о UUID. Я буду регулярно публиковать список в contirbutor.txt . Я недавно выполнял работу по слиянию данных, а также очистку данных, классификация и т. Д. После завершения работы слияния я буду распространять набор больших данных для всех.
Улучшать
Следующие улучшения были сделаны в предыдущей версии:
- Без слишком большого количества отвлекающих факторов, перейдите прямо к теме, дайте идентификатор, получите все Weibo, количество Weibo, количество поклонников, все контент Weibo и контент комментариев пользователя;
- В отличие от предыдущей версии, на этот раз наша философия состоит в том, чтобы сохранить все данные в три файла маринозов и хранить их в файлах словаря. Цель этого состоит в том, чтобы облегчить ползание точки останова;
- В то же время, ползал ползал, не будет снова ползти, что означает, что гусеницы будут помнить об ползле. После того, как каждый идентификатор получил весь контент, он будет отмечен как ползая;
- Кроме того, контент Weibo и комментарии Weibo разделены отдельно. Во время ползания контента Weibo есть прерывание. Во второй раз, когда он больше не будет ползти, и прерывавший номер страницы будет продолжать ползать с прерванного номера страницы;
- Что важнее! ! ! Каждый ползл идентификатор не влияет друг на друга. Вы можете напрямую извлечь любой контент идентификатора желаемого идентификатора, который вы хотите, из файла Pickle, и вы можете выполнить любую обработку! !
- Кроме того, была проверена новая стратегия против
Что важнее! ! ! В этой версии интеллект гусеницы был значительно улучшен. Когда ползает каждый идентификатор, он автоматически получит все идентификаторы вентилятора идентификатора! ! Это эквивалентно тому, что я вам даю, и идентификаторы семян, и идентификаторы семян являются идентификаторами некоторых знаменитостей, компаний или средств массовой информации больших против. Из этих идентификаторов семян вы можете получить тысячи других идентификаторов семян! ! Если поклонник знаменитостей имеет 34 000 человек, вы можете получить 34 000 идентификаторов в первый раз, а затем продолжить ползти от идентификатора ребенка. У каждого идентификатора ребенка 100 поклонников, а во второй раз вы можете получить 3,4 миллиона идентификаторов! ! ! Этого достаточно? ! ! ! Конечно, недостаточно! ! !
Наш проект никогда не остановится! ! ! Это будет продолжаться до тех пор, пока не будет собрано достаточное количество корпуса! ! !
(Конечно, мы не можем получить всех поклонников, но этого достаточно.)
Рабочее время
Цель этой версии состоит в том, чтобы нацелиться на участника, и наш рабочий процесс также очень прост:
- Получите UUID. Этот UUID может позвонить 2-3 идентификаторам Distribution_ids.pkl. Это наш идентификатор семян. Конечно, вы также можете напрямую получить все идентификаторы. Однако, чтобы предотвратить дубликатную работу, рекомендуется подать заявку на UUID от меня. Вы несете ответственность только за свой. После ползания вы вернете окончательный файл мне. После того, как я разберись с тяжелой грузом, я распространяю последний большой корпус для всех.
- Запустите
python3 main.py uuid , позвольте мне объяснить здесь, что идентификатор фаната ползания будет извлечен после того, как идентификатор, указанный Uuid, заползен; - Сделанный!
Обсуждать
Я все еще публикую дискуссионную группу, и все могут добавить:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Вы можете добавить моих друзей в WeChat: Jintianiloveu
Авторское право
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0