이 프로젝트는 이전 프로젝트의 다시 시작된 버전입니다. 이전 프로젝트 주소는 다음과 같습니다. 프로젝트는 계속 업데이트됩니다. 이것은 Weibo 터미네이터의 작동 버전입니다. 이 버전은 이전 버전에 약간의 최적화를 만들었습니다. 여기서 궁극적 인 목표는 감정 분석, 대화 코퍼스, 여론 위험 관리, 빅 데이터 분석 및 기타 응용 프로그램을 포함하여 코퍼스를 함께 크롤링하는 것입니다.
고쳐 쓰다:
업데이트를 가져올 수 있습니다.
약간의 수정과 여러 기여자의 PR 이후, 코드는 약간의 변경 사항을 겪었습니다. 기본적으로 버그를 수정하고 일부 논리를 개선하고 있으며 수정은 다음과 같습니다.
WeiboScraper has not attribute weibo_content 새 코드가 수정되었습니다.@fence 홍보를 제출하여 일부 컨텐츠를 수정하십시오.
새로 업데이트 된 버전을 얻으려면 git pull origin master 할 수 있습니다. 동시에, 당신은 계속해서 저에게 uuid를 요구할 수 있습니다. contirbutor.txt 에 정기적으로 목록을 게시하겠습니다. 최근 데이터 합병 작업과 데이터 청소, 분류 등을 수행했습니다. 병합 작업이 완료된 후 빅 데이터 세트를 모든 사람에게 배포합니다.
이전 버전에서 다음과 같은 개선이 이루어졌습니다.
더 중요한 것은! ! ! 이 버전에서 크롤러의 지능이 크게 향상되었습니다. Crawler가 각 ID를 크롤링하면 ID의 모든 팬 ID를 자동으로 얻습니다! ! 내가 당신에게주는 것은 종자 ID이고, 종자 ID는 일부 유명인, 회사 또는 미디어 Big Vs의 ID입니다. 이 종자 ID에서 수천 개의 다른 시드 ID를 얻을 수 있습니다! ! 유명인 팬이 34,000 명이면 처음 크롤링을 처음으로 34,000 ID를 얻은 다음 어린이 신분증에서 계속 기어 올릴 수 있습니다. 각 어린이 ID에는 100 명의 팬이 있으며 두 번째로 340 만 ID를 얻을 수 있습니다! ! ! 충분합니까? ! ! ! 물론 충분하지 않습니다! ! !
우리 프로젝트는 결코 멈추지 않을 것입니다! ! ! 충분한 코퍼스가 수확 될 때까지 계속 될 것입니다! ! !
(물론 우리는 실제로 모든 팬을 얻을 수는 없지만 충분합니다.)
이 버전의 목표는 기고자를 타겟팅하는 것이며 워크 플로도 매우 간단합니다.
python3 main.py uuid 실행하려면 UUID가 지정된 ID가 크롤링 된 후 크롤링 팬 ID가 검색 될 것이라고 설명하겠습니다.여전히 토론 그룹을 게시하고 있으며 모두가 추가 할 수 있습니다.
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
wechat : jintianiloveu에 내 친구를 추가 할 수 있습니다
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0