weibo_terminator_workflow 다운로드 weibo_terminator

weibo_terminator_workflow

기타 소스코드

1.0.0

다운로드

Weibo 터미네이터 작업 흐름

이 프로젝트는 이전 프로젝트의 다시 시작된 버전입니다. 이전 프로젝트 주소는 다음과 같습니다. 프로젝트는 계속 업데이트됩니다. 이것은 Weibo 터미네이터의 작동 버전입니다. 이 버전은 이전 버전에 약간의 최적화를 만들었습니다. 여기서 궁극적 인 목표는 감정 분석, 대화 코퍼스, 여론 위험 관리, 빅 데이터 분석 및 기타 응용 프로그램을 포함하여 코퍼스를 함께 크롤링하는 것입니다.

2017-5-16 업데이트

고쳐 쓰다:

첫 번째 쿠키 획득 논리를 조정했으며 프로그램이 쿠키를 감지하지 않으면 종료되어 더 많은 콘텐츠의 크롤링과 충돌을 방지합니다.
Weiboscraperm 클래스가 추가되었으며 여전히 건설 중입니다. 제출 PR 구현을 환영합니다. 이 클래스는 주로 다른 Weibo 도메인 이름, 즉 모바일 도메인 이름에서 크롤링을 구현합니다.

업데이트를 가져올 수 있습니다.

2017-5-15 업데이트

약간의 수정과 여러 기여자의 PR 이후, 코드는 약간의 변경 사항을 겪었습니다. 기본적으로 버그를 수정하고 일부 논리를 개선하고 있으며 수정은 다음과 같습니다.

저축 오류 문제를 수정했습니다. 처음 푸시 할 때 클론 코드를 가져와야합니다.
WeiboScraper has not attribute weibo_content 새 코드가 수정되었습니다.

@fence 홍보를 제출하여 일부 컨텐츠를 수정하십시오.

원래 고정 30 초의 휴식은 임의의 시간으로 대체되며 특정 매개 변수는 직접 정의 할 수 있습니다.
팬을 위해 저장된 유명인 ID를 기록하기 위해 big_v_ids_file을 추가했습니다. TXT 형식을 사용하여 기고자가 수동으로 추가 및 삭제할 수 있도록 촉진하십시오.
두 기능의 크롤링 페이지는 중단 점이 계속 크롤링 될 때 반복되는 크롤링을 피하기 위해+1 페이지로 변경되었습니다.
원래 "ID를 크롤링 한 후 모든 Weibo와 댓글"을 변경하여 "트윗을 크롤링 한 후 트윗과 주석을 작성한 후 저장하십시오"
(선택 사항) 파일을 기능으로 저장하는 부품을 각각 2와 3 개의 저장 장소가 있기 때문에 파일을 별도로 저장하십시오.

새로 업데이트 된 버전을 얻으려면 git pull origin master 할 수 있습니다. 동시에, 당신은 계속해서 저에게 uuid를 요구할 수 있습니다. contirbutor.txt 에 정기적으로 목록을 게시하겠습니다. 최근 데이터 합병 작업과 데이터 청소, 분류 등을 수행했습니다. 병합 작업이 완료된 후 빅 데이터 세트를 모든 사람에게 배포합니다.

개선하다

이전 버전에서 다음과 같은 개선이 이루어졌습니다.

너무 산만하지 않으면 주제로 바로 가고, ID를주고, 모든 Weibo, Weibo 수, 팬 수, 모든 Weibo 컨텐츠 및 사용자의 의견 내용을 얻으십시오.
이전 버전과 달리, 이번에는 우리의 철학은 모든 데이터를 세 개의 피클 파일에 저장하고 사전 파일에 저장하는 것입니다. 이것의 목적은 중단 점 크롤링을 용이하게하는 것입니다.
동시에, 크롤링 된 크롤러는 다시 크롤링하지 않을 것이므로 크롤러는 크롤링 된 ID를 기억할 것입니다. 각 ID가 모든 컨텐츠를 얻은 후에는 크롤링으로 표시됩니다.
또한 Weibo 컨텐츠 및 Weibo 의견은 별도로 분리됩니다. Weibo 컨텐츠가 크롤링하는 동안 중단이 있습니다. 두 번째로 다시는 크롤링되지 않으며 중단 된 페이지 번호는 중단 된 페이지 번호에서 계속 크롤링됩니다.
더 중요한 것은! ! ! 각 ID 크롤링은 서로에게 영향을 미치지 않습니다. 피클 파일에서 원하는 ID의 ID 컨텐츠를 직접 검색 할 수 있으며 모든 처리를 수행 할 수 있습니다! !
또한 새로운 안티 크롤링 전략이 테스트되었고 채택 된 지연 메커니즘은 잘 작동 할 수 있었지만 완전히 통제되지는 않았습니다.

더 중요한 것은! ! ! 이 버전에서 크롤러의 지능이 크게 향상되었습니다. Crawler가 각 ID를 크롤링하면 ID의 모든 팬 ID를 자동으로 얻습니다! ! 내가 당신에게주는 것은 종자 ID이고, 종자 ID는 일부 유명인, 회사 또는 미디어 Big Vs의 ID입니다. 이 종자 ID에서 수천 개의 다른 시드 ID를 얻을 수 있습니다! ! 유명인 팬이 34,000 명이면 처음 크롤링을 처음으로 34,000 ID를 얻은 다음 어린이 신분증에서 계속 기어 올릴 수 있습니다. 각 어린이 ID에는 100 명의 팬이 있으며 두 번째로 340 만 ID를 얻을 수 있습니다! ! ! 충분합니까? ! ! ! 물론 충분하지 않습니다! ! !

우리 프로젝트는 결코 멈추지 않을 것입니다! ! ! 충분한 코퍼스가 수확 될 때까지 계속 될 것입니다! ! !

(물론 우리는 실제로 모든 팬을 얻을 수는 없지만 충분합니다.)

작업 흐름

이 버전의 목표는 기고자를 타겟팅하는 것이며 워크 플로도 매우 간단합니다.

UUID를 얻으십시오. 이 UUID는 2-3 ID의 배전 _ids.pkl을 호출 할 수 있습니다. 이것이 우리의 종자 ID입니다. 물론 모든 ID를 직접 얻을 수도 있습니다. 그러나 중복 작업을 방지하려면 저에게 UUID를 신청하는 것이 좋습니다. 당신은 당신의 사람에 대한 책임 만 있습니다. 크롤링 후 최종 파일을 나에게 피드백합니다. 무거운 짐을 분류 한 후, 나는 최종 큰 코퍼스를 모든 사람에게 배포 할 것입니다.
python3 main.py uuid 실행하려면 UUID가 지정된 ID가 크롤링 된 후 크롤링 팬 ID가 검색 될 것이라고 설명하겠습니다.
완료!

논의하다

여전히 토론 그룹을 게시하고 있으며 모두가 추가 할 수 있습니다.

 QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023

wechat : jintianiloveu에 내 친구를 추가 할 수 있습니다

저작권

 (c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-04-18
크기 22.91KB
출처 Github

weibo_terminator_workflow

Weibo 터미네이터 작업 흐름

2017-5-16 업데이트

2017-5-15 업데이트

개선하다

작업 흐름

논의하다

저작권

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

개_여우_토끼

리화 데이터 분석 엔진 무료 버전 3.0_search_navigation_collection_여론_순위_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express