중국 인터넷에서 가장 오래되고 가장 신비한 (아무것도) Mop Liwu 커뮤니티는 2023.1.1에 엄숙하게 발표되었습니다.
현명하고 강력한 Maopu Guanzi의지도하에, 그는 커뮤니티의 강점을 완전히 제공하기로 결심하고 (모든 것이 좋음) 오픈 소스 커뮤니티가 오랫동안 가장 큰 중국 인터넷 코퍼스 컬렉션을 업데이트하도록 도와줍니다.
MNBVC 코퍼스에는 주류 문화뿐만 아니라 다양한 틈새 문화 및 화성 문화의 데이터도 포함됩니다. MNBVC 데이터 세트에는 뉴스, 작곡, 소설, 책, 잡지, 논문, 줄, 게시물, 위키, 고대시, 가사, 제품 소개, 농담, 당황스러운 이야기, 채팅 기록 및 기타 순수한 텍스트 중국 데이터가 포함됩니다. 모든 데이터는 인터넷에서 수집됩니다.
현재 총 데이터 볼륨은 42915GB이며 목표는 현재 진행 상황이 107.2%인 ChatGpt3.5의 40T 데이터에 도달하는 것입니다.
압축 패키지의 비밀번호는 253874입니다
압축 패키지의 중국 코퍼스에는 TXT, JSON, JSONL 및 PARQUET (Multimodal Dedicated) 형식이 포함되며 결국 JSONL 및 PARQUET 형식으로 통합됩니다.
compressed 패키지의 루트 디렉토리의 links.txt에는 각 하위 폴더 데이터 소스의 URL이 있습니다.
각 하위 폴더에는 PNG 형식의 그림이 있으며, 이는 데이터 소스의 웹 페이지의 스크린 샷입니다.
수집 된 데이터는 탈감작을 위해 8 자리보다 큰 숫자 문자열을 제거합니다.
압축 패키지의 데이터는 html & xml to txt, csv & tsv to json 등과 같이 대략 처리됩니다.
우리는 데이터 소스에 대한 저작권 감사를 수행 할 수 없습니다. 이 데이터 세트에는 데이터 소스 정보가 포함되어 있지만 데이터 세트의 오래 지속되는 업데이트 및 다운로드를 제공하고 저작권 분쟁을 피하기 위해이 데이터 세트는 압축 패키지에서 데이터의 인덱싱 및 분류를 제공하지 않습니다. 우리는 또한 모든 사람들에게 압축 패키지의 지수와 그에 포함 된 특정 컨텐츠 정보를 공유하고 논의하지 않겠다는 욕구를 제한하도록 요청합니다. 빅 데이터 코퍼스 자체의 적용에 더 많은주의를 기울이고 낮은 키 방식으로 데이터를 사용하십시오.
청소로 완료된 분류 데이터는 다음과 같습니다. https://huggingface.co/datasets/liwu/mnbvc
각 팀의 팀 리더는 데이터 청소에 대한 많은 작업이 있다고보고했으며 기술은 약간 느리게 구현됩니다. 많은 시간을 가진 학생들이 도움을주기를 바랍니다. 그리고 파이썬을 사용하는 방법을 알고 누군가가 당신을 단계별로 안내 할 것입니다. 학생들이 먼저 프로젝트의 3 개의 빨간색 줄을 읽도록 도와주세요.
프로젝트 개발을 도울 시간이 없더라도 (Corpus Energy Bomb) 프로젝트에 참여하고 코퍼스 문서를 마음대로 업로드하여 MNBVC 코퍼스의 건설에 참여할 수 있습니다.
대규모 중국어 코퍼스를 처리하기 위해 MNBVC 프로젝트 팀의 학생들은 기존 오픈 소스 소프트웨어를 최적화하여보다 효율적인 버전을 제공했습니다.
다양한 기존 오픈 소스 코드 코퍼스에는 심각한 인공 필터링 현상이있어 ChatGpt를 따라 잡기가 더 어려워집니다. 반복적 인 노동을 피하려면 MNBVC에 의해 대규모로 검증 된 코드 리포지토리 크롤러 코드를 제공하십시오.
1. P2P 마이크로 힘을 통해 모든 압축 패킷을 동기화하고 업데이트를받습니다. TCP 침투 및 UDP 전송 마이크로 힘 설정을 끄는 것이 좋습니다. 꺼지지 않으면 마이크로 힘이 라우터를 차단할 수 있습니다 (아마도 전송 속도가 더 빠릅니다).
마이크로 파워 키 : B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4JEAXJRMRSRHSBPDB7OAFHUQ
Weili Direct Link
2. Baidu Netdisk를 통해 다운로드 : Baidu NetDisk 각 압축 패키지에 대한 다운로드 링크
이 repo에서 데이터 또는 코드를 사용하는 경우 저장소를 인용하십시오.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}