Самое старое и самое загадочное (ничего) сообщество Mop Liwu в китайском интернете торжественно объявлено в 2023.1.1:
Под руководством мудрых и мощных маопу Гуанзи он полон решимости дать полную игру к сильным сторонам сообщества (все хорошо) и помогать сообществу с открытым исходным кодом обновить самую большую коллекцию китайского интернет -корпуса на долгое время
Корпус MNBVC включает не только основную культуру, но и данные из различных нишевых культур и даже марсианских культур. Набор данных MNBVC включает в себя новости, композиции, романы, книги, журналы, бумаги, строки, посты, вики, древние стихи, тексты, внедрение продуктов, шутки, смущающие истории, записи чата и другие формы чистых текстовых данных китайских данных. Все данные собираются из Интернета.
Текущий общий объем данных составляет 42915 ГБ, и цель состоит в том, чтобы достичь 40T данных CHATGPT3,5 с текущим прогрессом 107,2%.
Пароль для сжатого пакета - 253874
Китайский корпус в сжатом пакете включает в себя форматы TXT, JSON, JSONL и Parquet (мультимодальные преданные) и в конечном итоге будут объединены в форматах JSONL и Parquet.
Links.txt в корневом каталоге сжатого пакета имеет URL -адрес каждого источника данных подпапа.
В формате PNG есть изображение в формате PNG, которая представляет собой скриншот веб -страницы из источника данных.
Собранные данные удалят строки цифр, больше или равны 8 цифр для десенсибилизации.
Данные в сжатом пакете обрабатываются только примерно, такие как HTML & XML, TXT, CSV и TSV для JSON и т. Д. И т. Д.
У нас нет возможности проводить аудиты авторских прав на источники данных. Хотя этот набор данных включает в себя информацию об источнике данных, чтобы предоставить длительные обновления и загрузки набора данных, а также для предотвращения споров об авторском праве, этот набор данных не предоставляет индексацию и классификацию данных в сжатом пакете. Мы также просим всех сдерживать желание поделиться, а не обсудить индекс сжатого пакета и конкретную информацию о контенте, содержащуюся в нем. Пожалуйста, обратите больше внимания на применение самого корпуса больших данных, и, пожалуйста, используйте данные сдержанными способами.
Классифицированные данные, заполненные очисткой, будут размещены в: https://huggingface.co/datasets/liwu/mnbvc
Лидеры команды каждой команды сообщили, что существует много работы по очистке данных, и технология реализуется немного медленно. Я надеюсь, что студенты с большим количеством времени придут, чтобы помочь, и просто знают, как использовать Python, и кто -то будет направлять вас шаг за шагом. Пожалуйста, помогите студентам сначала прочитать три красные линии проекта.
Даже если у вас нет времени, чтобы помочь проекту разработать, вы можете участвовать в строительстве корпуса MNBVC, участвуя в проекте (Corpus Energy Bomb) и загружая документы корпуса по желанию.
Для обработки крупномасштабного китайского корпуса студенты из проектной команды MNBVC оптимизировали существующее программное обеспечение с открытым исходным кодом, чтобы обеспечить более эффективную версию:
Существуют серьезные явления искусственной фильтрации в различных существующих корпусах с открытым исходным кодом, что затрудняет догнать CHATGPT. Чтобы избежать повторного труда, предоставьте MNBVC код хрупкого кода, который был проверен в больших масштабах.
1. Синхронизируйте все сжатые пакеты с помощью микросийного P2P и получения обновлений. Рекомендуется отключить настройки микросийного проникновения TCP и передачи UDP. Если не выключить, микросивна может блокировать маршрутизатор (и, возможно, скорость передачи быстрее)
Micro-Power Key: B4MVPVJTK3DOOOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
Weili Direct Link
2. Скачать через Baidu NetDisk: Baidu NetDisk Скачать ссылку для каждого сжатого пакета
Пожалуйста, цитируйте репо, если вы используете данные или код в этом репо.
@misc{mnbvc,
author = {{MOP-LIWU Community} and {MNBVC Team}},
title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/esbatmop/MNBVC}},
}