Скачать MNBVC - Скачать исходный код MNBVC

MNBVC

Другой исходный код

1.0.0

Скачать

MNBVC (массивный бесконечный BT обширный китайский корпус) супер крупномасштабный китайский корпус

Пожалуйста, не сообщайте нам, чтобы у нас было больше времени для сбора и организации данных. Мы больше всего боимся, что нас хвалят и убиты. Если вы держите нас в низком уровне, вы внесли большой вклад в китайский круг алгоритмов!

Самое старое и самое загадочное (ничего) сообщество Mop Liwu в китайском интернете торжественно объявлено в 2023.1.1:

Под руководством мудрых и мощных маопу Гуанзи он полон решимости дать полную игру к сильным сторонам сообщества (все хорошо) и помогать сообществу с открытым исходным кодом обновить самую большую коллекцию китайского интернет -корпуса на долгое время

Корпус MNBVC включает не только основную культуру, но и данные из различных нишевых культур и даже марсианских культур. Набор данных MNBVC включает в себя новости, композиции, романы, книги, журналы, бумаги, строки, посты, вики, древние стихи, тексты, внедрение продуктов, шутки, смущающие истории, записи чата и другие формы чистых текстовых данных китайских данных. Все данные собираются из Интернета.

расписание

Текущий общий объем данных составляет 42915 ГБ, и цель состоит в том, чтобы достичь 40T данных CHATGPT3,5 с текущим прогрессом 107,2%.

Описание данных

Пароль для сжатого пакета - 253874

Китайский корпус в сжатом пакете включает в себя форматы TXT, JSON, JSONL и Parquet (мультимодальные преданные) и в конечном итоге будут объединены в форматах JSONL и Parquet.

Links.txt в корневом каталоге сжатого пакета имеет URL -адрес каждого источника данных подпапа.

В формате PNG есть изображение в формате PNG, которая представляет собой скриншот веб -страницы из источника данных.

Собранные данные удалят строки цифр, больше или равны 8 цифр для десенсибилизации.

Данные в сжатом пакете обрабатываются только примерно, такие как HTML & XML, TXT, CSV и TSV для JSON и т. Д. И т. Д.

Индексация и классификация

У нас нет возможности проводить аудиты авторских прав на источники данных. Хотя этот набор данных включает в себя информацию об источнике данных, чтобы предоставить длительные обновления и загрузки набора данных, а также для предотвращения споров об авторском праве, этот набор данных не предоставляет индексацию и классификацию данных в сжатом пакете. Мы также просим всех сдерживать желание поделиться, а не обсудить индекс сжатого пакета и конкретную информацию о контенте, содержащуюся в нем. Пожалуйста, обратите больше внимания на применение самого корпуса больших данных, и, пожалуйста, используйте данные сдержанными способами.

объятие

Классифицированные данные, заполненные очисткой, будут размещены в: https://huggingface.co/datasets/liwu/mnbvc

Один человек ходит быстро, все уходят далеко (встряхните людей, чтобы ускорить отправку электронной почты [email protected])

Лидеры команды каждой команды сообщили, что существует много работы по очистке данных, и технология реализуется немного медленно. Я надеюсь, что студенты с большим количеством времени придут, чтобы помочь, и просто знают, как использовать Python, и кто -то будет направлять вас шаг за шагом. Пожалуйста, помогите студентам сначала прочитать три красные линии проекта.

OCR transcoding team (forced by GPT4 to become a multimodal corpus group containing text-pictures, and the compilation was added), currently 5 people are missing, 5 people are missing (need to have a background in CV and NLP algorithms. I want to use nlp to assist OCR transcoding, and I have the leading team leaders in this field in the industry to lead the team and guide it)
Вопрос и ответ Корпоративная группа, в настоящее время пропало 3 человека, 4 человека отсутствуют (в настоящее время все трудолюбивы писать код Python, чтобы выровнять элементы Q & A и проверить человеческую плоть. Я хочу использовать модель алгоритма для автоматического выравнивания позже)
Команда по улучшению корпуса, в настоящее время пропала без вести, 2 человека пропали (я хочу использовать NLP, чтобы завершить корпус пропущенных слов, провести тестирование качества текста и т. Д.)
Кодовая группа Corpus Group и Parallel Corpus Group все еще пропускают несколько обязанностей (руководитель команды решит, что делать позже)
Исследовательская группа древней литературы должна быть построена (изучение транскодирования местных хроников и других древних книг, со многими корпусами и большими трудностями)
Тестовая группа должна быть построена (пожалуйста, присоединяйтесь к одноклассникам, чтобы помочь нам улучшить качество данных. Я надеюсь, что учащиеся в этой группе смогут изучать LLM для непосредственного генерации тестовых случаев и тестовых кодов)

Даже если у вас нет времени, чтобы помочь проекту разработать, вы можете участвовать в строительстве корпуса MNBVC, участвуя в проекте (Corpus Energy Bomb) и загружая документы корпуса по желанию.

Китайские инструменты для очистки крупного корпуса

Для обработки крупномасштабного китайского корпуса студенты из проектной команды MNBVC оптимизировали существующее программное обеспечение с открытым исходным кодом, чтобы обеспечить более эффективную версию:

Быстрый и точный инструмент обнаружения кодировки китайского кодирования: charset_mnbvc
Преобразование TXT в JSONL в партиях и выберите файлы с высоким параграфом повторения: deduplication_mnbvc
Образуйте определенное количество файлов по ключевым словам из многослойного каталога и сохраните структуру каталога: scan_copy_files_mnbvc
Инструмент проверки формата, который объединяет формат корпуса MNBVC: DATACHECK_MNBVC

Инструмент для хрупения кода

Существуют серьезные явления искусственной фильтрации в различных существующих корпусах с открытым исходным кодом, что затрудняет догнать CHATGPT. Чтобы избежать повторного труда, предоставьте MNBVC код хрупкого кода, который был проверен в больших масштабах.

Метаната репозитория кода Crawl Github: publicrepos_mnbvc
Crawl Последняя версия репозитория кода Github: github_downloader_mnbvc
Полновой код нотабуг: notabug_download_mnbvc
Репозиторий кода Crawl Bitbucket: bitbucket_crawl_mnbvc
Конвертировать код в корпус: githubcode_extractor_mnbvc
Запись коммита Crawl: get_github_commit_mnbvc

Мультимодальные инструменты обработки

PDF Метальная информация Инструкция: PDF_META_DATA_MNBVC
PDF Правила диаграммы: MMDP_MNBVC
Первая версия инструмента PDF to TXT: PDF2TXT_MNBVC
Инструмент анализа документа ARXIV: arxiv_mllm_mnbvc

Различные коды очистки

Wikihow Coade: Wikihowqaextractor-Mnbvc
Министерство иностранных дел Китая говорил код очищения: QA_WITH_REPORTERS_FROM_THE_MINISTRE_OF_FOREIGN_AFFAIR_MNBVC
Коды очистки для различных математических задач: math_mnbvc
STACKEXCHANGE CODER: stackexchange_mnbvc
Код очистки для параллельного корпуса: parallel_corpus_mnbvc
Код очистки тестовой статьи: экзаменационная-банка-датазет-ZH_MNBVC
Кодекс очистки сети документов суждения: мнгвк-дневник
Код очистки для убийства сценариев: MNBVC-PDF-EXTRACT
Код очистки doclaynet: doclaynetplus_mnbvc

Другие гаджеты

Чинарксивский гусениц: chinaxivcrawler_mnbvc
Извлечь файл из WARC: WARC_EXTRACTOR_MNBVC
Psyarxiv, chemrxiv, biorxiv, medrxiv crawler: xxarxiv_mnbvc

Информация о загрузке корпуса (каждый сжатый пакет будет обновлен с ходом очистки):

1. Синхронизируйте все сжатые пакеты с помощью микросийного P2P и получения обновлений. Рекомендуется отключить настройки микросийного проникновения TCP и передачи UDP. Если не выключить, микросивна может блокировать маршрутизатор (и, возможно, скорость передачи быстрее)

Micro-Power Key: B4MVPVJTK3DOOOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
Weili Direct Link

2. Скачать через Baidu NetDisk: Baidu NetDisk Скачать ссылку для каждого сжатого пакета

Цитирование

Пожалуйста, цитируйте репо, если вы используете данные или код в этом репо.

 @misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/esbatmop/MNBVC}},
}

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-15
размер 490.26KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

MNBVC

MNBVC (массивный бесконечный BT обширный китайский корпус) супер крупномасштабный китайский корпус

расписание

Описание данных

Индексация и классификация

объятие

Один человек ходит быстро, все уходят далеко (встряхните людей, чтобы ускорить отправку электронной почты [email protected])

Китайские инструменты для очистки крупного корпуса

Инструмент для хрупения кода

Мультимодальные инструменты обработки

Различные коды очистки

Другие гаджеты

Информация о загрузке корпуса (каждый сжатый пакет будет обновлен с ходом очистки):

Цитирование

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express