Этот репозиторий посвящен созданию наборов данных для различных задач по моделированию языка. Наша цель состоит в том, чтобы предоставить реализацию для генерации наборов данных, которые не являются публичными или не имеют официальной реализации, и облегчить людям их создавать и воспроизводить их.
Мы поощряем вклад и обратную связь, чтобы сделать этот репозиторий ценным ресурсом для сообщества. Если у вас есть какие -либо вопросы или предложения, пожалуйста, не стесняйтесь открыть проблему или отправить запрос на привлечение.
Если вы хотите внести свой вклад, мы рекомендуем вам сделать пиар в этом хранилище в соответствии со следующими рекомендациями.
Каждый PR должен включать описание кода и разметки в подкаталог. Пример подкаканиректового дерева:
└── DataGenLM
└── <Your PR directory>: Dataset name
├── example.json (Optional)
├── README.md
├── requirements.txt
└── <Your code>
Пожалуйста, исключите большие файлы данных в PR, так как они занимают слишком много места. Вместо этого опишите метод получения данных в вашем README.md и, опционально, предоставьте небольшой фрагмент поколения ( example.json ). См. coin-flip и last-letter-concatenation для примера.
Пожалуйста, укажите следующие разделы в вашем Readme, чтобы помочь его лучше использовать:
Пожалуйста, укажите необходимые пакеты в файле для создания набора данных.