تنزيل langumo - تنزيل رمز المصدر langumo

langumo

كود الذكاء الاصطناعي

v0.2.0

تنزيل

لانجومو

بيئة بناء مجموعة موحدة لنماذج اللغة.

جدول المحتويات

مقدمة
الميزات الرئيسية
التبعيات
تثبيت
- مع PIP
- من المصدر
دليل البدء السريع
الاستخدام
الوثائق
رخصة

مقدمة

langumo هي بيئة بناء مجموعة موحدة لنماذج اللغة . يوفر langumo خطوط الأنابيب لبناء مجموعات البيانات المستندة إلى النص. يتطلب إنشاء مجموعات البيانات خطوط أنابيب معقدة (مثل التحليل والخلط والرمز المميز). علاوة على ذلك ، إذا تم جمع الشركات من مصادر مختلفة ، فستكون مشكلة استخراج البيانات من تنسيقات مختلفة. يساعد langumo على بناء مجموعة بيانات ذات التنسيقات المتنوعة ببساطة.

الميزات الرئيسية

من السهل البناء ، بسيط لإضافة تنسيق جسم جديد.
بناء سريع من خلال تحسينات الأداء (حتى مكتوبة في بيثون).
يدعم المعالجة المتعددة في تحليل Corpora.
استخدام الذاكرة أقل للغاية.
الكل في واحد البيئة. لا تهتم بالإجراءات الداخلية!
لا يحتاج إلى كتابة رموز لجسم جديد. بدلاً من ذلك ، أضف إلى تكوين البناء ببساطة.

التبعيات

NLTK
Colorama
pyyaml> = 5.3.1
TQDM> = 4.46.0
الرمز المميز == 0.8.1
mwparserfromhell> = 0.5.4
KSS == 1.3.1

تثبيت

مع PIP

يمكن تثبيت langumo باستخدام pip على النحو التالي:

$ pip install langumo

من المصدر

يمكنك تثبيت langumo من المصدر عن طريق استنساخ المستودع وتشغيله:

$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install

دليل البدء السريع

دعونا نبني مجموعة بيانات ويكيبيديا . أولاً ، قم بتثبيت langumo في Enviornment الظاهري.

$ pip install langumo

بعد تثبيت langumo ، قم بإنشاء مساحة عمل لاستخدامها في الإنشاء.

$ mkdir workspace
$ cd workspace

قبل إنشاء مجموعة البيانات ، نحتاج إلى ملف تفريغ ويكيبيديا (وهو مصدر لمجموعة البيانات). يمكنك الحصول على إصدارات مختلفة من ملفات Wikipedia Dump من هنا. في هذا البرنامج التعليمي ، سوف نستخدم جزءًا من ملف تفريغ ويكيبيديا. قم بتنزيل الملف مع متصفحك وانتقل إلى workspace/src . أو استخدم wget للحصول على الملف في Terminal ببساطة:

$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2

يحتاج langumo إلى ملف تكوين بناء يحتوي على تفاصيل مجموعة البيانات. إنشاء ملف build.yml إلى workspace وكتابة Belows:

 langumo :
  inputs :
  - path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
    parser : langumo.parsers.WikipediaParser

  build :
    parsing :
      num-workers : 8 # The number of CPU cores you have.

    tokenization :
      vocab-size : 32000 # The vocabulary size.

نحن الآن مستعدون لإنشاء مجموعة بيانات أولى. تشغيل langumo !

$ langumo

ثم يمكنك رؤية المخرجات أدناه:

 [*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo)                   ███████████████████████████████████                 100
[00:00:00] Tokenize words                           ███████████████████████████████████ 418863   /   418863
[00:00:01] Count pairs                              ███████████████████████████████████ 418863   /   418863
[00:00:02] Compute merges                           ███████████████████████████████████ 28942    /    28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609  of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt

بعد إنشاء مجموعة البيانات ، ستحتوي workspace على الملفات أدناه:

 workspace
├── build
│   ├── corpus.eval.txt
│   ├── corpus.train.txt
│   └── vocab.txt
├── src
│   └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml

الاستخدام

 usage: langumo [-h] [config]

The unified corpus building environment for Language Models.

positional arguments:
  config      langumo build configuration

optional arguments:
  -h, --help  show this help message and exit