ดาวน์โหลด langumo - ดาวน์โหลดซอร์สโค้ด langumo

langumo

โค้ดแหล่งที่มา AI

v0.2.0

ดาวน์โหลด

langumo

สภาพแวดล้อมการสร้างคลังข้อมูลแบบครบวงจรสำหรับแบบจำลองภาษา

สารบัญ

การแนะนำ
คุณสมบัติหลัก
การพึ่งพาอาศัยกัน
การติดตั้ง
- ด้วย pip
- จากแหล่งกำเนิด
คู่มือเริ่มต้นด่วน
การใช้งาน
เอกสาร
ใบอนุญาต

การแนะนำ

langumo เป็น สภาพแวดล้อมการสร้างคลังข้อมูลแบบครบวงจรสำหรับแบบจำลองภาษา langumo ให้บริการท่อสำหรับการสร้างชุดข้อมูลที่ใช้ข้อความ การสร้างชุดข้อมูลต้องใช้ท่อที่ซับซ้อน (เช่นการแยกวิเคราะห์การสับและโทเค็น) ยิ่งไปกว่านั้นหากมีการรวบรวม corpora จากแหล่งต่าง ๆ มันจะเป็นปัญหาในการดึงข้อมูลจากรูปแบบต่าง ๆ langumo ช่วยในการสร้างชุดข้อมูลด้วยรูปแบบที่หลากหลายเพียงครั้งเดียว

คุณสมบัติหลัก

ง่ายต่อการสร้างง่ายในการเพิ่มรูปแบบคลังข้อมูลใหม่
การสร้างอย่างรวดเร็วผ่านการเพิ่มประสิทธิภาพประสิทธิภาพ (แม้เขียนใน Python)
สนับสนุนการประมวลผลแบบหลายครั้งในการแยกวิเคราะห์ Corpora
การใช้หน่วยความจำน้อยกว่ามาก
สภาพแวดล้อมแบบ all-in-one ไม่เป็นไรขั้นตอนภายใน!
ไม่จำเป็นต้องเขียนรหัสสำหรับคลังข้อมูลใหม่ ให้เพิ่มการกำหนดค่าการสร้างเพียงอย่างเดียว

การพึ่งพาอาศัยกัน

nltk
colorama
Pyyaml> = 5.3.1
tqdm> = 4.46.0
Tokenizers == 0.8.1
mwparserfromhell> = 0.5.4
KSS == 1.3.1

การติดตั้ง

ด้วย pip

langumo สามารถติดตั้งได้โดยใช้ pip ดังนี้:

$ pip install langumo

จากแหล่งกำเนิด

คุณสามารถติดตั้ง langumo จากแหล่งที่มาโดยโคลนที่เก็บและทำงาน:

$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install

คู่มือเริ่มต้นด่วน

มาสร้างชุดข้อมูล Wikipedia ก่อนอื่นให้ติดตั้ง langumo ในสภาพแวดล้อมเสมือนจริงของคุณ

$ pip install langumo

หลังจากติดตั้ง langumo ให้สร้างพื้นที่ทำงานเพื่อใช้ใน Build

$ mkdir workspace
$ cd workspace

ก่อนที่จะสร้างชุดข้อมูลเราต้องใช้ ไฟล์ Wikipedia Dump (ซึ่งเป็นแหล่งที่มาของชุดข้อมูล) คุณสามารถรับไฟล์ Wikipedia Dump รุ่นต่าง ๆ ได้จากที่นี่ ในบทช่วยสอนนี้เราจะใช้ส่วนหนึ่งของไฟล์ Wikipedia Dump ดาวน์โหลดไฟล์ด้วยเบราว์เซอร์ของคุณและย้ายไปที่ workspace/src หรือใช้ wget เพื่อรับไฟล์ในเทอร์มินัลเพียง:

$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2

langumo ต้องการไฟล์การกำหนดค่าการสร้างซึ่งมีรายละเอียดของชุดข้อมูล สร้างไฟล์ build.yml ไปยัง workspace และเขียนความเชื่อ:

 langumo :
  inputs :
  - path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
    parser : langumo.parsers.WikipediaParser

  build :
    parsing :
      num-workers : 8 # The number of CPU cores you have.

    tokenization :
      vocab-size : 32000 # The vocabulary size.

ตอนนี้เราพร้อมที่จะสร้างชุดข้อมูลแรกของเรา เรียกใช้ langumo !

$ langumo

จากนั้นคุณสามารถดูเอาต์พุตด้านล่าง:

 [*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo)                   ███████████████████████████████████                 100
[00:00:00] Tokenize words                           ███████████████████████████████████ 418863   /   418863
[00:00:01] Count pairs                              ███████████████████████████████████ 418863   /   418863
[00:00:02] Compute merges                           ███████████████████████████████████ 28942    /    28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609  of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt

หลังจากสร้างชุดข้อมูล workspace จะมีไฟล์ด้านล่าง:

 workspace
├── build
│   ├── corpus.eval.txt
│   ├── corpus.train.txt
│   └── vocab.txt
├── src
│   └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml

การใช้งาน

 usage: langumo [-h] [config]

The unified corpus building environment for Language Models.

positional arguments:
  config      langumo build configuration

optional arguments:
  -h, --help  show this help message and exit