言語モデル用の統一されたコーパスビルディング環境。
langumo 、言語モデル向けの統一されたコーパスビルディング環境です。 langumo 、テキストベースのデータセットを構築するためのパイプラインを提供します。データセットを構築するには、複雑なパイプライン(例えば、解析、シャッフル、トークン化)が必要です。さらに、Corporaが異なるソースから収集された場合、さまざまな形式からデータを抽出することは問題になります。 langumo 、一度に多様な形式でデータセットを構築するのに役立ちます。
langumo 、次のようにpipを使用してインストールできます。
$ pip install langumoリポジトリをクローニングして実行して、ソースからlangumoをインストールできます。
$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py installウィキペディアデータセットを作成しましょう。まず、仮想環境にlangumoをインストールします。
$ pip install langumo langumoをインストールした後、ビルドで使用するワークスペースを作成します。
$ mkdir workspace
$ cd workspaceデータセットを作成する前に、ウィキペディアダンプファイル(これはデータセットのソースです)が必要です。ここからウィキペディアダンプファイルのさまざまなバージョンを入手できます。このチュートリアルでは、ウィキペディアダンプファイルの一部を使用します。ブラウザでファイルをダウンロードし、 workspace/srcに移動します。または、 wgetを使用してファイルを端末に取得するだけです。
$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2 langumoは、データセットの詳細を含むビルド構成ファイルが必要です。 build.ymlファイルをworkspaceに作成し、belowsを書き込む:
langumo :
inputs :
- path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
parser : langumo.parsers.WikipediaParser
build :
parsing :
num-workers : 8 # The number of CPU cores you have.
tokenization :
vocab-size : 32000 # The vocabulary size.これで、最初のデータセットを作成する準備が整いました。 langumoを走らせる!
$ langumo次に、以下の出力を見ることができます。
[*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo) ███████████████████████████████████ 100
[00:00:00] Tokenize words ███████████████████████████████████ 418863 / 418863
[00:00:01] Count pairs ███████████████████████████████████ 418863 / 418863
[00:00:02] Compute merges ███████████████████████████████████ 28942 / 28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609 of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt
データセットを構築した後、 workspaceには以下のファイルが含まれます。
workspace
├── build
│ ├── corpus.eval.txt
│ ├── corpus.train.txt
│ └── vocab.txt
├── src
│ └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml
usage: langumo [-h] [config]
The unified corpus building environment for Language Models.
positional arguments:
config langumo build configuration
optional arguments:
-h, --help show this help message and exit
langumoドキュメントはWebサイトで見つけることができます。
langumoはApache-2.0ライセンスです。