langumoダウンロードlangumoソースコードのダウンロード

langumo

AI ソースコード

v0.2.0

ダウンロード

ランゴーモ

言語モデル用の統一されたコーパスビルディング環境。

導入

langumo 、言語モデル向けの統一されたコーパスビルディング環境です。 langumo 、テキストベースのデータセットを構築するためのパイプラインを提供します。データセットを構築するには、複雑なパイプライン（例えば、解析、シャッフル、トークン化）が必要です。さらに、Corporaが異なるソースから収集された場合、さまざまな形式からデータを抽出することは問題になります。 langumo 、一度に多様な形式でデータセットを構築するのに役立ちます。

主な機能

構築が簡単で、新しいコーパス形式を簡単に追加できます。
パフォーマンスの最適化（Pythonで書かれている）を通じて高速ビルディング。
解析コーパスのマルチプロセスをサポートします。
メモリの使用量は非常に少ない。
オールインワン環境。内部手順を気にしないでください！
新しいコーパスのコードを書く必要はありません。代わりに、ビルド構成に簡単に追加します。

依存関係

nltk
colorama
pyyaml> = 5.3.1
TQDM> = 4.46.0
トークンザー== 0.8.1
mwparserfromhell> = 0.5.4
KSS == 1.3.1

インストール

ピップ付き

langumo 、次のようにpipを使用してインストールできます。

$ pip install langumo

ソースから

リポジトリをクローニングして実行して、ソースからlangumoをインストールできます。

$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install

クイックスタートガイド

ウィキペディアデータセットを作成しましょう。まず、仮想環境にlangumoをインストールします。

$ pip install langumo

langumoをインストールした後、ビルドで使用するワークスペースを作成します。

$ mkdir workspace
$ cd workspace

データセットを作成する前に、ウィキペディアダンプファイル（これはデータセットのソースです）が必要です。ここからウィキペディアダンプファイルのさまざまなバージョンを入手できます。このチュートリアルでは、ウィキペディアダンプファイルの一部を使用します。ブラウザでファイルをダウンロードし、 workspace/srcに移動します。または、 wgetを使用してファイルを端末に取得するだけです。

$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2

langumoは、データセットの詳細を含むビルド構成ファイルが必要です。 build.ymlファイルをworkspaceに作成し、belowsを書き込む：

 langumo :
  inputs :
  - path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
    parser : langumo.parsers.WikipediaParser

  build :
    parsing :
      num-workers : 8 # The number of CPU cores you have.

    tokenization :
      vocab-size : 32000 # The vocabulary size.

これで、最初のデータセットを作成する準備が整いました。 langumoを走らせる！

$ langumo

次に、以下の出力を見ることができます。

 [*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo)                   ███████████████████████████████████                 100
[00:00:00] Tokenize words                           ███████████████████████████████████ 418863   /   418863
[00:00:01] Count pairs                              ███████████████████████████████████ 418863   /   418863
[00:00:02] Compute merges                           ███████████████████████████████████ 28942    /    28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609  of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt

データセットを構築した後、 workspaceには以下のファイルが含まれます。

 workspace
├── build
│   ├── corpus.eval.txt
│   ├── corpus.train.txt
│   └── vocab.txt
├── src
│   └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml

使用法

 usage: langumo [-h] [config]

The unified corpus building environment for Language Models.

positional arguments:
  config      langumo build configuration

optional arguments:
  -h, --help  show this help message and exit