YouTokenToMe скачать - загрузка исходного кода YouTokenToMe

YouTokenToMe

Другой исходный код

ved

Скачать

Youtokentome

YouTokentome - это неконтролируемый текстовый токенизатор, ориентированный на вычислительную эффективность. В настоящее время он реализует быстрое кодирование пары байтов (BPE) [Sennrich et al.]. Наша реализация гораздо быстрее в тренировках и токенизации, чем обнимание лица, FastBPE и предложение. В некоторых тестовых случаях это в 60 раз быстрее. Проверьте наши контрольные результаты.

Ключевые преимущества:

Многопользовательская поддержка для обучения и токенизации
Алгоритм имеет сложность O(N) , где N - длина учебных данных
Высокоэффективная реализация в C ++
Интерфейс обертки Python и командной строки

Дополнительные функции:

BPE-пропаганда (как описано в Provilkov et al, 2019)

Помимо алгоритма из оригинальной статьи, наш не учитывает токены, которые пересекают границы. Как и в предложении, все пространственные символы были заменены на Meta Symbol «‘ (U+2581). Это позволяет преобразовать последовательности токенов обратно в текст и для восстановления границ слов.

Например, фраза Blazingly fast tokenization! может быть направлен на

['▁Bl', 'az', 'ingly', '▁fast', '▁token', 'ization', '!']

Установка

pip install youtokentome

Интерфейс Python

Пример

Давайте начнем с автономного примера.

 import random

import youtokentome as yttm

train_data_path = "train_data.txt"
model_path = "example.model"

# Generating random file with training data
# 10000 lines with 100 characters in each line
n_lines = 10000
n_characters = 100
with open ( train_data_path , "w" ) as fout :
    for _ in range ( n_lines ):
        print ( "" . join ([ random . choice ( "abcd " ) for _ in range ( n_characters )]), file = fout )

# Generating random text
test_text = "" . join ([ random . choice ( "abcde " ) for _ in range ( 100 )])

# Training model
yttm . BPE . train ( data = train_data_path , vocab_size = 5000 , model = model_path )

# Loading model
bpe = yttm . BPE ( model = model_path )

# Two types of tokenization
print ( bpe . encode ([ test_text ], output_type = yttm . OutputType . ID ))
print ( bpe . encode ([ test_text ], output_type = yttm . OutputType . SUBWORD ))

Тренировочная модель

 youtokentome . BPE . train ( data , model , vocab_size , coverage , n_threads = - 1 , pad_id = 0 , unk_id = 1 , bos_id = 2 , eos_id = 3 )

Поезда модели BPE и сохраняет файл.

Args:

data : строка, путь к файлу с учебными данными
model : строка, путь к тому, где будет сохранена обученная модель
vocab_size : int, количество токенов в последнем словаре
coverage : плавание, доля символов, покрытых моделью. Должен быть в диапазоне [0, 1]. Хорошее значение для использования составляет около 0,9999.
n_threads : int, количество параллельных потоков, используемых для запуска. Если -1 передается, то все доступные потоки будут использоваться. Обратите внимание, что количество потоков ограничено 8 (см. Benchmark).
pad_id : int, зарезервированный идентификатор для прокладки
unk_id : int, зарезервированный идентификатор для неизвестных символов
bos_id : int, зарезервированный идентификатор для начала токена предложения
eos_id : int, зарезервированный идентификатор для окончания токена предложения

Возврат : класс youtokentome.BPE с загруженной моделью.

Загрузка модели

 youtokentome . BPE ( model , n_threads = - 1 )

Класс конструктор. Загружает обученную модель.

model : строка, путь к обученной модели
n_threads : int, количество параллельных потоков, используемых для запуска. Если будет равна -1, то будет использоваться максимальное количество доступных потоков.

Методы

Класс youtokentome.BPE имеет следующие методы:

кодировать

 encode ( self , sentences , output_type = yttm . OutputType . ID , bos = False , eos = False , reverse = False , dropout_prob = 0 )

Args:

sentences : список строк, предложения для токенизации.
output_type : enum, предложение может быть токенизировано на идентификаторы или подчинки. Используйте OutputType.ID для ids и OutputType.SUBWORD для подводов.
bos : Bool, если правда, то токен «Начало предложения» будет добавлено
eos : Bool, если True Token «Конец предложения» будет добавлено
reverse : Bool, если верно, выходная последовательность токенов будет изменена.
dropout_prob : FLOAT, вероятность протокола BPE (вероятность слияния слияния). Должен быть в диапазоне [0, 1].

Возврат: если output_type равен youtokentome.OutputType.ID или youtokentome.OutputType.SUBWORD , то список списков целых чисел или списка списков строк будет возвращен соответственно.

слока

 vocab ( self )

Возвращает: список строк vocab_size . Строка I-TH в списке соответствует I-TH SOBWORD.

vocab_size

 vocab_size ( self )

Возврат: инт. Размер словаря.

subword_to_id

 subword_to_id ( self , subword )

Args:

subword : строка.

Возврат: целое число из диапазона [0, Vocab_size-1]. Идентификатор подчинка или, если в словарном словарном нет такого подлона, unk_id будет возвращен.

id_to_subword

 id_to_subword ( self , id )

Args:

id : int, должен быть в диапазоне [0, Vocab_size-1]

Возвращает: строка. Подвод из словаря от ID.

декодировать

 decode ( self , ids , ignore_ids = None )

Преобразуйте каждый идентификатор в подвод и объединяйте с символом пространства.

Args:

ids : список списков целых чисел. Все целые числа должны быть в диапазоне [0, vocab_size-1]
ignore_ids : сбор цетков. Эти индексы будут проигнорированы во время декодирования. Все целые числа должны быть в диапазоне [0, vocab_size-1] [по умолчанию: нет]

Возврат: список строк.

Интерфейс командной строки

Пример

$ yttm bpe --data TRAINING_DATA_FILE --model OUTPUT_MODEL_FILE --vocab_size 2000
$ yttm encode --model OUTPUT_MODEL_FILE --output_type subword < TEST_DATA_FILE > ENCODED_DATA

Поддерживаемые команды

YouTokenToMe поддерживает следующие команды:

 $ yttm --help

Usage: yttm [OPTIONS] COMMAND [ARGS]...

Options:
  --help  Show this message and exit.

Commands:
  bpe     Train BPE model.
  decode  Decode ids to text.
  encode  Encode text to ids or subwords.
  vocab   Print list of learned subwords.

Команда bpe позволяет вам обучать модель кодирования пар байтов на основе текстового файла.

 $ yttm bpe --help

Usage: yttm bpe [OPTIONS]

  Train BPE model.

Options:
  --data PATH           Training data file path.  [required]
  --model PATH          Output model file path.  [required]
  --vocab_size INTEGER  Number of tokens in the final vocabulary.  [required]
  --coverage FLOAT      Fraction of characters covered by the model.  [default: 1.0]
  --n_threads INTEGER   Number of threads.  [default: -1]
  --pad_id INTEGER      Padding token id.  [default: 0]
  --unk_id INTEGER      Unknown token id.  [default: 1]
  --bos_id INTEGER      'Begin of sentence' token id.  [default: 2]
  --eos_id INTEGER      'End of sentence' token id.  [default: 3]
  --help                Show this message and exit.

Примените кодирование BPE для корпуса предложений. Используйте stdin для ввода и stdout для вывода.

По умолчанию кодирование работает параллельно, используя потоки n_threads . Количество потоков ограничено 8 (см. Benchmark).

С опцией --stream - --n_threads будет игнорироваться, и все предложения будут обработаны один за другим. Каждое предложение будет токенизировано и записано в stdout до того, как будет прочитано следующее предложение.

 $ yttm encode --help

Usage: yttm encode [OPTIONS]

  Encode text to ids or subwords.

Options:
  --model PATH         Path to file with learned model.  [required]
  --output_type TEXT   'id' or 'subword'.  [required]
  --n_threads INTEGER  Number of threads.  [default: -1]
  --bos                Add tab 'begin of sentence'.
  --eos                Add tab 'end of sentence'.
  --reverse            Reverse output sequence of tokens.
  --stream             Process each line before reading the next one.
  --dropout_prob       BPE-dropout probability (the probability of a merge being dropped). [default: 0]
  --help               Show this message and exit.

Печать словаря. Это может быть полезно для понимания модели.

 $ yttm vocab --help

Usage: yttm vocab [OPTIONS]

  Print list of learned subwords.

Options:
  --model PATH  Path to file with learned model.  [required]
  --verbose     Add merging rules.
  --help        Show this message and exit.

Конвертировать идентификаторы обратно в текст. Используйте stdin для ввода и stdout для вывода.

 $ yttm decode --help

Usage: yttm decode [OPTIONS]

  Decode ids to text.

Options:
  --model PATH  Path to file with learned model.  [required]
  --ignore_ids  List of indices to ignore for decoding. Example: --ignore_ids=1,2,3
  --help        Show this message and exit.

Расширять

Дополнительная информация

Версия ved
Тип Другой исходный код
Время обновления 2025-04-17
размер 57.54KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

YouTokenToMe

Youtokentome

Установка

Интерфейс Python

Пример

Тренировочная модель

Загрузка модели

Методы

кодировать

слока

vocab_size

subword_to_id

id_to_subword

декодировать

Интерфейс командной строки

Пример

Поддерживаемые команды

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express