japanese pretrained models下载 - japanese pretrained models源代码下载

japanese pretrained models

其他源码

1.0.0

下载

日本预制模型

（以前：日语-GPT2）

rinna-icon

该存储库提供了培训日本预预性模型的代码。该代码已用于生产日语-GPT2-MEDIUM，日本GPT2-SMALL和RINNA CO. LTD。

目前支持的预期模型包括：GPT-2，Roberta。

目录
更新日志
使用提示
通过拥抱面使用我们预告片的模型
从头开始训练`japanese-gpt2-xsmall`
从头开始训练`japanese-roberta-base`
执照

如果您使用代码或通过HuggingFace使用我们的模型遇到任何问题，请打开问题（用英语/日语）。

如果您觉得这项工作有用，请引用以下论文：

 @article{rinna_pretrained2021,
    title={日本語自然言語処理における事前学習モデルの公開},
    author={趙 天雨 and 沢田 慶},
    journal={人工知能学会研究会資料 言語・音声理解と対話処理研究会},
    volume={93},
    pages={169-170},
    year={2021},
    doi={10.11517/jsaislud.93.0_169}
}

更新日志

2022/01/25在模型摘要表中更新了rinna/japanese-gpt-1b的链接。
2022/01/17更新了引用信息。
2021/11/01更新了Corpora链接。
2021/09/13添加了有关将position_ids与japanese-roberta-base使用的提示。有关详细信息，请参阅第3期。
2021/08/26 [重要]从MIT许可证到Apache 2.0许可证的更新许可证，这是由于使用了Cl-Tohoku/Bert-jyapanese的Wikipedia预处理代码。有关详细信息，请参见第1期。
2021/08/23将日本维基百科添加到培训语料库中。发布的培训代码rinna/japanese-gpt2-small ， rinna/japanese-gpt2-xsmall和rinna/japanese-roberta-base 。
2021/08/18将回购名称从japanese-gpt2更改为japanese-pretrained-models
2021/06/15使用检查点时修复了最佳PPL跟踪错误。
2021/05/04修复了多GPU培训的随机播种错误。
2021/04/06发布了用于培训rinna/japanese-gpt2-medium代码。

使用提示

`rinna/japanese-roberta-base`的提示

使用[CLS] ：要预测一个蒙版的令牌，请确保在句子之前添加[CLS]令牌以使模型正确编码它，因为它在模型训练过程中使用。
令牌化后使用[MASK] ：a）在输入字符串中直接键入[MASK] ，b）用[MASK]在令牌化后代替令牌将产生不同的令牌序列，从而产生不同的预测结果。令牌化后使用[MASK]更合适（因为它与模型的预定方式一致）。但是，HuggingFace推断API仅支持输入[MASK]在输入字符串中键入，并产生较不健壮的预测。
提供position_ids作为一个参数明确：当未为Roberta*模型提供position_ids时，HuggingFace的transformers将自动构造它，但从padding_idx而不是0开始（请参阅create_position_ids_from_input_ids()在HuggingFace的实施中都无法使用rinna/japanese-roberta-base padding_idx令牌不是0 。因此，请确保自己限制position_ids _ids，并从位置ID 0开始。

通过拥抱面使用我们预告片的模型

模型摘要

语言模型	＃参数	＃层	＃EMB DIM	#epochs	DEV PPL	训练时间*
rinna/japesen-gpt-1b	1.3b	24	2048	10+	13.9	N/A **
rinna/dayer-gpt2中等	336m	24	1024	4	18	45天
rinna/japesen-gpt2-small	110m	12	768	3	21	15天
rinna/japesen-gpt2-xsmall	37m	6	512	3	28	4天

蒙版语言模型	＃参数	＃层	＃EMB DIM	#epochs	DEV PPL	训练时间*
rinna/日本罗伯塔基地	110m	12	768	8	3.9	15天

*在8x V100 32GB机器上进行了培训。

**使用不同的代码库和不同的计算环境进行培训。

示例：使用`rinna/japanese-roberta-base`预测蒙版令牌

 import torch
from transformers import T5Tokenizer, RobertaForMaskedLM

# load tokenizer
tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-roberta-base")
tokenizer.do_lower_case = True  # due to some bug of tokenizer config loading

# load model
model = RobertaForMaskedLM.from_pretrained("rinna/japanese-roberta-base")
model = model.eval()

# original text
text = "4年に1度オリンピックは開かれる。"

# prepend [CLS]
text = "[CLS]" + text

# tokenize
tokens = tokenizer.tokenize(text)
print(tokens)  # output: ['[CLS]', '▁4', '年に', '1', '度', 'オリンピック', 'は', '開かれる', '。']']

# mask a token
masked_idx = 5
tokens[masked_idx] = tokenizer.mask_token
print(tokens)  # output: ['[CLS]', '▁4', '年に', '1', '度', '[MASK]', 'は', '開かれる', '。']

# convert to ids
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(token_ids)  # output: [4, 1602, 44, 24, 368, 6, 11, 21583, 8]

# convert to tensor
token_tensor = torch.LongTensor([token_ids])

# provide position ids explicitly
position_ids = list(range(0, token_tensor.size(1)))
print(position_ids)  # output: [0, 1, 2, 3, 4, 5, 6, 7, 8]
position_id_tensor = torch.LongTensor([position_ids])

# get the top 10 predictions of the masked token
with torch.no_grad():
    outputs = model(input_ids=token_tensor, position_ids=position_id_tensor)
    predictions = outputs[0][0, masked_idx].topk(10)

for i, index_t in enumerate(predictions.indices):
    index = index_t.item()
    token = tokenizer.convert_ids_to_tokens([index])[0]
    print(i, token)

"""
0 総会
1 サミット
2 ワールドカップ
3 フェスティバル
4 大会
5 オリンピック
6 全国大会
7 党大会
8 イベント
9 世界選手権
"""

从头开始训练`japanese-gpt2-xsmall`

安装依赖项

通过在repo目录下运行以下命令来安装所需的软件包：

 pip install -r requirements.txt

数据构建和模型培训

设置Fugashi Tokenzier，通过运行：

 python -m unidic download

下载培训语料库日语CC-100并提取ja.txt文件。
移动ja.txt文件或修改src/corpus/jp_cc100/config.py以将ja.txt的filepath与self.raw_data_dir匹配配置文件中的self.raw_data_dir 。
通过运行：将ja.txt拆分到较小的文件：

 cd src/
python -m corpus.jp_cc100.split_to_small_files

首先在Wikipedia Cirrussearch上检查Wikipedia转储的版本，然后填写self.download_link （在File src/corpus/jp_wiki/config.py中使用链接到您首选的Wikipedia dump版本。然后下载培训语料库日语Wikipedia，然后通过运行：

 python -m corpus.jp_wiki.build_pretrain_dataset
python -m corpus.jp_wiki.split_to_small_files

训练XSMALL大小的GPT-2，例如，通过运行：4 V100 GPU：

 CUDA_VISIBLE_DEVICES=0,1,2,3 python -m task.pretrain_gpt2.train 
    --n_gpus 4 
    --save_model True 
    --enable_log True 
    --model_size xsmall 
    --model_config_filepath model/gpt2-ja-xsmall-config.json 
    --batch_size 20 
    --eval_batch_size 40 
    --n_training_steps 1600000 
    --n_accum_steps 3 
    --init_lr 0.0007

与受过训练的模型互动

假设您已经运行了培训脚本，并将XSMALL大小的GPT-2保存到data/model/pretrain_gpt2/gpt2-ja-xsmall-xxx.checkpoint 。运行以下命令使用它通过p=0.95和k=40 ：

 CUDA_VISIBLE_DEVICES=0 python -m task.pretrain_gpt2.interact 
    --checkpoint_path ../data/model/pretrain_gpt2/gpt2-ja-medium-xxx.checkpoint 
    --gen_type top 
    --top_p 0.95 
    --top_k 40

准备上传到拥抱面的文件

制作您的拥抱面帐户。创建模型仓库。克隆到您当地的机器。
通过运行从检查点创建模型和配置文件：

 python -m task.pretrain_gpt2.checkpoint2huggingface 
    --checkpoint_path ../data/model/gpt2-medium-xxx.checkpoint 
    --save_dir {huggingface's model repo directory}

通过运行验证创建的文件：

 python -m task.pretrain_gpt2.check_huggingface 
    --model_dir {huggingface's model repo directory}

添加文件，提交并将其推入HuggingFace Repo。

自定义您的GPT-2培训

通过运行：检查GPT-2培训脚本的可用参数：

 python -m task.pretrain_gpt2.train --help

从头开始训练`japanese-roberta-base`

假设您已经完成了如上所述完成的数据构建过程，请运行以下命令来训练基本大小的日本罗伯塔（Japanese Roberta），例如8 V100 GPU：

 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m task.pretrain_roberta.train 
    --n_gpus 8 
    --save_model True 
    --enable_log True 
    --model_size base 
    --model_config_filepath model/roberta-ja-base-config.json 
    --batch_size 32 
    --eval_batch_size 32 
    --n_training_steps 3000000 
    --n_accum_steps 16 
    --init_lr 0.0006

执照

Apache 2.0许可证

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-16
大小 741.54KB
来自于 Github

japanese pretrained models

日本预制模型

（以前：日语-GPT2）

更新日志

使用提示

`rinna/japanese-roberta-base`的提示

通过拥抱面使用我们预告片的模型

模型摘要

示例：使用`rinna/japanese-roberta-base`预测蒙版令牌

从头开始训练`japanese-gpt2-xsmall`

安装依赖项

数据构建和模型培训

与受过训练的模型互动

准备上传到拥抱面的文件

自定义您的GPT-2培训

从头开始训练`japanese-roberta-base`

执照

llama models

GitHub sgrebnov/cordova plugin background download

models

pytorch image models

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

japanese pretrained models

日本预制模型

（以前：日语-GPT2）

更新日志

使用提示

rinna/japanese-roberta-base的提示

通过拥抱面使用我们预告片的模型

模型摘要

示例：使用rinna/japanese-roberta-base预测蒙版令牌

从头开始训练japanese-gpt2-xsmall

安装依赖项

数据构建和模型培训

与受过训练的模型互动

准备上传到拥抱面的文件

自定义您的GPT-2培训

从头开始训练japanese-roberta-base

执照

`rinna/japanese-roberta-base`的提示

示例：使用`rinna/japanese-roberta-base`预测蒙版令牌

从头开始训练`japanese-gpt2-xsmall`

从头开始训练`japanese-roberta-base`