dataless model merging下載 - dataless model merging源代碼下載

dataless model merging

Ai源碼

1.0.0

下載

通過合併語言模型的權重來數據素材知識融合

該存儲庫包含實驗守則，以通過合併語言模型的權重來重現數據知識融合的結果，該論文將在2023年5月1日至5日在2023年在盧旺達的基加利舉行，將在第十一國際學習代表國際會議（ICLR 2023）會議上發表。

 @inproceedings{
    jin2023dataless,
    title={Dataless Knowledge Fusion by Merging Weights of Language Models},
    author={Xisen Jin and Xiang Ren and Daniel Preotiuc-Pietro and Pengxiang Cheng},
    booktitle={The Eleventh International Conference on Learning Representations},
    year={2023},
    url={https://openreview.net/forum?id=FCnohuR6AnM}
}

要求

我們使用了Pytorch 1.13.1。有關其他要求，請參見要求。

快速演示

如果您只是對回歸平均值（Regmean）算法感興趣，請檢查regmean_demo.ipynb。

這是一個獨立的jupyter筆記本電腦，融合了兩個在膠水上進行微調的擁抱臉型變壓器模型。該文件不在src/下導入文件。

再現結果

準備情緒分類數據集

請在此存儲庫中下載統一的情緒數據集。這些文件應在以下結構中放置在PROJECT_ROOT/resources/emotion_splits下。

 .
├── crowdflower
│   ├── dev.jsonl
│   ├── full.jsonl
│   ├── test.jsonl
│   └── train.jsonl
├── dailydialog
│   ├── dev.jsonl
│   ├── full.jsonl
│   ├── test.jsonl
│   └── train.jsonl
├── electoraltweets
│   ├── dev.jsonl
│   ├── full.jsonl
│   ├── test.jsonl
│   └── train.jsonl
├── emobank
│   ├── dev.jsonl
│   ├── full.jsonl
│   ├── test.jsonl
│   └── train.jsonl
...

準備NER數據集

請準備Conll2003，Ontonotes和Twitter NER數據集，並將其放在PROJECT_ROOT/resources/ner下。

 .
├── conll2003
│   ├── dev.conll
│   ├── test.conll
│   └── train.conll
├── ontonotes
│   ├── onto.development.bc.ner
│   ├── onto.development.bn.ner
│   ├── onto.development.mz.ner
│   ├── onto.development.nw.ner
│   ├── onto.development.tc.ner
│   ├── onto.development.wb.ner
│   ├── onto.test.bc.ner
│   ├── onto.test.bn.ner
│   ├── onto.test.mz.ner
│   ├── onto.test.nw.ner
│   ├── onto.test.tc.ner
│   ├── onto.test.wb.ner
│   ├── onto.train.bc.ner
│   ├── onto.train.bn.ner
│   ├── onto.train.mz.ner
│   ├── onto.train.nw.ner
│   ├── onto.train.tc.ner
│   └── onto.train.wb.ner
└── twitter
    ├── annotated.twitter-ner-20-21-tweet-dev-withcleaned.json
    ├── annotated.twitter-ner-20-21-tweet-test-withcleaned.json
    └── annotated.twitter-ner-20-21-tweet-train-withcleaned.json

在這裡，Conll和Ontonotes數據集包含孔格式的條目。

 CRICKET	O	Conll
-	O	Conll
LEICESTERSHIRE	B-ORG	Conll
TAKE	O	Conll
OVER	O	Conll
AT	O	Conll
TOP	O	Conll
AFTER	O	Conll
INNINGS	O	Conll
VICTORY	O	Conll
.	O	Conll

LONDON	B-LOC	Conll
1996-08-30	O	Conll
...

Twitter NER每行包含1個JSON。

 {"text": "Spectacular skies over #Clonmel tonight http://t.co/OxclQkuyTp /via @niallodonovan #lastdayofautumn", "id": "539106999980797952", "entities": [{"startCharOffset": 24, "endOffset": 31, "endCharOffset": 31, "surface": "Clonmel", "startOffset": 24, "type": "LOC"}, {"startCharOffset": 69, "endOffset": 82, "endCharOffset": 82, "surface": "niallodonovan", "startOffset": 69, "type": "PER"}], "labels": ["O", "O", "O", "O", "B-LOC", "O", "O", "O", "O", "B-PER", "O", "O"], "tokens": ["Spectacular", "skies", "over", "#", "Clonmel", "tonight", "http://t.co/OxclQkuyTp", "/", "via", "@niallodonovan", "#", "lastdayofautumn"], "domain": "TWT"}

準備膠水數據集

膠水數據集將下載並加載擁抱Face的datasets集庫。

準備驗證的LMS

請從擁抱的面部模型存儲庫中下載預估計的型號（例如，Roberta-Base），並將其放在PROJECT_ROOT/resources （例如PROJECT_ROOT/resources/roberta-base ）下。

用法

--config_files ：請參閱src/configs下的下方。訓練模塊（ src.run_experiments ）需要三個配置文件定義默認參數（ src/defaults.yaml ），數據配置（在src/configs/datasets下）和exp confiel（在src/configs/exps下）。
--filter_model ：僅合併數據配置中指定的單個模型的子集時很有用--filter_model model0 model1將執行Model0和Model1的成型合併（請參閱數據配置中的Model0，Model1，Model0，Model1的定義）。
--templates ：配置文件可能包含{seed}之類的模板。模板的值應在命令行中指定（例如--templates seed=1 ）。

單個模型（在合併之前）將在配置中指定的local_zoo_dir下進行訓練和存儲。如果動物園中的單個模型都不匹配給定的模型類型和配置中的zoo_filter參數，則該程序將自動訓練新的單個模型並將其存儲在local_zoo_dir下。如果在local_zoo_dir中找到各個模型，則將加載它們而不會重新訓練。

示例：雷格曼，情感，同一頭初始化，合併Model0（每日模型）和Model1（Crowdflower）

 HF_DATASETS_OFFLINE=1 CUDA_VISIBLE_DEVICES=0 python -m src.run_experiments --config src/configs/defaults.yaml src/configs/datasets/emotion.yaml src/configs/exps/roberta-base/roberta-base-emotion.yaml --templates seed=1 --filter_model model0 model1