遠程競技場是對有效變壓器模型進行系統評估的努力。該項目旨在通過評估其概括能力,計算效率,內存足蹟等,以系統的方式評估基於變形金剛的模型來建立基準任務/DTASET。
遠程競技場還使用亞麻在JAX中實現了變壓器模型的不同變體。
第一個初始版本包括紙張“遠程領域:有效變壓器的基準”的基準。
目前,我們發布了所有必要的代碼,以開始並在Vanilla Transformers上運行我們的基準測試。
更新我們已經發布了實驗中使用的Xformer模型。
我們正在研究第二個更新,該更新將為此基準套件發布更多模型和基線。敬請關注。
請參閱下面的更多示例,了解如何入門。
當前所有Xformer結果的排行榜結果在我們的基準結果上。 (截至2020年11月8日)
| 模型 | ListOps | 文字 | 檢索 | 圖像 | 小路 | path-x | avg |
|---|---|---|---|---|---|---|---|
| 本地att | 15.82 | 52.98 | 53.39 | 41.46 | 66.63 | 失敗 | 46.06 |
| 線性譯。 | 16.13 | 65.90 | 53.09 | 42.34 | 75.30 | 失敗 | 50.55 |
| 改革家 | 37.27 | 56.10 | 53.40 | 38.07 | 68.50 | 失敗 | 50.67 |
| 稀疏的反式。 | 17.07 | 63.58 | 59.59 | 44.24 | 71.71 | 失敗 | 51.24 |
| sindhorn trans。 | 33.67 | 61.20 | 53.83 | 41.23 | 67.45 | 失敗 | 51.29 |
| Linformer | 35.70 | 53.94 | 52.27 | 38.56 | 76.34 | 失敗 | 51.36 |
| 演員 | 18.01 | 65.40 | 53.82 | 42.77 | 77.05 | 失敗 | 51.41 |
| 合成器 | 36.99 | 61.68 | 54.67 | 41.61 | 69.45 | 失敗 | 52.88 |
| longformer | 35.63 | 62.85 | 56.89 | 42.22 | 69.71 | 失敗 | 53.46 |
| 變壓器 | 36.37 | 64.27 | 57.46 | 42.44 | 71.40 | 失敗 | 54.39 |
| 大鳥 | 36.05 | 64.02 | 59.29 | 40.83 | 74.87 | 失敗 | 55.01 |
我們列出了使用LRA基準測試的其他論文和提交的條目。
| 模型 | ListOps | 文字 | 檢索 | 圖像 | 小路 | path-x | avg |
|---|---|---|---|---|---|---|---|
| 冰屋 | 39.23 | 82 | 75.5 | 47.0 | 67.50 | na | 62.25 |
| TLB | 37.05 | 81.88 | 76.91 | 57.51 | 79.06 | 失敗 | 66.48 |
Igloo提交(由Vsevolod Sourkov)-https://github.com/redna11/lra-igloo
TLB(暫時潛在瓶頸)-Transformer_TLB
如果您發現工作有用,請引用我們的論文:
@inproceedings{
tay2021long,
title={Long Range Arena : A Benchmark for Efficient Transformers },
author={Yi Tay and Mostafa Dehghani and Samira Abnar and Yikang Shen and Dara Bahri and Philip Pham and Jinfeng Rao and Liu Yang and Sebastian Ruder and Donald Metzler},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=qVyeW-grC2k}
}
**注意:請參考這些數據集的原始來源! **
請將論文(ARXIV或已發布)的鏈接發送到Yi Tay或Mostafa Dehghani(紙上的電子郵件),以將您的新結果包括在排行榜上。就像上面一樣,我們將為排行榜的外部提交部分添加結果。這樣一來,我們就不會鼓勵在排行榜上攀爬爬山,而是並排比較。
我們打算讓您的基準作為檢查模型行為的工具和套件。因此,如果您正在運行新的設置並且已經調整了HPARAMS,請考慮運行所有其他型號。
此設置適用於希望直接與我們發布的結果進行比較的人們。
默認的超參數設置(每個基準測試現在應該具有一個配置文件)。不允許您更改超參數,例如嵌入尺寸,隱藏尺寸,新模型的層數。
與提供的配置文件中的基本變壓器模型相比,新模型應在參數方面最多在10%之內。
您可以運行任何型號大小並更改模型的任何超參數。但是,最終,您不允許您報告我們的排行榜結果,因為它們不再可比。您可以在可比較的環境中選擇從我們的庫重新運行模型。
如果您開發或可以從廣泛的Xformer基線中受益,請隨時讓我們知道您是否有興趣構建新的基準測試。我們歡迎為現有套件中未涵蓋的新型號做出貢獻。
在本文中,我們沒有優先考慮進行HPARAM掃描。如果您碰巧找到與實現相關的問題或更好的HPARAM,該問題允許模型在某個任務上做得更好,請發送PR(或新的配置文件),我們將在內部再次運行該模型,並為現有模型報告新的結果。
官方結果僅用於已在我們的代碼庫中驗證和運行的代碼。我們將所有外部提交報告為外部。要么提交PR,要么向我們展示如何在代碼庫中運行您的模型,我們將相應地更新結果。 (請注意,由於帶寬的約束,此過程將花費大量時間)。
要運行任務,請在相應的任務目錄中運行train.py文件。 (如果適用,請查看如何獲取某些任務的數據)。
PYTHONPATH="$(pwd)":"$PYTHON_PATH" python lra_benchmarks/listops/train.py
--config=lra_benchmarks/listops/configs/transformer_base.py
--model_dir=/tmp/listops
--task_name=basic
--data_dir=$HOME/lra_data/listops/
本節介紹獲取數據集並在LRA中運行任務的方法。
要下載數據集,請從gs://long-range-arena/lra_release下載它。如果權限失敗,您可以在https://storage.googleapis.com/long-range-arena/lra_release.gz上下載整個GZIPED文件。
可以在/listops找到此任務。我們實驗中使用的數據集可以在這些Google Cloud Bucket上找到,並以TSV格式找到。
如果您想延長/較短的序列長度,我們還支持生成自己的拆分,請運行以下評論:
PYTHONPATH="$(pwd)":"$PYTHON_PATH" python lra_benchmarks/data/listops.py --
--output_dir=$HOME/lra_data/listops/
可以在/text_classification找到此任務。不需要操作,因為此任務已經在TensorFlow數據集中找到。代碼應按原樣運行。
請在(http://aan.how/download/)下載數據集。請從我們的Google Cloud Bucket下載火車/測試/開發拆分。不幸的是,我們無法重新分配此數據集,並且僅在格式label paper1_id paper2_id中釋放ID。您可以從原始源下載數據並提取文本數據。
可以在/image中找到此任務。不需要操作,因為此任務已經在TensorFlow數據集中找到。它應該開箱即用。
請參閱./data目錄,其中可以找到探路者數據集的TFDS構建器。我們使用此處提供的腳本生成了用於探路者任務的不同數據集,但難度不同。您可以在./data/pathfinder中找到有關用於生成數據中數據的參數的信息。我們正在準備目前發布的確切數據拆分。
這不是官方的Google產品。