模型|排行榜|方法論|評估|魯棒性分析|限制|引用| Outlook |
Ethan Chern*,Haoyang Zou*,Xuefeng Li*,Jiewen Hu*,Kehua Feng,Junlong Li,Pengfei Liu+
[2023/12/12]我們發布了ABEL-7B-002 ,導致更強(GSM8K的增長35%,數學提高了126%)和更廣泛的模型,在所有7B型號中達到了最佳性能(GSM8K上的80.44,MATH上的80.44,MATH上的29.46)
| 模型名稱 | HF檢查點 | GSM8K | 數學 | 執照 |
|---|---|---|---|---|
| Abel-7b-002 | ? 7b | 80.44 | 29.46 | Apache許可證2.0 |
| Abel-7b-001 | ? 7b | 59.74 | 13.00 | 美洲駝2 |
| Abel-13b-001 | ? 13b | 66.41 | 17.34 | 美洲駝2 |
| Abel-70B-001 | ? 70B | 83.62 | 28.26 | 美洲駝2 |
| 模型 | GSM8K | 數學 | Mathqa | svamp | SCQ5K-en | 弧 | 弧 | Hellaswag | mmlu |
|---|---|---|---|---|---|---|---|---|---|
| Abel-7b-002 | 80.44 | 29.46 | 69.78 | 77.67 | 55.95 | 77.67 | 55.05 | 77.72 | 61.19 |
| Abel-7b-001 | 59.74 | 13 | 1.21 | 57.67 | 9.3 | 53.32 | 38.97 | 63.51 | 40.59 |
| Metamath-Mistral-7b | 77.7 | 28.2 | 33.94 | 79.33 | 37.6 | 78.48 | 51.93 | 76.44 | 61.93 |
| QWEN-7B | 47.84 | 9.34 | 27.44 | 53 | 40.05 | 74.97 | 53.05 | 86.85 | 57.98 |
| Mistral-7b | 37.83 | 9.06 | 25.73 | 63 | 39.6 | 76.83 | 53.22 | 76.31 | 64.05 |
| Yi-6b | 32.6 | 5.78 | 26.98 | 55.67 | 35.5 | 73.66 | 49.53 | 68.97 | 64.02 |
| Llama2-7b | 12.96 | 2.78 | 11.52 | 44 | 28.24 | 71.12 | 46.61 | 71.32 | 46.7 |
可以發現:
評估詳細信息:
Abel是為尼爾斯·亨里克(Niels Henrik)亞伯(Niels Henrik Abel)致敬的代數和分析的開創性工作的致敬,我們的模型也相對更好。不過,我們還有很長的路要走嗎?♂️?♀️ ?? ♂️?♀️?♀️?
我們表明:
我們已經在GSM8K( 83.62 )和Math( 28.26 )基准上建立了開源LLM(不使用外部工具)的新的最先進的性能。具體來說:
GAIRMath-Abel在排名前10位的排名中獲得了3個職位,並成為榜單中唯一由大學主導的項目(其他是Star Startups或大型科技公司)。我們證明了這一點:
代表專有模型嗎?代表開源模型?表明模型開發是由學術大學(而不是公司)領導的| 排行 | 模型 | 參數。 | 領導組織 | GSM8K | 數學 |
|---|---|---|---|---|---|
| 1 | GPT-4 | 未知 | Openai | 92.0 | 42.5 |
| 2 | 克勞德-2 | 未知 | 人類 | 88.0 | - |
| 3 | Palm-2-Flan | 未知 | 84.7 | 33.2 | |
| ? 4 | Gairmath-亞伯 | 70B | ?上海Jiotong大學的Gair Lab | 83.6 | 28.3 |
| ? 5 | 巫師 | 70B | 微軟 | 81.6 | 22.7 |
| 6 | 克勞德·納斯特 | 未知 | 人類 | 80.9 | - |
| 7 | chatgpt | 未知 | Openai | 80.8 | 34.1 |
| ? 4 | 亞伯-002 | 7b | ?上海Jiotong大學的Gair Lab | 80.4 | 29.5 |
| 8 | CHATGPT-0301 | 未知 | Openai | 74.9 | - |
| ? 9 | Gairmath-亞伯 | 13b | ?上海Jiotong大學的Gair Lab | 66.4 | 17.3 |
| ? 10 | Gairmath-亞伯 | 7b | ?上海Jiotong大學的Gair Lab | 59.7 | 13.0 |
| 11 | 密涅瓦 | 540b | 58.8 | 33.6 | |
| 12 | 棕櫚 | 540b | 56.9 | 8.8 | |
| ? 13 | Llama-2 | 70B | 元 | 56.8 | 13.5 |
| ? 14 | rft | 33b | Ofa | 56.5 | 7.4 |
| ? 15 | Baichuan2-13b | 13b | Baichuan | 52.8 | 10.1 |
| 16 | 密涅瓦 | 62B | 52.4 | 27.6 | |
| 17 | 棕櫚 | 64B | 52.4 | 4.4 | |
| ? 18 | rft | 13b | Ofa | 52.1 | 5.1 |
| ? 19 | 駱駝 | 65B | 元 | 50.9 | 10.6 |
| ? 20 | QWEN | 7b | 阿里巴巴 | 44.9 | 8.5 |
| 21 | 龍貓 | 70B | 深態 | 43.7 | - |
| ? 22 | Llama-2 | 34B | 元 | 42.2 | 6.24 |
| 23 | 銀河系 | 30b | 元 | 41.7 | 12.7 |
| ? 24 | chatglm2 | 12b | Zhipu | 40.9 | - |
| 25 | text-davinci-002 | 175b | Openai | 40.7 | 19.1 |
| ? 26 | 駱駝 | 33b | 元 | 35.6 | 7.1 |
| 27 | GPT-3 | 175b | Openai | 34 | 5.2 |
| ? 28 | Internlm | 7b | 上海AI實驗室 | 31.2 | - |
| ? 29 | Llama-2 | 13b | 元 | 28.7 | 3.9 |
| ? 30 | Vicuna v1.3 | 13b | lmsys | 27.6 | - |
| ? 31 | 鶻 | 40b | 技術創新研究所 | 19.6 | 2.5 |
| ? 32 | 駱駝 | 13b | 元 | 17.8 | 3.9 |
| ? 33 | MPT | 30b | Mosaicml | 15.2 | 3.1 |
| 34 | 銀河系 | 6.7b | 元 | 10.2 | 2.2 |
我們提出了父母監督,這是一種監督微調的保姆策略,
Parental Oversight不僅限於任何特定的數據處理方法。相反,它定義了數據處理理念,該理念應指導生成AI(GAI)時代的監督微調。我們認為,在GAI時代,數據結構工程已成為新的範式。在此範式中,處理微調數據的方式顯著影響訓練有素的GAI的性能。我們希望社區中越來越多的研究專注於這種數據處理理念。
Parental Oversight的原則強調以謹慎和審慎的態度對待受監督的微調。這類似於鼓勵父母教育孩子的方式。不同類型的數據及其演示格式(例如,分步推理,迭代精緻)可以比喻為各種教育方法。正如父母謹慎選擇指導孩子的最有效方法一樣,GAI從業者應謹慎選擇最有效的數據處理方法,以更好地指導其LLM。
此外,“越多的數據,越好”的理念並不總是成立。帶註釋的樣本的質量和相關性通常會超過其數量。 SFT中使用的培訓樣本不僅應提供正確的答案,而且還應根據LLM的知識來指導模型如何得出正確的答案。此外,如果LLM的知識不足以回答問題, Parental Oversight應介入以迅速解決知識差距。
conda create -n abel python=3.10conda activate abelpip install -r requirements.txt 。bash evaluation/eval.sh 。評估腳本的一部分是從密涅瓦修改的。./outputs目錄中檢查我們的評估輸出。 我們的穩健性分析包括兩個部分:對GSM8K_ROBUST數據集的對抗評估,並在TAL-SCQ5K-EN數據集中進行了監督的轉移學習。我們執行初步分析以了解(1)ABEL是否過度擬合訓練數據集,因此對於分佈式測試樣本而言是脆弱的,以及(2)我們的SFT方法是否可以快速轉移並從不同分佈中轉移ABEL到數據集。
GSM8K_ROBUST數據集是我們基於GSM8K數據集建立的數據集。我們使用GPT-4隨機修改了GSM8K數據集問題中的數字,而無需更改問題中的任何其他信息。我們還要求GPT-4為修改後的問題生成“金色答案”。在手動審查了這些樣品的子集後,我們發現所有改變的問題的生成答案都是準確的。我們利用GSM8K_ROBUST數據集來評估模型是否擬合訓練數據,使模型容易受到分佈外測試樣本的影響。我們的分析表明,與其他模型相比,ABEL對分佈式測試樣品更強大。
| 模型 | GSM8K | gsm8k_robust | 三角洲 |
|---|---|---|---|
| 亞伯-7b | 59.74 | 58.23 | -1.51 |
| 亞伯-13b | 66.41 | 66.57 | +0.16 |
| 亞伯-70B | 83.62 | 81.80 | -1.82 |
| Wizardmath-70B | 81.60 | 74.91 | -6.70 |
| Wizardmath-13b | 63.90 | 59.51 | -4.39 |
| RFT-7B | 41.7 | 37.98 | -3.72 |
我們證明,ABEL-70B不僅可以在GSM8K和數學數據集上實現SOTA,而且還可以很好地推廣到TAL-SCQ5K-EN 2K,這是Math LLM提供商TAL(tal)新發布的數據集(tal)。我們的分析表明,我們的SFT方法可以成功地將ABEL概括為來自不同分佈的數據集。我們將進行進一步的分析和實驗,以探索和改善亞伯的泛化能力。
| 模型 | TAL-SCQ5K-EN 2K測試基準測試 |
|---|---|
| 亞伯-70B | 59.7 |
| Mathgpt | 59.0 |
| GPT-4 | 51.0 |
| Llama-70B | 43.8 |


我們創建了一系列問題,以維持這些局限性和潛在的解決方案。總是歡迎您的意見和評論。
如果此存儲庫中的型號/代碼/結論對您有所幫助,請引用回購。
@misc{abel,
author = {Chern, Ethan and Zou, Haoyang and Li, Xuefeng and Hu, Jiewen and Feng, Kehua and Li, Junlong and Liu, Pengfei},
title = {Generative AI for Math: Abel},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/GAIR-NLP/abel}},
}
我們正在不斷完善我們的模型,並將發布更新。敬請關注!