TWLLM Tutor
1.0.0

conda create --name twllm_tutor python=3.10.0
source activate twllm_tutor
pip install -r envs/requirements.txt
virtualenv --python=python3.10.0 twllm_tutor
source twllm_tutor/bin/activate
pip install -r envs/requirements.txt
pyenv install 3.10.0
pyenv virtualenv 3.10.0 twllm_tutor
pip install -r envs/requirements.txt
Оригинальный социальный набор данных GSAT загружается с веб -сайта GSAT.
| Набор данных | Год | Количество вопросов |
|---|---|---|
| train_gsat_social | 83-107 | 1221 |
| valive_gsat_history | 108-112 | 97 |
| valive_gsat_civics | 108-112 | 79 |
| valive_gsat_social | 108-112 | 213 |
Чтобы загрузить набор социальных тренировок GSAT, вы можете запустить команду:
bash scripts/download_data.sh| Набор данных | Количество вопросов |
|---|---|
| train_qb_geography | 312 |
| train_qb_history | 9000 |
| train_qb_civics | 2035 |
| train_qb_social | 11347 |
| valive_qb_history | 205 |
./data
|─ raw_data
| |─ GSAT_social # Public is for data we consider publishable (without copyright issues, etc).
| └─ QB_social # Private is for data we don't want to publish (For future extensions).
└─ train_data
|- GSAT_social
|- GSAT_social_with_image
└─ QB_social
{
"subject": "social_study",
"year": "83",
"id": 1,
"type": "single",
"question": "孫中山先生認為造成中國人像一盤散沙,民族不夠團結的主因為何",
"A": "任外族帝制專斷的統治下,人民喪失了關心公共事務的能力",
"B": "異族的征服者過於強大,中國人團結也沒用",
"C": "中國入的家族觀念過於發達",
"D": "過早提倡天下一家的世界主義",
"answer": "A",
"answer_details": ""
},
Чтобы сгенерировать конфигурацию, вы можете запустить команду:
python generate_config.py
Чтобы точно настроить китайский берт, вы можете запустить команду:
bash scripts/run_train_bert.shЧтобы загрузить вес предварительного обучения Тайвань-LLM-7B, вы можете запустить команду:
bash scripts/download_model_weight.shFINETUNE_METHOD=qlora_instruction_tuning bash scripts/run_train_twllm.shFINETUNE_METHOD=qlora_multiple_choice bash scripts/run_train_twllm.shbash scripts/run_quantize_twllm_loftq.shFINETUNE_METHOD=loftq_instruction_tuning bash scripts/run_train_twllm.shFINETUNE_METHOD=loftq_multiple_choice bash scripts/run_train_twllm.shpython test.py --checkpoint_path < path of checkpoint > | Вопрос | Тайвань-LLM-преподаватель | Чатгпт |
|---|---|---|
| 你是一名人工智慧家教 , 以下的題目為高中社會科 請根據題目提供使用者正確答案的選項 a 或 B 或 C 或 d。十九世紀前期 , 張三從寧波來艋舺採購樟腦 , 計畫運回浙江、上海銷售 同時也運來綢緞、布帛等貨品來臺銷售。請問 : : : : A. 東印度公司 B. 北郊 C. 怡和洋行 D. 三井會社 三井會社 | Б. 北郊 : : 當時臺北港的北郊商人常兼職貿易商 , 對於貨物的運送和買賣多半有涉獵。✅ | C. 怡和洋行 : : 在十九世紀前期 張三要將樟腦、綢緞、布帛等貨品運送回浙江和上海銷售 , 最可能委託的組織是怡和洋行。怡和洋行是一家在 19 世紀初期在華南地區經營貿易的外國商行 , 主要從中國向其他國家運送貨物。因此 , 怡和洋行是最可能協助張三運送這批貨物的組織。其他選項 如 A. 東印度公司、 б. 北郊、 d. 三井會社 , 都不太可能參與這個情境中的貨物運送。 |
| 你是一名人工智慧家教 , 以下的題目為高中社會科 請根據題目提供使用者正確答案的選項 a 或 b 或 c 或 d。學者指出 : 北魏實行均田法的背景 , , 因戰亂的傷亡及遷徙 留下大片無主荒田;第二 , 許多農民為躲避戰禍 許多農民為躲避戰禍 逃離農村 , 流落城市 成為不事生產的游民;第三 , 農民投靠大戶士族 「五十三十家方為一戶」 , 只向其宗主貢獻 , 不必向政府納稅。均田法的實施是結合戶籍的清查及管理 , 透過計口授田 使農業勞動力與耕地達到合理配合 使農業勞動力與耕地達到合理配合 以恢復生產 , 建立小農社會。根據上述 : : : 保全士族特權 保全士族特權 推行漢化運動 推行漢化運動 推行漢化運動. | C. 重建編戶稅基 : : 北魏均田法的實施 使農民戶籍清查並管理 使農民戶籍清查並管理 , 透過計口授田 , 使農業勞動力與耕地達到合理配合 , 以恢復生產 , n (a) 與資料無關。 n (b) 與資料無關。 n (d) 與資料無關。✅ | A. 限制土地兼併 : : 根據提供的資訊 北魏實行均田法的背景包括大片無主荒田、許多農民流落城市成為游民、農民投靠大戶士族等情況。均田法的實施主要目的是限制土地兼併 北魏實行均田法的背景包括大片無主荒田、許多農民流落城市成為游民、農民投靠大戶士族等情況。均田法的實施主要目的是限制土地兼併 通過計口授田 , 確保農業勞動力和土地之間的合理配合 , 防止土地被少數大戶士族壟斷 , 促進農業生產 建立小農社會。因此 建立小農社會。因此 , a. 限制土地兼併是最合適的答案。 |
| 你是一名人工智慧家教 , 以下的題目為高中社會科 請根據題目提供使用者正確答案的選項 a 或 b 或 c 或 d。 1949 年 10月 , 軍集中船隻對金門發動攻擊 , 遭守軍擊退。 1950 年 3 月 , 軍又集結大批兵力 , 用類似「萬船齊發戰術」進攻海南島 , 迫使當地國軍撤守; 5月底更攻占廣東萬山群島。 軍原本預定隨後再度對金門發動攻擊 , 但沒有多久就取消這項計畫。最可能的原因是 : a. 軍軍備及船隻有限 , 已經無法再負擔長期作戰 B. 軍顧忌金門兵力強大 , 寧可保持戰果故而避戰 韓戰爆發 美國宣布派遣第七艦隊協助臺灣防務 臺灣實施戒嚴 , 共 共 共 共 | C. 韓戰爆發 , 美國宣布派遣第七艦隊協助臺灣防務 : : 韓戰爆發後 , 美國宣布派遣第七艦隊協助臺灣防務 , 因此 軍暫緩對金門的攻擊。✅軍暫緩對金門的攻擊。✅ | A. 軍軍備及船隻有限軍軍備及船隻有限 , 已經無法再負擔長期作戰 原因 : 1949 年 10月 , 軍對金門發動攻擊 軍對金門發動攻擊 , , 軍又進攻海南島並攻占廣東萬山群島。然而 , 最可能的原因取消對金門的再次攻擊計畫是因為 軍的軍備和船隻有限 軍的軍備和船隻有限 , 已經難以再負擔長期作戰 , 軍可能決定將資源用於其他地區或其他策略 軍可能決定將資源用於其他地區或其他策略 , 因為攻擊金門可能會導致更大的損失。其他選項如 B. 軍顧忌金門兵力強大、軍顧忌金門兵力強大、 c. 韓戰爆發 , ... |
Эксперименты проводились на персональном компьютере, оснащенном одним графическим процессором NVIDIA GEFORCE RTX 4090 с 24 ГБ VRAM, и конфигурацией сервера с одним графическим процессором RTX A6000 с 49 ГБ VRAM.
@misc { liao2023twllmtutor ,
title = { Taiwan-LLM Tutor: Large Language Models for Taiwanese Secondary Education } ,
author = { Jia-Wei Liao, Ji-Jia Wu, Kun-Hsiang Lin, Kang-Yang Huang } ,
url = { https://github.com/jwliao1209/TWLLM-Tutor } ,
year = { 2023 }
}