
pip install -r requirements.txtmain.pyJalankan Eksperimen TimeQA
python main.py
--prompt_file timeqa.json
--given_context 1
--dataset timeqa
--data_file test_hard.jsonl
--max_slice_length 512
--slice_stride 384
--return_search_passage content
--model_name gpt-3.5-turbo
--resume_id -1
Jalankan Tempquestions dan Eksperimen Perjanjian Waktu
python main.py
--prompt_file timequestions.json
--given_context 0
--dataset tempquestion
--data_file test.jsonl
--max_slice_length 512
--slice_stride 384
--return_search_passage content
--model_name gpt-3.5-turbo
--resume_id -1
Output seharusnya terlihat seperti
0 Joachim Löw was the coach of which team between Jan 1997 and Aug 1997?
'''python
query = {"subject": "Joachim Löw", "relation": "coach of", "object": None, "time": {"start": datetime(1997, 1, 1), "end": datetime(1997, 8, 31)}}
answer_key = "object"
'''
Search:
'''python
entities_to_search = ["Joachim Löw"]
'''
--------------------------------------------------
Generate a background document from Wikipedia to answer the given question:Joachim Löw is a German football coach and former player. He was the head coach of VfB Stuttgart from July 1996 to October 1998.
Extract information relevant to the query:
'''python
information.append({"subject": "Joachim Löw", "relation": "coach of", "object": "VfB Stuttgart", "time": {"start": datetime(1996, 7, 1), "end": datetime(1998, 10, 31)}})
'''
**************************************************
Extract information relevant to the query:
'''python
information.append({"subject": "Joachim Löw", "relation": "coach of", "object": None, "time": {"start": datetime(1997, 1, 1), "end": datetime(1997, 8, 31)}})
'''
...
Atur file_path di calc_metrics_with_check_and_match.py dan jalankan.
Dalam pekerjaan ini, kami fokus pada QA yang dibatasi waktu. Namun, kerangka kerja kami dapat dimodifikasi untuk menggeneralisasi ke tugas QA berbasis terbatas lainnya. Kuncinya adalah mendefinisikan kendala sebagai kelas Python, yang harus dapat diukur seberapa baik kendala dipenuhi dan mendefinisikan kembali fungsi match di calc_metrics_with_check_and_match.py .
Kami menjalankan semua percobaan dengan gpt-3.5-turbo-0301 . Namun, kami menemukan versi yang diperbarui seperti gpt-3.5-turbo-0613 dan gpt-3.5-turbo-1106 memiliki perilaku yang berbeda, kemampuan belajar dalam konteks mereka menjadi terdegradasi dan tidak dapat melakukan tugas dengan benar.
Harap kutip kertas dan bintang repo ini jika Anda menganggap QAAP menarik atau bermanfaat, terima kasih! Jangan ragu untuk menghubungi [email protected] atau buka masalah jika Anda memiliki pertanyaan.
@article { zhu2023qaap ,
title = { Question Answering as Programming for Solving Time-Sensitive Questions } ,
author = { Zhu, Xinyu and Yang, Cheng and Chen, Bei and Li, Siheng and Lou, Jian-Guang and Yang, Yujiu } ,
journal = { arXiv preprint arXiv:2305.14221 } ,
year = { 2023 }
}