Ini adalah kode yang berisi repositori dan data untuk kertas:
K. Noorbakhsh, M. Sulaiman, M. Sharifi, K. Roy dan P. Jamshidi. Model bahasa pretrained juga pemecah matematika simbolis!
Situs web proyek
Kode ini tergantung pada paket berikut:
TorchNumPySymPyTransformersApex trainer.py berisi kode untuk menyempurnakan model bahasa pra-terlatih. Harap ubah parameter berikut untuk menjalankan:
language : Bahasa pra-terlatih.Model_Type : mbart atau marian.path1 dan path2 : Jalur pelatihan dan data validasi.max_input_length dan max_output_length : 1024 untuk model MBART dan 512 untuk model Marian-MT.model_name : Nama model yang ingin Anda simpan. evaluator.py berisi kode untuk mengevaluasi model bahasa yang disempurnakan pada data matematika simbolik. Harap ubah parameter 1-4 sama dengan bagian trainer dan juga ubah parameter berikut:
path : Jalur dataset uji.saved_model : Jalur model yang disimpan disimpan. src/hf_utils.py berisi kode untuk membaca dataset dan beberapa utilitas untuk evaluasi.
Sisa kode diadopsi dari pembelajaran mendalam untuk matematika simbolik (Lample et al.).
Dataset tersedia di sini.
train , valid , dan file test berisi pelatihan, validasi, dan pengujian set data untuk model MBART.language_data berisi data untuk pelatihan, validasi dan set data dari model Marian-MT.distribution_test berisi file uji untuk bagian shift distribusi (polinomial, trgonometri dan logaritmik). Silakan mengutip kami jika Anda menggunakan pekerjaan kami dalam penelitian Anda.
@article{noorbakhsh2021pretrained,
title={Pretrained Language Models are Symbolic Mathematics Solvers too!},
author={Kimia Noorbakhsh and Modar Sulaiman and Mahdi Sharifi and Kallol Roy and Pooyan Jamshidi},
journal={arXiv preprint arXiv:2110.03501},
year={2021}
}