การตอบคำถาม (QA) เป็นสาขาในการประมวลผลภาษาธรรมชาติ (NLP) และการดึงข้อมูล (IR) งาน QA โดยทั่วไปมีจุดมุ่งหมายเพื่อให้คำตอบที่แม่นยำและรวดเร็วสำหรับคำถามที่กำหนดในภาษาธรรมชาติโดยใช้ข้อมูลหรือฐานข้อมูลที่กำหนด ในโครงการนี้เราจัดการปัญหาการตอบคำถามเกี่ยวกับเอกสารทางการแพทย์ มีรูปแบบภาษามากมายที่เผยแพร่และพร้อมใช้งานสำหรับงานตอบคำถาม ในโครงการนี้เราต้องการพัฒนารูปแบบภาษาโดยเฉพาะที่ได้รับการฝึกฝนในสาขาการแพทย์ เป้าหมายของเราคือการพัฒนารูปแบบภาษาเฉพาะบริบทบนเอกสารทางการแพทย์ทำงานได้ดีกว่าแบบจำลองภาษาทั่วไป เราใช้ Electra-Small เป็นแบบจำลองพื้นฐานของเราและฝึกฝนโดยใช้ชุดข้อมูลกระดาษทางการแพทย์จากนั้นปรับแต่งชุดข้อมูล QA ทางการแพทย์อย่างละเอียด เราฝึกอบรมสามรุ่นที่แตกต่างกันและเปรียบเทียบผลลัพธ์ของพวกเขากับงาน NLP ดาวน์สตรีม
คุณสามารถเข้าถึงโมเดลของเราได้ที่นี่:
Med-electra รุ่นเล็ก 17GB-คำศัพท์ 64K https://huggingface.co/enelpi/med-electra-small-discriminator
Med-electra รุ่นเล็ก 39GB-30.5K คำศัพท์ https://huggingface.co/enelpi/med-electra-small-30k-discriminator
Med-electra ขนาดเล็กรุ่น 39GB-คำศัพท์ 64K https://huggingface.co/enelpi/med-electra-small-64k-discriminator
เราใช้เอกสารทางการแพทย์ S2ORC เรากรองฐานข้อมูล S2ORC โดยใช้สาขาการศึกษาและใช้เอกสารทางการแพทย์ เราใช้ชุดข้อมูลที่แตกต่างกันสองชุดประกอบด้วยเศษเราใช้ 11 ชิ้นสำหรับชุดข้อมูล 17GB และใช้ 26 ชิ้นสำหรับชุดข้อมูล 39GB หลังจากนั้นเราก็นำสิ่งที่ตีพิมพ์ใน PubMed และ PubMedCentral เราใช้เฉพาะ pdf_parses ของเอกสารเหล่านั้นเนื่องจากประโยคใน pdf_parses มีข้อมูลเพิ่มเติม
{
"section": "Introduction",
"text": "Dogs are happier cats [13, 15]. See Figure 3 for a diagram.",
"cite_spans": [
{"start": 22, "end": 25, "text": "[13", "ref_id": "BIBREF11"},
{"start": 27, "end": 30, "text": "15]", "ref_id": "BIBREF30"},
...
],
"ref_spans": [
{"start": 36, "end": 44, "text": "Figure 3", "ref_id": "FIGREF2"},
]
}
{
...,
"BIBREF11": {
"title": "Do dogs dream of electric humans?",
"authors": [
{"first": "Lucy", "middle": ["Lu"], "last": "Wang", "suffix": ""},
{"first": "Mark", "middle": [], "last": "Neumann", "suffix": "V"}
],
"year": "",
"venue": "barXiv",
"link": null
},
...
}
{
"TABREF4": {
"text": "Table 5. Clearly, we achieve SOTA here or something.",
"type": "table"
}
...,
"FIGREF2": {
"text": "Figure 3. This is the caption of a pretty figure.",
"type": "figure"
},
...
}
}
สรุปข้อมูลคอร์ปัสสำหรับ 17GB
| ประโยค | คำพูดที่เป็นเอกลักษณ์ | ขนาด | ขนาดโทเค็น | |
|---|---|---|---|---|
| รถไฟ | 111537350 | 27609654 | 16.9GB | 2538210492 |
สรุปข้อมูล CORPUS สำหรับ 39GB
| ประโยค | คำพูดที่เป็นเอกลักษณ์ | ขนาด | ขนาดโทเค็น | |
|---|---|---|---|---|
| รถไฟ | 263134203 | 52206886 | 39.9GB | 6000436472 |
ด้วยการใช้คลังข้อมูลที่สร้างขึ้นเราได้รับการฝึกอบรมมาล่วงหน้ารุ่น Electra-Small ตั้งแต่เริ่มต้น แบบจำลองได้รับการฝึกฝนบน RTX 2080 Ti GPU
| แบบอย่าง | ชั้น | ขนาดที่ซ่อน | พารามิเตอร์ |
|---|---|---|---|
| ควันเล็ก ๆ | 12 | 256 | 14m |
สำหรับ 17GB
จำนวนบรรทัด: 111332331
จำนวนคำ (โทเค็น): 2538210492
รุ่นนี้ใช้เวลา 6 วันในการฝึกอบรม
| ตัวชี้วัด | ค่า |
|---|---|
| disc_curacy | 0.9456 |
| disc_auc | 0.9256 |
| disc_loss | 0.154 |
| disc_pecision | 0.7832 |
| disc_recall | 0.4545 |
| การสูญเสีย | 10.45 |
| masked_lm_curacy | 0.5168 |
| masked_lm_loss | 2.776 |
| sampled_masked_lm_curacy | 0.4135 |
สำหรับ 39GB ที่มีขนาดคำศัพท์ 30.5k
จำนวนบรรทัด: 263134203
จำนวนคำ (โทเค็น): 6000436472
รุ่นนี้ใช้เวลา 5 วันในการฝึกอบรม
| ตัวชี้วัด | ค่า |
|---|---|
| disc_curacy | 0.943 |
| disc_auc | 0.9184 |
| disc_loss | 0.1609 |
| disc_pecision | 0.7718 |
| disc_recall | 0.4153 |
| การสูญเสีย | 10.72 |
| masked_lm_curacy | 0.5218 |
| masked_lm_loss | 2.7 |
| sampled_masked_lm_curacy | 0.4177 |
สำหรับ 39GB ที่มีขนาดคำศัพท์ 64K
จำนวนบรรทัด: 263134203
จำนวนคำ (โทเค็น): 6000436472
รุ่นนี้ใช้เวลา 6 วันในการฝึกอบรม
| ตัวชี้วัด | ค่า |
|---|---|
| disc_curacy | 0.9453 |
| disc_auc | 0.9278 |
| disc_loss | 0.1534 |
| disc_pecision | 0.7788 |
| disc_recall | 0.4655 |
| การสูญเสีย | 10.48 |
| masked_lm_curacy | 0.5095 |
| masked_lm_loss | 2.82 |
| sampled_masked_lm_curacy | 0.4066 |
สำหรับ
| รุ่น/พารามิเตอร์ hyperparameters | train_steps | คำศัพท์ | batch_size |
|---|---|---|---|
| ควันเล็ก ๆ | 1m | 64000 | 128 |
ผลการฝึกอบรมสามารถเข้าถึงได้ที่นี่:
https://tensorboard.dev/experiment/g9pkbfzaqeacr7dgw2uljq/#scalars https://tensorboard.dev/experiment/qu1bq0mirgocgqbzhqs2ta/#scalars

สำหรับ
| รุ่น/พารามิเตอร์ hyperparameters | train_steps | คำศัพท์ | batch_size |
|---|---|---|---|
| ควันเล็ก ๆ | 1m | 30522 | 128 |
ผลการฝึกอบรมสามารถเข้าถึงได้ที่นี่:
https://tensorboard.dev/experiment/npyu6mkhrmgoyd8kdsqw5w/#scalars https://tensorboard.dev/experiment/zqbeq7zjsdyijs5jb8ov3g/#scalars

สำหรับ
| รุ่น/พารามิเตอร์ hyperparameters | train_steps | คำศัพท์ | batch_size |
|---|---|---|---|
| ควันเล็ก ๆ | 1m | 64000 | 128 |
ผลการฝึกอบรมสามารถเข้าถึงได้ที่นี่:
https://tensorboard.dev/experiment/gc51rmhdtgmj7eq0uyuavw/#scalars https://tensorboard.dev/experiment/q66kfo3lqtwk1kykgjcyyg/#scalars

สำหรับการรับรู้เอนทิตีที่มีชื่อเราใช้ NCBI-Disease Corpus ซึ่งเป็นทรัพยากรสำหรับการจดจำชื่อโรคที่เผยแพร่ใน PubMed
| แบบอย่าง | F1 | การสูญเสีย | ความแม่นยำ | ความแม่นยำ | ระลึกถึง |
|---|---|---|---|---|---|
| ENELPI/MED-Electra-small-discriminator | 0.8462 | 0.0545 | 0.9827 | 0.8052 | 0.8462 |
| Google/Electra-Small-Discriminator | 0.8294 | 0.0640 | 0.9806 | 0.7998 | 0.8614 |
| Google/Electra-base-discriminator | 0.8580 | 0.0675 | 0.9835 | 0.8446 | 0.8718 |
| distilbert-base | 0.8348 | 0.0832 | 0.9815 | 0.8126 | 0.8583 |
| เบส distilroberta | 0.8416 | 0.0828 | 0.9808 | 0.8207 | 0.8635 |
| แบบอย่าง | F1 | การสูญเสีย | ความแม่นยำ | ความแม่นยำ | ระลึกถึง |
|---|---|---|---|---|---|
| ENELPI/MED-Electra-small-discriminator | 0.8425 | 0.0545 | 0.9824 | 0.8028 | 0.8864 |
| Google/Electra-Small-Discriminator | 0.8280 | 0.0642 | 0.9807 | 0.7961 | 0.8625 |
| Google/Electra-base-discriminator | 0.8648 | 0.0682 | 0.9838 | 0.8442 | 0.8864 |
| distilbert-base | 0.8373 | 0.0806 | 0.9814 | 0.8153 | 0.8604 |
| เบส distilroberta | 0.8329 | 0.0811 | 0.9801 | 0.8100 | 0.8572 |
| แบบอย่าง | F1 | การสูญเสีย | ความแม่นยำ | ความแม่นยำ | ระลึกถึง |
|---|---|---|---|---|---|
| ENELPI/MED-Electra-small-discriminator | 0.8463 | 0.0559 | 0.9823 | 0.8071 | 0.8895 |
| Google/Electra-Small-Discriminator | 0.8280 | 0.0691 | 0.9806 | 0.8025 | 0.8552 |
| Google/Electra-base-discriminator | 0.8542 | 0.0645 | 0.9840 | 0.8307 | 0.8791 |
| distilbert-base | 0.8424 | 0.0799 | 0.9822 | 0.8251 | 0.8604 |
| เบส distilroberta | 0.8339 | 0.0924 | 0.9806 | 0.8136 | 0.8552 |
สำหรับงานตอบคำถามเราใช้ชุดข้อมูลคำถาม BioASQ
| แบบอย่าง | SACC | LACC |
|---|---|---|
| ENELPI/MED-Electra-Small-Discriminator-128 | 0.2821 | 0.4359 |
| Google/Electra-Small-Discriminator-128 | 0.3077 | 0.5128 |
| ENELPI/MED-Electra-Small-Discriminator-512 | 0.1538 | 0.3590 |
| Google/Electra-Small-Discriminator-512 | 0.2564 | 0.5128 |
คุณสามารถเข้าถึงวิดีโอการนำเสนอจาก YouTube https://www.youtube.com/watch?v=fao9clyfldc&list=plhnxo6hzwbglge_iywgyxnmpz-3pgpggt&index=2
https://github.com/google-research/electra https://chriskhanhtran.github.io/_posts/2020-06-11-electra-spanish/ https://github.com/allenai/s2orc https:/github.com https://github.com/abachaa/medquad https://www.ncbi.nlm.nih.gov/pmc/articles/pmc5530755/ https://pubmed.ncbi.nlm.nih.gov/243937655 https://github.com/lasseregin/medical-question-answer-data https://huggingface.co/blog/how-to-train https://arxiv.org/abs/1909.06146 https://www.nlm.nih.gov/databases/download/pubmed_medline.html