นี่คือพื้นที่เก็บข้อมูลสำหรับโครงการ "กฎหมายและปัญญาประดิษฐ์" ของเราที่ Northwestern University สมาชิกในทีมสำหรับโครงการคือ Noah Caldwell-Gatsos @ncaldwell17 , Rhett d'Souza @rhettdsouza13 และ lukas justen @lukas-justen
การใช้ความก้าวหน้าโดยตรงในการถ่ายโอนการเรียนรู้จาก Bert ส่งผลให้เกิดความแม่นยำไม่ดีในพื้นที่เฉพาะโดเมนเช่นกฎหมายเนื่องจากการเปลี่ยนการกระจายคำจาก Domain Corpora ทั่วไปไปสู่ Corpora เฉพาะโดเมน ในโครงการของเราเราจะแสดงให้เห็นว่ารูปแบบภาษาที่ผ่านการฝึกอบรมล่วงหน้าเบิร์ตสามารถปรับให้เข้ากับโดเมนเพิ่มเติมได้อย่างไรเช่นกฎหมายสัญญาหรือการตัดสินของศาล
เราไม่ได้สร้างและฝึกอบรมแบบจำลองที่ต้องใช้ทรัพยากรเกินขอบเขตของโครงการ แต่สิ่งที่เราเสนอคือกรอบสำหรับการสร้างเบิร์ตเฉพาะโดเมนโดยใช้สัญญาทางกฎหมายเป็นกรณีศึกษา เฟรมเวิร์กนี้จะครอบคลุมว่าทำไมสิ่งนี้จำเป็นต้องมีข้อมูลประเภทใดที่จำเป็นวิธีการฝึกอบรมแบบจำลองและวิธีการประเมินประสิทธิภาพของโมเดล
ในที่สุดเราก็สร้างส่วนหน้าเล็ก ๆ ที่ช่วยให้คุณเห็นภาพความซับซ้อนของ Corpora เราหวังว่าสิ่งนี้จะช่วยให้ผู้อื่นได้รับข้อมูลเชิงลึกในชุดข้อมูลของพวกเขาและหาว่ามันเหมาะสมที่จะใช้ Bert กับโดเมนของพวกเขาหรือไม่