Dies ist das Repository für unser "Law and Artificial Intelligence" -Projekt an der Northwestern University. Das Teammitglied des Projekts sind Noah Caldwell-Gatsos @ncaldwell17 , Rhett D'Souza @rhettdouza13 und Lukas Justen @lukas-Justden .
Die direkte Anwendung von Fortschritten beim Übertragungslernen aus Bert führt zu einer schlechten Genauigkeit in domänenspezifischen Bereichen wie Law, da sich eine Wortverteilung von allgemeinen Domänenkorpora zu domänenspezifischen Korpora verschiebt. In unserem Projekt werden wir demonstrieren, wie das vorgebrachte Sprachmodell Bert an zusätzliche Domänen wie Vertragsrecht oder Gerichtsurteile angepasst werden kann.
Wir haben das Modell nicht erstellt und trainiert, was Ressourcen über den Rahmen des Projekts hinaus erfordert. Stattdessen schlagen wir einen Rahmen für die Erstellung eines domänenspezifischen Bert durch, indem wir rechtliche Verträge als Fallstudie verwenden. Dieser Framework wird abdecken, warum dies notwendig ist, welche Art von Daten erforderlich ist, wie das Modell trainiert wird und wie die Leistung des Modells bewertet werden kann.
Schließlich haben wir eine kleine Frontend gebaut, mit der Sie die Komplexität einer Korpora visualisieren können. Wir hofften, dass dies anderen Menschen helfen wird, Einblicke in ihre Datensätze zu gewinnen und herauszufinden, ob es sinnvoll ist, Bert auf ihre Domäne anzuwenden.