Этот репозиторий предоставляет связанные с ним ресурсы для статьи Robertalexpt: юридическая модель Роберты, предварительно предварительно предоставленная дедупликацией для португальцев.
Кончик
Проверьте Роберту Legal Portugkes? Коллекция!
Мы составляем две основные корпора для предварительного обучения:
| Корпус | Домен | Токены (б) | Размер (Gib) |
|---|---|---|---|
| Проживание | Юридический | 22.5 | 125,1 |
| Ползание | |||
| Brwac | Общий | 2.7 | 16.3 |
| CC100 (PT) | Общий | 8.4 | 49.1 |
| Оскар-2301 (PT) | Общий | 18.1 | 97.8 |
Дедупликация была выполнена с использованием алгоритма Минхаша и чувствительного к местному хешированию, следуя подходу Lee et al. (2022). Мы использовали 5 граммов и подпись размера 256, учитывая, что два документа будут идентичными, если их сходство Jaccard превысило 0,7.
The Benchmark Portulex-это эталон с четырьмя задачами, предназначенный для оценки качества и производительности языковых моделей в португальском юридическом контексте.
| Набор данных | Задача | Тренироваться | Девчонка | Тест |
|---|---|---|---|---|
| Rri | CLS | 8.26K | 1,05K | 1,47K |
| Lener-Br | Нор | 7,83K | 1.18K | 1,39K |
| Ulyssesner-br | Нор | 3.28K | 489 | 524 |
| FGV-STF | Нор | 415 | 60 | 119 |
Наша модель была предварительно проведена в четырех различных конфигурациях:
Macro F1-Score (%) для нескольких моделей, оцениваемых на тестах Portulex.
| Модель | Лидер | Ulyner-pl | FGV-STF | Rrip | Средний (%) |
|---|---|---|---|---|---|
| Грубый/штраф | Грубый | ||||
| Бертимбау | 88.34 | 86,39/83,83 | 79,34 | 82,34 | 83,78 |
| Бертимбау-широкий | 88.64 | 87,77/84,74 | 79,71 | 83,79 | 84,60 |
| Albertina-PT-Brase | 89,26 | 86,35/84,63 | 79,30 | 81.16 | 83,80 |
| Albertina-PT-B-B-xlarge | 90.09 | 88.36/ 86.62 | 79,94 | 82,79 | 85,08 |
| Bertikal-Base | 83,68 | 79,21/75,70 | 77.73 | 81.11 | 79,99 |
| Юрисберт-баз | 81.74 | 81,67/77,97 | 76.04 | 80,85 | 79,61 |
| Bertimbaulaw-Base | 84,90 | 87.11/84,42 | 79,78 | 82,35 | 83,20 |
| Legal-xlm-R-баз | 87.48 | 83,49/83,16 | 79,79 | 82,35 | 83,24 |
| Legal-xlm-R-Large | 88.39 | 84,65/84,55 | 79,36 | 81.66 | 83,50 |
| Легальный-роберта-pt-large | 87.96 | 88,32/84,83 | 79,57 | 81.98 | 84,02 |
| Наш | |||||
| Робертатимбау-база (воспроизведение Бертимбау) | 89,68 | 87,53/85,74 | 78.82 | 82.03 | 84,29 |
| Роберталегальпт-баз (обучен на Legalpt) | 90.59 | 85,45/84,40 | 79,92 | 82,84 | 84,57 |
| Robertacrawlpt-base (обучен на ползании) | 89,24 | 88.22/86.58 | 79,88 | 82,80 | 84,83 |
| Robertalexpt-Base (обучен на Crawpt + Legalpt) | 90.73 | 88.56 /86.03 | 80.40 | 83,22 | 85,41 |
Таким образом, Robertalexpt неизменно достигает лучшей юридической эффективности НЛП, несмотря на его базовый размер. С достаточным количеством данных перед тренировкой, это может превзойти более крупные модели. Результаты подчеркивают важность данных обучения домена по сравнению с чистой шкалой модели.
@inproceedings { garcia-etal-2024-robertalexpt ,
title = " {R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese " ,
author = " Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A. " ,
editor = " Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{c{c}}alo and
Amaro, Raquel " ,
booktitle = " Proceedings of the 16th International Conference on Computational Processing of Portuguese " ,
month = mar,
year = " 2024 " ,
address = " Santiago de Compostela, Galicia/Spain " ,
publisher = " Association for Computational Lingustics " ,
url = " https://aclanthology.org/2024.propor-1.38 " ,
pages = " 374--383 " ,
}Эта работа была поддержана Центром передового опыта ИИ (Centro de Excelência em Inteligência Artificial-Ceia) Института информатики в Федеральном университете Гойаса (Inf-UFG).