該存儲庫包含西班牙法律領域的兩個主要資源的頁面:
存儲庫和預印將通過較大的模型,評估等更新。
很少有培訓西班牙語的模型。一些模型已經接受了低資源的培訓,即不潔的語料庫。從西班牙國家語言技術計劃中得出的是,熟練地解決了幾項任務,並已通過大規模清潔語料庫進行了培訓。但是,西班牙法律領域語言可以自己想到一種獨立的語言。因此,我們創建了一個由法律語料庫培訓的西班牙法律模型。
正在進行中。
| 語料庫名稱 | 尺寸(GB) | 令牌(m) |
|---|---|---|
| Procesos處罰 | 0.625 | 0.119 |
| JRC收購 | 0.345 | 59.359 |
| códigoselectrónicos大學 | 0.077 | 11.835 |
| códigoselectrónicos | 0.080 | 12.237 |
| Doctrina de lafiscalía將軍del estado | 0.017 | 2.669 |
| 立法boe | 3.600 | 578.685 |
| abogacíadel estado boe | 0.037 | 6.123 |
| Consejo de Estado:dictámenes | 0.827 | 135.348 |
| 西班牙EURLEX | 0.001 | 0.072 |
| 聯合國決議 | 0.023 | 3.539 |
| 西班牙狗狗 | 0.826 | 132.569 |
| 西班牙多元 | 2.200 | 352.653 |
| 諮詢支流將軍y vinculantes | 0.466 | 77.691 |
| ConstituciónEspañola | 0.002 | 0.018 |
| COPPA專利語料庫 | 0.002 | - |
| 生物醫學專利 | 0.083 | - |
您可以使用擁抱面提供的腳本(名稱實體識別,膠水任務等)來訓練模型的不同下游任務
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])如果這項工作有幫助,請引用:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
?我們對(1)擴展我們的語料庫以使更大的模型(2)在其他任務中評估/培訓模型。
有關這項工作的問題,請聯繫[email protected]
此存儲庫中發表的模型旨在用於通才目的,可供第三方使用。這些模型可能具有偏見和/或任何其他不良扭曲。
當第三方使用這些模型中的任何一個(或使用基於這些模型的系統)向其他方部署或提供系統和/或服務時,他們應該注意到,他們有責任減輕其使用而導致的風險,並且無論如何,無論如何,在任何情況下都遵守適用的法規,包括有關使用人工智能使用的法規。
在任何情況下,任何模型的所有者都不應對這些模型的第三方使用所產生的任何結果承擔任何責任。
Los Modelos Publicados en este repositorio tienen una finalidad gentrista yestánadisposicióndeterceros。 Estos Modelos Pueden Tener sesgos y/u otro tipo de deStoriones不可估量。
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y,en todo caso,cumplir con la normativa aplicable,normato la normativa en Materia de uso de uso de inteligencia人工。
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.