该存储库包含西班牙法律领域的两个主要资源的页面:
存储库和预印将通过较大的模型,评估等更新。
很少有培训西班牙语的模型。一些模型已经接受了低资源的培训,即不洁的语料库。从西班牙国家语言技术计划中得出的是,熟练地解决了几项任务,并已通过大规模清洁语料库进行了培训。但是,西班牙法律领域语言可以自己想到一种独立的语言。因此,我们创建了一个由法律语料库培训的西班牙法律模型。
正在进行中。
| 语料库名称 | 尺寸(GB) | 令牌(m) |
|---|---|---|
| Procesos处罚 | 0.625 | 0.119 |
| JRC收购 | 0.345 | 59.359 |
| códigoselectrónicos大学 | 0.077 | 11.835 |
| códigoselectrónicos | 0.080 | 12.237 |
| Doctrina de lafiscalía将军del estado | 0.017 | 2.669 |
| 立法boe | 3.600 | 578.685 |
| abogacíadel estado boe | 0.037 | 6.123 |
| Consejo de Estado:dictámenes | 0.827 | 135.348 |
| 西班牙EURLEX | 0.001 | 0.072 |
| 联合国决议 | 0.023 | 3.539 |
| 西班牙狗狗 | 0.826 | 132.569 |
| 西班牙多元 | 2.200 | 352.653 |
| 咨询支流将军y vinculantes | 0.466 | 77.691 |
| ConstituciónEspañola | 0.002 | 0.018 |
| COPPA专利语料库 | 0.002 | - |
| 生物医学专利 | 0.083 | - |
您可以使用拥抱面提供的脚本(名称实体识别,胶水任务等)来训练模型的不同下游任务
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])如果这项工作有帮助,请引用:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
?我们对(1)扩展我们的语料库以使更大的模型(2)在其他任务中评估/培训模型。
有关这项工作的问题,请联系[email protected]
此存储库中发表的模型旨在用于通才目的,可供第三方使用。这些模型可能具有偏见和/或任何其他不良扭曲。
当第三方使用这些模型中的任何一个(或使用基于这些模型的系统)向其他方部署或提供系统和/或服务时,他们应该注意到,他们有责任减轻其使用而导致的风险,并且无论如何,无论如何,在任何情况下都遵守适用的法规,包括有关使用人工智能使用的法规。
在任何情况下,任何模型的所有者都不应对这些模型的第三方使用所产生的任何结果承担任何责任。
Los Modelos Publicados en este repositorio tienen una finalidad gentrista yestánadisposicióndeterceros。 Estos Modelos Pueden Tener sesgos y/u otro tipo de deStoriones不可估量。
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y,en todo caso,cumplir con la normativa aplicable,normato la normativa en Materia de uso de uso de inteligencia人工。
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.