lm legal es下載-LM lm legal es源代碼下載

lm legal es

Ai源碼

1.0.0

下載

西班牙法律領域語言模型⚖️

該存儲庫包含西班牙法律領域的兩個主要資源的頁面：

羅伯塔模型：https：//huggingface.co/plantl-gob-es/robertalex
FastText嵌入：https：//zenodo.org/record/5036147
法律語料庫：https：//zenodo.org/record/5495529

存儲庫和預印將通過較大的模型，評估等更新。

為什麼

很少有培訓西班牙語的模型。一些模型已經接受了低資源的培訓，即不潔的語料庫。從西班牙國家語言技術計劃中得出的是，熟練地解決了幾項任務，並已通過大規模清潔語料庫進行了培訓。但是，西班牙法律領域語言可以自己想到一種獨立的語言。因此，我們創建了一個由法律語料庫培訓的西班牙法律模型。

評估✅

正在進行中。

語料庫？

語料庫名稱	尺寸（GB）	令牌（m）
Procesos處罰	0.625	0.119
JRC收購	0.345	59.359
códigoselectrónicos大學	0.077	11.835
códigoselectrónicos	0.080	12.237
Doctrina de lafiscalía將軍del estado	0.017	2.669
立法boe	3.600	578.685
abogacíadel estado boe	0.037	6.123
Consejo de Estado：dictámenes	0.827	135.348
西班牙EURLEX	0.001	0.072
聯合國決議	0.023	3.539
西班牙狗狗	0.826	132.569
西班牙多元	2.200	352.653
諮詢支流將軍y vinculantes	0.466	77.691
ConstituciónEspañola	0.002	0.018
COPPA專利語料庫	0.002	-
生物醫學專利	0.083	-

用法示例⚗️

您可以使用擁抱面提供的腳本（名稱實體識別，膠水任務等）來訓練模型的不同下游任務

 from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])

引用

如果這項工作有幫助，請引用：

 @misc{gutierrezfandino2021legal,
      title={Spanish Legalese Language Model and Corpora}, 
      author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
      year={2021},
      eprint={2110.12201},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

接觸？

？我們對（1）擴展我們的語料庫以使更大的模型（2）在其他任務中評估/培訓模型。

有關這項工作的問題，請聯繫[email protected]

免責聲明

此存儲庫中發表的模型旨在用於通才目的，可供第三方使用。這些模型可能具有偏見和/或任何其他不良扭曲。

當第三方使用這些模型中的任何一個（或使用基於這些模型的系統）向其他方部署或提供系統和/或服務時，他們應該注意到，他們有責任減輕其使用而導致的風險，並且無論如何，無論如何，在任何情況下都遵守適用的法規，包括有關使用人工智能使用的法規。

在任何情況下，任何模型的所有者都不應對這些模型的第三方使用所產生的任何結果承擔任何責任。

Los Modelos Publicados en este repositorio tienen una finalidad gentrista yestánadisposicióndeterceros。 Estos Modelos Pueden Tener sesgos y/u otro tipo de deStoriones不可估量。

Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y，en todo caso，cumplir con la normativa aplicable，normato la normativa en Materia de uso de uso de inteligencia人工。

En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.

展開

附加信息