이 저장소에는 스페인 법적 영역의 두 가지 주요 리소스에 대한 페이지가 포함되어 있습니다.
저장소 및 사전 인쇄물은 더 큰 모델, 평가 등으로 업데이트됩니다.
스페인어를 위해 훈련 된 모델은 거의 없습니다. 일부 모델은 낮은 자원 인 부정한 Corpora로 교육을 받았습니다. 언어 기술에 대한 스페인 국가 계획에서 파생 된 사람들은 여러 작업을 능숙하게 해결하고 대규모 Clean Corpora를 사용하여 교육을 받았습니다. 그러나 스페인의 법적 영역 언어는 독립적 인 언어 자체를 생각할 수 있습니다. 따라서 우리는 Legal Corpora에서 독점적으로 훈련 된 스페인에서 스페인 법률 모델을 만들었습니다.
진행중인 작업.
| 코퍼스 이름 | 크기 (GB) | 토큰 (M) |
|---|---|---|
| Procesos Penales | 0.625 | 0.119 |
| JRC 인수 | 0.345 | 59.359 |
| Códigos Electónicos Universitarios | 0.077 | 11.835 |
| Códigos Electrónicos | 0.080 | 12.237 |
| Doctrina de la Fiscalía General del Estado | 0.017 | 2.669 |
| Legislación Boe | 3.600 | 578.685 |
| Abogacía del Estado Boe | 0.037 | 6.123 |
| Consejo de Estado : Dictámenes | 0.827 | 135.348 |
| 스페인 유전자 | 0.001 | 0.072 |
| 유엔 결의안 | 0.023 | 3.539 |
| 스페인어 dogc | 0.826 | 132.569 |
| 스페인의 멀티 un | 2.200 | 352.653 |
| Consumas Tributarias Generales y Vinculantes | 0.466 | 77.691 |
| Constitución española | 0.002 | 0.018 |
| Coppa 특허 코퍼스 | 0.002 | - |
| 생의학 특허 | 0.083 | - |
Hugging Face가 제공하는 스크립트 (이름 엔티티 인식, 접착제 작업 및 기타)를 사용하여 다양한 다운 스트림 작업에 대해 모델을 교육 할 수 있습니다.
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])이 작업이 도움이되면 인용하십시오.
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
? 우리는 (1) 더 큰 모델을 만들기 위해 Corpora를 확장하는 데 관심이 있습니다 (2) 다른 작업에서 모델을 평가/훈련시킵니다.
이 작업에 관한 질문은 [email protected]로 문의하십시오
이 저장소에 발표 된 모델은 일반적인 목적을위한 것이며 제 3 자에게 제공됩니다. 이 모델에는 편향 및/또는 다른 바람직하지 않은 왜곡이있을 수 있습니다.
제 3 자, 이러한 모델을 사용하거나 이러한 모델을 기반으로 한 시스템을 사용하는 다른 당사자에게 시스템 및/또는 서비스를 제공하거나 모델의 사용자가되면, 사용으로 인해 발생하는 위험을 완화하는 것은 그들의 책임이며, 어떤 경우에도 인공 지능 사용에 관한 규제를 포함하여 적용 가능한 규정을 준수해야합니다.
어떠한 경우에도 모델의 소유자 (SEDIA - 디지털화 및 인공 지능을위한 주 사무국) 또는 제작자 (BSC - 바르셀로나 슈퍼 컴퓨팅 센터)는이 모델의 제 3자가 사용한 결과에 대해 책임을지지 않습니다.
los modelos publicados en este repositorio tienen una finalidad generalista y esán a lisposición de terceros. Estos Modelos Pueden Tener Sesgos y/u otro tipo de pistorsiones indeseables.
Cuando Terceros desplieguen o Proporcionen sistemas y/o servicios aTras 부분 usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener ener en cuenta que es su ros res res r res r res r res r res r res r res res res res res res res res res res res res res rese. y, en todo caso, cumplir con la normativa inspolable, incluyendo la normativa en materia de uso de inteligencia 인공.
En Ningún Caso El Propietario de los Modelos (Sedia - Sedia - Digitalización e Inteligencia 인공) Ni El Creador (BSC - Barcelona SuperComputing Center) Serán Resportables de los ros ros ros ros resivados del uso que quer terceros de ostos modelos.