Этот репозиторий содержит страницу для двух основных ресурсов для испанской юридической области:
Репозиторий и предварительный отпечаток будут обновлены с помощью более крупных моделей, оценок и т. Д..
Есть несколько моделей, обученных для испанского языка. Некоторые из моделей были обучены с низким ресурсом, нечистыми корпусами. Те, которые получены из испанского национального плана языковых технологий, являются опытными решающими несколько задач и были обучены с использованием крупномасштабных чистых корпораций. Тем не менее, испанский язык юридической области может быть самостоятельно думать о независимом языке. Поэтому мы создали испанскую юридическую модель с нуля, обученную исключительно юридическим корпусам.
Работа в процессе.
| Название корпуса | Размер (ГБ) | Токены (м) |
|---|---|---|
| Procesos Penales | 0,625 | 0,119 |
| JRC Acquis | 0,345 | 59,359 |
| Códigos Electrónicos Universitarios | 0,077 | 11.835 |
| Códigos Electrónicos | 0,080 | 12.237 |
| Доктрина де ла | 0,017 | 2.669 |
| Lewislación Boe | 3.600 | 578.685 |
| Abogacía del Estado Boe | 0,037 | 6.123 |
| Consejo de estado: dictámenes | 0,827 | 135.348 |
| Испанский Eurlex | 0,001 | 0,072 |
| Резолюции ООН | 0,023 | 3.539 |
| Испанский собак | 0,826 | 132.569 |
| Испанский мультиф | 2.200 | 352.653 |
| Consultas Tributarias Generales Y Vinculantes | 0,466 | 77.691 |
| COSTUCIón Española | 0,002 | 0,018 |
| Коппа Патенты Корпус | 0,002 | - |
| Биомедицинские патенты | 0,083 | - |
Вы можете обучить свою модель для различных задач вниз по течению, используя сценарии, которые обеспечивает обнимающееся лицо (название распознавание сущности, клейкие задачи и другие)
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Если эта работа полезна, пожалуйста, укажите это:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
? Нас интересует (1) расширение наших корпораций, чтобы сделать более крупные модели (2) оценить/обучить модель в других задачах.
По вопросам этой работы, свяжитесь с plantl-se [email protected]
Модели, опубликованные в этом репозитории, предназначены для общей цели и доступны третьим лицам. Эти модели могут иметь предвзятость и/или любые другие нежелательные искажения.
Когда третьи стороны развертывают или предоставляют системы и/или услуги другим сторонам, используя любую из этих моделей (или используют системы на основе этих моделей) или становятся пользователями моделей, они должны отметить, что их обязанность смягчить риски, возникающие в результате их использования, и, в любом случае, соблюдать применимые правила, включая правила, касающиеся использования искусственного интеллекта.
Ни в коем случае владелец моделей (SEDIA - Государственный секретариат по цифровизации и искусственному интеллекту), ни создатель (BSC - Barcelona Supercompling Center) несет ответственность за любые результаты, возникающие в результате использования третьими лицами этих моделей.
Los Modelos publicados en este Repositorio tienen una finalidad generalista y están disposición de terceros. ESTOS MODELOS PUEDEN TENER SESGOS Y/U OTRO TIPO DE DISTORSIONES Indesebula.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras parts usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, debene en uenta uenta use es ressmierdos desuarios de los modelos, debener en re que yes suesabilados mitegarios de los modelos, debene en envese uenta uentos uersabilad USO Y, EN TODO CASO, CUMPLIR CON LA NORMATIVA ОПРЕДЕЛЕНО, Incluyendo La Normativa en Materia de Uso de Inteligencia Artificial.
En ningún caso el Protietario de los modelos (Sedia - Secretaría de estado degiginalización e Inteligencia Artificial) Ni El Creador (BSC - Barcelona Supercomputing Center) Serán Reclosalados Derivados del Uso Que Que Hagan Terceros de Estos Modelos Modelos.