Repositori ini berisi halaman untuk dua sumber utama untuk domain hukum Spanyol:
Repositori dan pra-cetak akan diperbarui dengan model yang lebih besar, evaluasi, dan sebagainya.
Ada beberapa model yang dilatih untuk bahasa Spanyol. Beberapa model telah dilatih dengan sumber daya rendah, korpora najis. Orang -orang yang berasal dari Rencana Nasional Spanyol untuk Teknologi Bahasa mahir menyelesaikan beberapa tugas dan telah dilatih menggunakan korpora bersih skala besar. Namun, bahasa domain hukum Spanyol dapat memikirkan bahasa mandiri sendiri. Oleh karena itu kami menciptakan model hukum Spanyol dari awal yang terlatih secara eksklusif pada korpora legal.
Bekerja dalam proses.
| Nama Corpus | Ukuran (GB) | Token (m) |
|---|---|---|
| PENGEMBALIAN PROCESOS | 0.625 | 0.119 |
| JRC ACQUISA | 0.345 | 59.359 |
| Códigos Electrónicos Universitarios | 0,077 | 11.835 |
| Códigos Electrónicos | 0,080 | 12.237 |
| Doctrina de la Fiscalía Jenderal Del Estado | 0,017 | 2.669 |
| Legislación Boe | 3.600 | 578.685 |
| Abogacía del Estado Boe | 0,037 | 6.123 |
| CONSEJO de Estado: Dictámenes | 0.827 | 135.348 |
| Eurlex Spanyol | 0,001 | 0,072 |
| Resolusi PBB | 0,023 | 3.539 |
| Dogc Spanyol | 0.826 | 132.569 |
| Multiun Spanyol | 2.200 | 352.653 |
| Consultas tributarias Generales y Vinculantes | 0.466 | 77.691 |
| Constitución Española | 0,002 | 0,018 |
| COPPA Patents Corpus | 0,002 | - |
| Paten Biomedis | 0,083 | - |
Anda dapat melatih model Anda untuk tugas hilir yang berbeda menggunakan skrip yang disediakan Face (pengenalan entitas nama, tugas lem dan lainnya)
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Jika pekerjaan ini bermanfaat, silakan mengutipnya:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
? Kami tertarik pada (1) memperluas korpora kami untuk membuat model yang lebih besar (2) mengevaluasi/melatih model dalam tugas lain.
Untuk pertanyaan tentang pekerjaan ini, hubungi [email protected]
Model yang diterbitkan dalam repositori ini dimaksudkan untuk tujuan generalis dan tersedia untuk pihak ketiga. Model -model ini mungkin memiliki bias dan/atau distorsi lainnya yang tidak diinginkan.
Ketika pihak ketiga, menggunakan atau menyediakan sistem dan/atau layanan kepada pihak lain yang menggunakan salah satu model ini (atau menggunakan sistem berdasarkan model -model ini) atau menjadi pengguna model, mereka harus mencatat bahwa itu adalah tanggung jawab mereka untuk mengurangi risiko yang timbul dari penggunaannya dan, dalam hal apa pun, untuk mematuhi peraturan yang berlaku, termasuk peraturan mengenai penggunaan kecerdasan buatan.
Dalam hal apa pun pemilik model (SEDIA - Sekretariat negara bagian untuk digitalisasi dan kecerdasan buatan) atau pencipta (BSC - Barcelona Supercomputing Center) bertanggung jawab atas hasil apa pun yang timbul dari penggunaan yang dibuat oleh pihak ketiga model ini.
Los modelos publicados en este repositorio tienen una finalidad generalise y están a disposición de terceros. Estos Modelos Pueden Tener Sesgos Y/U OTRO Tipo de Distorsiones Hak Hidak.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelo (o utilizando sistemas basados en estos model derivado conuSabil de los de los model, deben tener tener cuperad Uso y, en todo caso, cumplir con la normativa aplable, incuyendo la normativa en materia de uso de inteligencia buatan.
En ningún caso el propietario de los modelos (Sedia - Secretaría de Estado de Digitalización e Inteligencia Buatan) ni el creador (BSc - Barcelona Supercomputing Center) Serán Responsables de Los Hasil Derivados del USO QUE HAGAN TERCEROS DE LOS ESTOSOS.