ที่เก็บนี้มีหน้าสำหรับสองแหล่งหลักสำหรับโดเมนกฎหมายสเปน:
พื้นที่เก็บข้อมูลและการพิมพ์ล่วงหน้าจะได้รับการปรับปรุงด้วยแบบจำลองขนาดใหญ่การประเมินผลและอื่น ๆ
มีรุ่นที่ได้รับการฝึกฝนสำหรับภาษาสเปน แบบจำลองบางแบบได้รับการฝึกฝนด้วยทรัพยากรต่ำและไม่สะอาด Corpora สิ่งที่ได้มาจากแผนแห่งชาติของสเปนสำหรับเทคโนโลยีภาษานั้นมีความเชี่ยวชาญในการแก้ปัญหาหลายงานและได้รับการฝึกฝนโดยใช้ Corpora ที่สะอาดขนาดใหญ่ อย่างไรก็ตามภาษาโดเมนกฎหมายของสเปนอาจคิดว่าเป็นภาษาอิสระด้วยตัวเอง ดังนั้นเราจึงสร้างรูปแบบทางกฎหมายของสเปนตั้งแต่เริ่มต้นที่ได้รับการฝึกฝนเกี่ยวกับ Corpora ตามกฎหมายเท่านั้น
ทำงานระหว่างดำเนินการ
| ชื่อคลังข้อมูล | ขนาด (GB) | โทเค็น (M) |
|---|---|---|
| บทลงโทษ | 0.625 | 0.119 |
| JRC Acquis | 0.345 | 59.359 |
| CódigosElectónicos Universitarios | 0.077 | 11.835 |
| CódigosElectrónicos | 0.080 | 12.237 |
| Doctrina de la fiscalía General del Estado | 0.017 | 2.669 |
| angleación Boe | 3.600 | 578.685 |
| Abogacía del Estado Boe | 0.037 | 6.123 |
| Consejo de Estado: Dictámenes | 0.827 | 135.348 |
| Eurlex สเปน | 0.001 | 0.072 |
| มติของสหประชาชาติ | 0.023 | 3.539 |
| Dogc สเปน | 0.826 | 132.569 |
| Multiun สเปน | 2.200 | 352.653 |
| Consultas Tributarias Generales y Vinculantes | 0.466 | 77.691 |
| constituciónespañola | 0.002 | 0.018 |
| Coppa Patents Corpus | 0.002 | - |
| สิทธิบัตรชีวการแพทย์ | 0.083 | - |
คุณสามารถฝึกอบรมโมเดลของคุณสำหรับงานดาวน์สตรีมที่แตกต่างกันโดยใช้สคริปต์ที่กอดใบหน้าให้ (การจดจำเอนทิตีชื่องานกาวและอื่น ๆ )
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])หากงานนี้มีประโยชน์โปรดอ้างอิง:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- เราสนใจ (1) ขยาย Corpora ของเราเพื่อสร้างโมเดลขนาดใหญ่ (2) ประเมิน/ฝึกอบรมโมเดลในงานอื่น ๆ
สำหรับคำถามเกี่ยวกับงานนี้ติดต่อ [email protected]
แบบจำลองที่เผยแพร่ในที่เก็บนี้มีไว้สำหรับวัตถุประสงค์ทั่วไปและมีให้สำหรับบุคคลที่สาม แบบจำลองเหล่านี้อาจมีอคติและ/หรือการบิดเบือนอื่น ๆ ที่ไม่พึงประสงค์
เมื่อบุคคลที่สามปรับใช้หรือจัดหาระบบและ/หรือบริการให้กับบุคคลอื่น ๆ โดยใช้โมเดลเหล่านี้ (หรือใช้ระบบตามรุ่นเหล่านี้) หรือกลายเป็นผู้ใช้แบบจำลองพวกเขาควรทราบว่าเป็นความรับผิดชอบของพวกเขาในการลดความเสี่ยงที่เกิดขึ้นจากการใช้งานและในทุกกรณีเพื่อให้สอดคล้องกับกฎระเบียบที่เกี่ยวข้อง
ไม่ว่าจะเป็นเจ้าของโมเดล (Sedia - State Secretariat for Digitalization และ Artificial Intelligence) หรือผู้สร้าง (BSC - Barcelona Supercomputing Center) จะต้องรับผิดชอบต่อผลลัพธ์ใด ๆ ที่เกิดขึ้นจากการใช้งานโดยบุคคลที่สามของรุ่นเหล่านี้
los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros estos modelos pueden tener sesgos y/u otro tipo de distorsiones
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras แยก usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o usuarios usuarios su uso y, en todo caso, cumplir con la la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia เทียม
en ningún caso el propietario de los modelos (Sedia - Secretaría de Estado de Digitalización e Inteligencia เทียม) Ni El Creador (BSC - Barcelona Supercomputing Center) Serán Responsables