يحتوي هذا المستودع على الصفحة لموارد رئيسية للمجال القانوني الإسباني:
سيتم تحديث المستودع والمطبوعة المسبقة مع نماذج أكبر ، التقييمات ، إلخ.
هناك عدد قليل من النماذج المدربين على اللغة الإسبانية. تم تدريب بعض النماذج مع مورد منخفض ، نجس. تلك المستمدة من الخطة الوطنية الإسبانية لتقنيات اللغة هي بحل العديد من المهام وتم تدريبها باستخدام شركة نظيفة واسعة النطاق. ومع ذلك ، يمكن أن تفكر لغة المجال القانونية الإسبانية في لغة مستقلة من تلقاء نفسها. لذلك أنشأنا نموذجًا قانونيًا إسبانيًا من الصفر المدربين حصريًا على Corpora Legal.
العمل قيد التقدم.
| اسم الجسم | الحجم (GB) | الرموز (م) |
|---|---|---|
| Procesos Penales | 0.625 | 0.119 |
| JRC Acquis | 0.345 | 59.359 |
| Códigos electrónicos Universitarios | 0.077 | 11.835 |
| Códigos electrónicos | 0.080 | 12.237 |
| Doctrina de la Fiscalía General del Estado | 0.017 | 2.669 |
| التشريع | 3.600 | 578.685 |
| Abogacía del Estado Boe | 0.037 | 6.123 |
| Consejo de Estado: Dictámenes | 0.827 | 135.348 |
| الإسبانية Eurolex | 0.001 | 0.072 |
| قرارات الأمم المتحدة | 0.023 | 3.539 |
| الكلاب الإسبانية | 0.826 | 132.569 |
| الإسبانية متعددة | 2.200 | 352.653 |
| استشارات tributarias العامة y vinculantes | 0.466 | 77.691 |
| constitución española | 0.002 | 0.018 |
| كوبا براءات الاختراع كوربوس | 0.002 | - |
| براءات الاختراع الطبية الحيوية | 0.083 | - |
يمكنك تدريب النموذج الخاص بك على مهام مجرى النهر المختلفة باستخدام البرامج النصية التي يوفرها وجه المعانقة (التعرف على الكيان ، ومهام الغراء وغيرها)
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/RoBERTalex' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])إذا كان هذا العمل مفيدًا ، فيرجى الاستشهاد به:
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
؟ نحن مهتمون بـ (1) تمديد الشركات الخاصة بنا لجعل نماذج أكبر (2) تقييم/تدريب النموذج في المهام الأخرى.
للأسئلة المتعلقة بهذا العمل ، اتصل بـ [email protected]
النماذج المنشورة في هذا المستودع مخصصة لغرض عام ومتاحة لأطراف ثالثة. قد يكون لهذه النماذج تحيز و/أو أي تشوهات أخرى غير مرغوب فيها.
عندما يتم نشر أنظمة و/أو تقديم أنظمة و/أو تقديمها لأطراف أخرى باستخدام أي من هذه النماذج (أو استخدام أنظمة تعتمد على هذه النماذج) أو تصبح مستخدمين للنماذج ، يجب أن يلاحظوا أنه من مسؤوليتهم تخفيف المخاطر الناشئة عن استخدامها ، وفي أي حال ، للامتثال للوائح المعمول بها ، بما في ذلك اللوائح المتعلقة باستخدام الذكاء الاصطناعي.
لا يجوز بأي حال من الأحوال أن يتحمل مالك النماذج (SEDIA - أمانة الدولة للرقمنة والذكاء الاصطناعي) ولا الخالق (BSC - مركز الحوسبة الفائقة برشلونة) مسؤولية أي نتائج ناشئة عن الاستخدام الذي أجراه أطراف ثالثة من هذه النماذج.
LOS Modelos Publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. stos modelos pueden tener sesgos y/u otro tipo de distorsiones indesables.
cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras parts usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o conviertan su uso y ، en todo caso ، cumplir con la normativa applable ، incluyendo la normativa en materia de uso de inteligencia antaNSTION.
En Ningún Caso el Propietario de Los Modelos (Sedia - Sericaría de Estado de Devalitización e Inteligencia intelectial) ni el creador (BSC - Barcelona Superceding Center) Serán de de los resultados derivados del uso que hagan terceros de estos.