Репозитория часть проекта Марии.
| Корпус | Количество документов | Количество токенов | Размер (ГБ) |
|---|---|---|---|
| Бен | 201 080 084 | 135 733 450 668 | 570 ГБ |
Новая ǎguila-7b: https://huggingface.co/projecte-aina/aguila-7b
LLM 7B, который был обучен на смеси испанских, каталонских и английских данных, что составляет в общей сложности 26 бит. Он использует модель Falcon-7B в качестве отправной точки, современной модели английского языка, которая была открыто выпущена всего несколько месяцев назад Институтом технологических инноваций. Прочитайте больше здесь
Roberta-base Bne: https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-large Bne: https://huggingface.co/plantl-gob-es/roberta-large-bne
Трансформаторы на основе маскированных языковых моделей для испанского языка. Они основаны на крупной модели Роберты и были предварительно обучены с использованием крупнейшего испанского корпуса, известного на сегодняшний день, в общей сложности 570 ГБ чистого и дедуплицированного текста, обработанного для этой работы, составленной из веб-полки, выполненного Национальной библиотекой Испании (Biblioteca nacional de España) с 2009 по 2019 год.
Longformer-base-4096-bne-es: https://huggingface.co/plantl-gob-es/longformer-base-4096-bne-es
Длинная версия модели маскированной маскировки Roberta-Base-CA-V2 для каталонского языка. Использование этих моделей позволяет нам обрабатывать более крупные контексты (до 4096 токенов) в качестве входных данных без необходимости дополнительных стратегий агрегации. Процесс предварительной подготовки этой модели начался с контрольной точки Roberta-Base-CA-V2 и был предварительно подготовлен для MLM как в коротких, так и в длинных документах в каталонском языке.
GPT2-BASE BNE: https://huggingface.co/plantl-gob-es/gpt2-base-bne
GPT2-Large Bne: https://huggingface.co/plantl-gob-es/gpt2-large-bne
Основанная на трансформаторах модель для испанского языка. Они основаны на модели GPT-2 и были предварительно обучены с использованием крупнейшего испанского корпуса, известного на сегодняшний день, в общей сложности 570 ГБ чистого и дедуплицированного текста, обработанного для этой работы, составленной из веб-полки, выполненного Национальной библиотекой Испании (Biblioteca nacional de España) с 2009 по 2019 год.
См. Результаты, достигнутые по нескольким задачам ниже. VEGEU ELS РЕЗУЛЬТАТЫ ОБЪЕКТЫ EN DIRTARTS TASQUES Més Avall .
Для базы Роберты
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Для Роберты-широкого
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])Для получения полного списка см. Https://huggingface.co/plantl-gob-es
Языковые модели, специфичные для домена:
Для получения полного списка см. Https://huggingface.co/plantl-gob-es
Оценка эталона состоит из 10 задач: распознавание и классификацию сущности (conll-nerc и capitel-nerc), тегингинг-теги (ud-pos и capitel-pos), текстовая классификация (MLDOC), идентификация перефразы (PAWS-X), семантическая сходство текста (STS), вопрос о вопросах (SQAC), текстовый (xnlipment (xnlistment (xnlipment (xnlipment (xnlipment.
| Набор данных | Показатель | Роберта-Б | Роберта-л | Бето* | Мберт | Бертин ** | Electricidad *** |
|---|---|---|---|---|---|---|---|
| Mldoc | F1 | 0,9664 | 0,9702 | 0,9714 | 0,9617 | 0,9668 | 0,9565 |
| Conll-Snerc | F1 | 0,8851 | 0,8823 | 0,8759 | 0,8691 | 0,8835 | 0,7954 |
| Capitel-Snerc | F1 | 0,8960 | 0,9051 | 0,8772 | 0,8810 | 0,8856 | 0,8035 |
| Paws-X | F1 | 0,9020 | 0,9150 | 0,8930 | 0,9000 | 0,8965 | 0,9045 |
| Ud-pos | F1 | 0,9907 | 0,9904 | 0,9900 | 0,9886 | 0,9898 | 0,9818 |
| Capitel-pos | F1 | 0,9846 | 0,9856 | 0,9836 | 0,9839 | 0,9847 | 0,9816 |
| SQAC | F1 | 0,7923 | 0,8202 | 0,7923 | 0,7562 | 0,7678 | 0,7383 |
| Стр | Комбинированный | 0,8533 | 0,8411 | 0,8159 | 0,8164 | 0,7945 | 0,8063 |
| Xnli | Точность | 0,8016 | 0,8263 | 0,8130 | 0,7876 | 0,7890 | 0,7878 |
| Массивный | Точность | 0,8605 | 0,8722 | 0,8732 | 0,8504 | 0,8500 | 0,8517 |
* Модель, основанная на BERT Architecture.
** Модель, основанная на архитектуре Роберты.
*** Модель, основанная на архитектуре электро.
Для получения дополнительной информации обратитесь к https://benchmark.plantl.bsc.es/
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
? Нас интересует (1) расширение наших корпораций, чтобы сделать более крупные модели (2) обучить/оценить модель в других задачах.
По вопросам этой работы, свяжитесь с plantl-se [email protected]
Модели, опубликованные в этом репозитории, предназначены для общей цели и доступны третьим лицам. Эти модели могут иметь предвзятость и/или любые другие нежелательные искажения.
Когда третьи стороны развертывают или предоставляют системы и/или услуги другим сторонам, используя любую из этих моделей (или используют системы на основе этих моделей) или становятся пользователями моделей, они должны отметить, что их обязанность смягчить риски, возникающие в результате их использования, и, в любом случае, соблюдать применимые правила, включая правила, касающиеся использования искусственного интеллекта.
Ни в коем случае владелец моделей (SEDIA - Государственный секретариат по цифровизации и искусственному интеллекту), ни создатель (BSC - Barcelona Supercompling Center) несет ответственность за любые результаты, возникающие в результате использования третьими лицами этих моделей.
Los Modelos publicados en este Repositorio tienen una finalidad generalista y están disposición de terceros. ESTOS MODELOS PUEDEN TENER SESGOS Y/U OTRO TIPO DE DISTORSIONES Indesebula.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras parts usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, debene en uenta uenta use es ressmierdos desuarios de los modelos, debener en uenta que es sue eressabilados mitegaros de los modelos, debene en enda uentos suersabilad USO Y, EN TODO CASO, CUMPLIR CON LA NORMATIVA ОПРЕДЕЛЕНО, Incluyendo La Normativa en Materia de Uso de Inteligencia Artificial.
En ningún caso el Protietario de los modelos (Sedia - Secretaría de estado degiginalización e Inteligencia Artificial) Ni El Creador (BSC - Barcelona Supercomputing Center) Serán Reclosalados Derivados del Uso Que Que Hagan Terceros de Estos Modelos Modelos.