マリアプロジェクトのリポジトリ部分。
| コーパス | ドキュメントの数 | トークンの数 | サイズ(GB) |
|---|---|---|---|
| bne | 201,080,084 | 135,733,450,668 | 570GB |
新しいǎguila-7b:https://huggingface.co/projecte-aina/aguila-7b
スペイン語、カタロニア語、英語データの混合物で訓練された7bパラメーターLLMは、合計26bのトークンになります。 Falcon-7Bモデルを出発点として使用します。これは、数か月前にTechnology Innovation Instituteによって公然とリリースされた最先端の英語モデルです。詳細はこちらをご覧ください
roberta-base bne:https://huggingface.co/plantl-gob-es/roberta-base-bne
Roberta-LargeBne:https://huggingface.co/plantl-gob-es/roberta-large-bne
スペイン語のトランスベースのマスクされた言語モデル。彼らはロバータの大規模モデルに基づいており、これまで知られている最大のスペインのコーパスを使用して事前に訓練されており、2009年から2019年から2009年から2019年からスペイン国立図書館(Biblioteca nacional deEspaña)が演奏したWebクロールから編集されたこの作業のために合計570GBの清潔で重複排除されたテキストが組み込まれています。
longformer-base-4096-bne-es:https://huggingface.co/plantl-gob-es/longformer-base-4096-bne-es
カタロニア語用のRoberta-Base-Ca-V2マスクされた言語モデルのLongformerバージョン。これらのモデルを使用すると、追加の集約戦略を必要とせずに、より大きなコンテキスト(最大4096トークン)を入力として処理できます。このモデルの事前抑制プロセスは、Roberta-Base-Ca-V2チェックポイントから始まり、カタロニア語の短い文書と長い文書の両方でMLMのために前提とされていました。
gpt2-base bne:https://huggingface.co/plantl-gob-es/gpt2-base-bne
gpt2-large bne:https://huggingface.co/plantl-gob-es/gpt2-large-bne
スペイン語の変圧器ベースのモデル。それらはGPT-2モデルに基づいており、これまで知られている最大のスペインのコーパスを使用して事前に訓練されており、2009年から2019年から2019年からスペイン国立図書館(Biblioteca nacional deEspaña)が行うWebクロールから編集されたこの作業用に合計570GBのクリーンで重複排除されたテキストが処理されています。
以下のいくつかのタスクで達成された結果を参照してください。 vegeu elsは、タスクをダイバーズします。
ロベルタベースの場合
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-base-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])ロベルタ・ラージのために
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer , FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model = AutoModelForMaskedLM . from_pretrained ( 'PlanTL-GOB-ES/roberta-large-bne' )
model . eval ()
pipeline = FillMaskPipeline ( model , tokenizer_hf )
text = f"¡Hola <mask>!"
res_hf = pipeline ( text )
pprint ([ r [ 'token_str' ] for r in res_hf ])完全なリストについては、https://huggingface.co/plantl-gob-esを参照してください
ドメイン固有の言語モデル:
完全なリストについては、https://huggingface.co/plantl-gob-esを参照してください
評価ベンチマークは、名前付きエンティティ認識と分類(conll-nercとcapitel-nerc)、スピーチの一部のタグ付け(UD-POSおよびCapitel-POS)、テキスト分類(MLDOC)、パラフラゼ識別(PAWS-X)、セマンティックテキストの類似性(STS)、質問(SQAC)、問題
| データセット | メトリック | Roberta-B | Roberta-L | beto* | Mbert | ベルティン** | ElectricIdad *** |
|---|---|---|---|---|---|---|---|
| mldoc | F1 | 0.9664 | 0.9702 | 0.9714 | 0.9617 | 0.9668 | 0.9565 |
| conll-nerc | F1 | 0.8851 | 0.8823 | 0.8759 | 0.8691 | 0.8835 | 0.7954 |
| Capitel-nerc | F1 | 0.8960 | 0.9051 | 0.8772 | 0.8810 | 0.8856 | 0.8035 |
| PAWS-X | F1 | 0.9020 | 0.9150 | 0.8930 | 0.9000 | 0.8965 | 0.9045 |
| ud-pos | F1 | 0.9907 | 0.9904 | 0.9900 | 0.9886 | 0.9898 | 0.9818 |
| Capitel-Pos | F1 | 0.9846 | 0.9856 | 0.9836 | 0.9839 | 0.9847 | 0.9816 |
| SQAC | F1 | 0.7923 | 0.8202 | 0.7923 | 0.7562 | 0.7678 | 0.7383 |
| sts | 組み合わせた | 0.8533 | 0.8411 | 0.8159 | 0.8164 | 0.7945 | 0.8063 |
| xnli | 正確さ | 0.8016 | 0.8263 | 0.8130 | 0.7876 | 0.7890 | 0.7878 |
| 大規模 | 正確さ | 0.8605 | 0.8722 | 0.8732 | 0.8504 | 0.8500 | 0.8517 |
* Bert Architectureに基づくモデル。
**ロベルタアーキテクチャに基づくモデル。
*** Electraアーキテクチャに基づくモデル。
詳細については、https://benchmark.plantl.bsc.es/を参照してください。
@article{gutierrezfandino2022,
author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas},
title = {MarIA: Spanish Language Models},
journal = {Procesamiento del Lenguaje Natural},
volume = {68},
number = {0},
year = {2022},
issn = {1989-7553},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405},
pages = {39--60}
}
? (1)コーパスを拡張して、より大きなモデルを作成することに興味があります(2)他のタスクでモデルを訓練/評価します。
この作業に関する質問については、[email protected]にお問い合わせください
このリポジトリで公開されているモデルは、ジェネラリストの目的を目的としており、第三者が利用できます。これらのモデルには、バイアスやその他の望ましくない歪みがあります。
第三者、これらのモデルのいずれかを使用して他の関係者にシステムおよび/またはサービスを展開または提供する場合(またはこれらのモデルに基づいてシステムを使用している)、またはモデルのユーザーになる場合、彼らは使用から生じるリスクを軽減し、いずれにせよ、人工知能の使用に関する規制を含む該当する規制を遵守することは彼らの責任であることに注意する必要があります。
いかなる場合でも、モデルの所有者(セディア - デジタル化および人工知能の州事務局)も、作成者(BSC - バルセロナスーパーコンピューティングセンター)が、これらのモデルの第三者が作成した使用から生じる結果に対して責任を負います。
los modelos publicados en este repositorio tienen una fanigridad generalista yestánadispuricióndeterceros。 Estos Modelos Pueden Tener sesgos y/u otro tipo de distorsiones indeseables。
Cuando Terceros Desplieguen o Proporcionen sistemas y/o servicios a otras cartes usando alguno de estos modelos(o utilizando sistemas basados en estos modelos) de su uso y、en todo caso、cumplir con la normativa aplubly、incluyendo la normativa en materia de uso de inteligencia人工。
enningúnasoel propietario de los modelos(セディア - 秘書デジタルザシオンEインテリゲンシア人工)ni el creador(bsc - バルセロナスーパーコンピューティングセンター)los resultados derivados delivados del uso uso hagan terceros de estos modelos。