Download do hmBench - Download do código -fonte hmBench

hmBench

Código-Fonte de IA

1.0.0

Baixar

HMbench: Uma referência para modelos de linguagem histórica nos conjuntos de dados NER

Hmbench

Este repositório apresenta uma referência para modelos de linguagem histórica com foco principal nos conjuntos de dados NER, como o Hipe-2022.

Modelos

Os seguintes modelos de linguagem histórica são atualmente usados em benchmarks:

Modelo	Abraçando o hub de modelo de rosto
Hmbert	Modelos de linguagem multilíngue histórica para reconhecimento de entidade nomeado
hmteams	Modelos de equipes multilíngues históricas
HMBYT5	Modelos Byt5 multilíngues e monolíngues históricos

Conjuntos de dados

Realizamos modelos de idiomas pré-treinados em vários conjuntos de dados de Hipe-2020, Hipe-2022 e Europenea. A tabela a seguir mostra uma visão geral dos conjuntos de dados usados:

Linguagem	Conjuntos de dados
Inglês	AJMC - TOPRES19º
Alemão	AJMC - Newseye - Hipe -2020
Francês	AJMC - ICDAR -EUROPENA - Letemps - Newseye - Hipe -2020
finlandês	Newseye
sueco	Newseye
Holandês	ICDAR-EUROPENA

Resultados

O espaço hmLeaderboard no hub de modelo de rosto de abraço mostra todos os resultados e pode ser acessado aqui.

Melhores modelos

Uma coleção de modelos de melhor desempenho pode ser encontrada aqui (agrupada pelo Backbone LM usado):

Modelos históricos de NER ajustados finos (HMTeams)
Modelos históricos de afinação fina (Hmbert)
Modelos históricos de NER ajustados finos (HMBYT5)

Afinação

Usamos o Flair para modelos NER de ajuste fino nos conjuntos de dados HIPE-2022 da tarefa compartilhada Hipe-2022. Além disso, o iCDAR-Europeana é usado para parâmetros de referência em holandês e francês.

Usamos uma versão marcada do Flair para garantir um tipo de reprodutibilidade. Os seguintes comandos precisam ser executados para instalar todas as dependências necessárias:

$ pip3 install -r requirements.txt

Para usar os modelos HMTeams, você precisa autorizar com sua conta em abraçar o hub do modelo de rosto. Isso pode ser feito via CLI:

 # Use access token from https://huggingface.co/settings/tokens
$ huggingface-cli login

Utilizamos uma pesquisa hiper-parâmetro acionada por configuração. O script flair-fine-tuner.py pode ser usado para ajustar os modelos NER do nosso zoológico de modelo.

Além disso, fornecemos um script que usa o Hugging Face AutoTrain Advanced (Space Runner) para ajustar os modelos. O snippet seguinte mostra um exemplo:

$ pip3 install git+https://github.com/huggingface/autotrain-advanced.git
$  export HF_TOKEN= " " # Get token from: https://huggingface.co/settings/tokens
$ autotrain spacerunner --project-name " flair-hmbench-hmbyt5-ajmc-de " 
  --script-path $( pwd ) 
  --username stefan-it 
  --token $HF_TOKEN 
  --backend spaces-t4s 
  --env " CONFIG=configs/ajmc/de/hmbyt5.json;HF_TOKEN= $HF_TOKEN ;HUB_ORG_NAME=stefan-it "

A implementação concreta pode ser encontrada no script.py .

Aviso : A implementação do AutoTrain está atualmente em desenvolvimento!

Todas as configurações para ajuste fino estão localizadas na pasta ./configs com a seguinte convenção de nomenclatura: ./configs/<dataset-name>/<language>/<model-name>.json <language>/<model-name>.json.