
Este repositório apresenta uma referência para modelos de linguagem histórica com foco principal nos conjuntos de dados NER, como o Hipe-2022.
Os seguintes modelos de linguagem histórica são atualmente usados em benchmarks:
| Modelo | Abraçando o hub de modelo de rosto |
|---|---|
| Hmbert | Modelos de linguagem multilíngue histórica para reconhecimento de entidade nomeado |
| hmteams | Modelos de equipes multilíngues históricas |
| HMBYT5 | Modelos Byt5 multilíngues e monolíngues históricos |
Realizamos modelos de idiomas pré-treinados em vários conjuntos de dados de Hipe-2020, Hipe-2022 e Europenea. A tabela a seguir mostra uma visão geral dos conjuntos de dados usados:
| Linguagem | Conjuntos de dados |
|---|---|
| Inglês | AJMC - TOPRES19º |
| Alemão | AJMC - Newseye - Hipe -2020 |
| Francês | AJMC - ICDAR -EUROPENA - Letemps - Newseye - Hipe -2020 |
| finlandês | Newseye |
| sueco | Newseye |
| Holandês | ICDAR-EUROPENA |
O espaço hmLeaderboard no hub de modelo de rosto de abraço mostra todos os resultados e pode ser acessado aqui.
Uma coleção de modelos de melhor desempenho pode ser encontrada aqui (agrupada pelo Backbone LM usado):
Usamos o Flair para modelos NER de ajuste fino nos conjuntos de dados HIPE-2022 da tarefa compartilhada Hipe-2022. Além disso, o iCDAR-Europeana é usado para parâmetros de referência em holandês e francês.
Usamos uma versão marcada do Flair para garantir um tipo de reprodutibilidade. Os seguintes comandos precisam ser executados para instalar todas as dependências necessárias:
$ pip3 install -r requirements.txtPara usar os modelos HMTeams, você precisa autorizar com sua conta em abraçar o hub do modelo de rosto. Isso pode ser feito via CLI:
# Use access token from https://huggingface.co/settings/tokens
$ huggingface-cli login Utilizamos uma pesquisa hiper-parâmetro acionada por configuração. O script flair-fine-tuner.py pode ser usado para ajustar os modelos NER do nosso zoológico de modelo.
Além disso, fornecemos um script que usa o Hugging Face AutoTrain Advanced (Space Runner) para ajustar os modelos. O snippet seguinte mostra um exemplo:
$ pip3 install git+https://github.com/huggingface/autotrain-advanced.git
$ export HF_TOKEN= " " # Get token from: https://huggingface.co/settings/tokens
$ autotrain spacerunner --project-name " flair-hmbench-hmbyt5-ajmc-de "
--script-path $( pwd )
--username stefan-it
--token $HF_TOKEN
--backend spaces-t4s
--env " CONFIG=configs/ajmc/de/hmbyt5.json;HF_TOKEN= $HF_TOKEN ;HUB_ORG_NAME=stefan-it " A implementação concreta pode ser encontrada no script.py .
Aviso : A implementação do AutoTrain está atualmente em desenvolvimento!
Todas as configurações para ajuste fino estão localizadas na pasta ./configs com a seguinte convenção de nomenclatura: ./configs/<dataset-name>/<language>/<model-name>.json <language>/<model-name>.json.
Agradecemos a Luisa März, Katharina Schmid e Erion Çano por suas frutíferas discussões sobre modelos de linguagem histórica.
Pesquisas apoiadas com TPUs em nuvem da TPU Research Cloud (TRC) do Google. Muito obrigado por fornecer acesso às TPUs ❤️