
Dieses Repository präsentiert einen Benchmark für historische Sprachmodelle mit Schwerpunkt auf NER-Datensätzen wie HIPE-2022.
Die folgenden historischen Sprachmodelle werden derzeit in Benchmarks verwendet:
| Modell | Umarmung des Gesichtsmodell -Hub Organ |
|---|---|
| Hmbert | Historische mehrsprachige Sprachmodelle für die Erkennung benannter Entität |
| HMTeams | Historische mehrsprachige Teammodelle |
| HMBYT5 | Historische mehrsprachige und einsprachige Byt5 -Modelle |
Wir verbieten vorbereitete Sprachmodelle auf verschiedenen Datensätzen von HIPE-2020, HIPE-2022 und Europeana. Die folgende Tabelle zeigt einen Überblick über verwendete Datensätze:
| Sprache | Datensätze |
|---|---|
| Englisch | AJMC - Topres19th |
| Deutsch | AJMC - Newseye - HIPE -2020 |
| Französisch | AJMC - ICDAR -Europeana - letemps - Newseye - HIPE -2020 |
| finnisch | Neuseye |
| Schwedisch | Neuseye |
| Niederländisch | ICDAR-Europeana |
Der hmLeaderboard -Raum auf dem Hub des Umarmungsgesichtsmodells zeigt alle Ergebnisse und kann hier zugegriffen werden.
Eine Sammlung von Modellen mit besten darstellenden Modellen finden Sie hier (gruppiert nach dem gebrauchten Backbone LM):
Wir verwenden Flair für Feinabstimmung-NER-Modelle auf HIPE-2022-Datensätzen von Shared Task von HIPE-2022. Zusätzlich wird die ICDAR-Europeana für Benchmarks auf Niederländisch und Französisch verwendet.
Wir verwenden eine markierte Version von Flair, um eine Art Reproduzierbarkeit zu gewährleisten. Die folgenden Befehle müssen ausgeführt werden, um alle erforderlichen Abhängigkeiten zu installieren:
$ pip3 install -r requirements.txtUm die HMTeams -Modelle zu verwenden, müssen Sie beim Umarmungsmodell -Hub mit Ihrem Konto autorisieren. Dies kann über CLI erfolgen:
# Use access token from https://huggingface.co/settings/tokens
$ huggingface-cli login Wir verwenden eine Konfigurations Suche nach Hyper-Parameter. Das Skript flair-fine-tuner.py kann verwendet werden, um NER-Modelle aus unserem Modellzoo zu optimieren.
Darüber hinaus bieten wir ein Skript an, das umarmt, um das Gesicht Autotrain Advanced (Space Runner) für Feinabstiegsmodelle zu verwenden. Das folgende Ausschnitt zeigt ein Beispiel:
$ pip3 install git+https://github.com/huggingface/autotrain-advanced.git
$ export HF_TOKEN= " " # Get token from: https://huggingface.co/settings/tokens
$ autotrain spacerunner --project-name " flair-hmbench-hmbyt5-ajmc-de "
--script-path $( pwd )
--username stefan-it
--token $HF_TOKEN
--backend spaces-t4s
--env " CONFIG=configs/ajmc/de/hmbyt5.json;HF_TOKEN= $HF_TOKEN ;HUB_ORG_NAME=stefan-it " Die konkrete Implementierung finden Sie in script.py .
Hinweis : Die Autotrain -Implementierung befindet sich derzeit in der Entwicklung!
Alle Konfigurationen für die Feinabstimmung befinden sich im Ordner ./configs mit der folgenden Namenskonvention: ./configs/<dataset-name>/<language>/<model-name>.json <Language>/<model-name>.json.
Wir danken Luisa März, Katharina Schmid und Erion Çano für ihre fruchtbaren Diskussionen über historische Sprachmodelle.
Forschungen, die mit Cloud -TPUs von Googles TPU Research Cloud (TRC) unterstützt wurden. Vielen Dank für den Zugang zum TPUs ❤️