hmBench -Download - hmBench Source Code Download

hmBench

AI-Quellcode

1.0.0

Herunterladen

HMBench: Ein Benchmark für historische Sprachmodelle für NER -Datensätze

Hmbench

Dieses Repository präsentiert einen Benchmark für historische Sprachmodelle mit Schwerpunkt auf NER-Datensätzen wie HIPE-2022.

Modelle

Die folgenden historischen Sprachmodelle werden derzeit in Benchmarks verwendet:

Modell	Umarmung des Gesichtsmodell -Hub Organ
Hmbert	Historische mehrsprachige Sprachmodelle für die Erkennung benannter Entität
HMTeams	Historische mehrsprachige Teammodelle
HMBYT5	Historische mehrsprachige und einsprachige Byt5 -Modelle

Datensätze

Wir verbieten vorbereitete Sprachmodelle auf verschiedenen Datensätzen von HIPE-2020, HIPE-2022 und Europeana. Die folgende Tabelle zeigt einen Überblick über verwendete Datensätze:

Sprache	Datensätze
Englisch	AJMC - Topres19th
Deutsch	AJMC - Newseye - HIPE -2020
Französisch	AJMC - ICDAR -Europeana - letemps - Newseye - HIPE -2020
finnisch	Neuseye
Schwedisch	Neuseye
Niederländisch	ICDAR-Europeana

Ergebnisse

Der hmLeaderboard -Raum auf dem Hub des Umarmungsgesichtsmodells zeigt alle Ergebnisse und kann hier zugegriffen werden.

Beste Modelle

Eine Sammlung von Modellen mit besten darstellenden Modellen finden Sie hier (gruppiert nach dem gebrauchten Backbone LM):

Fein abgestimmte historische NER-Modelle (HMTeams)
Fein abgestimmte historische NER-Modelle (Hmbert)
Fein abgestimmte historische NER-Modelle (HMBYT5)

Feinabstimmung

Wir verwenden Flair für Feinabstimmung-NER-Modelle auf HIPE-2022-Datensätzen von Shared Task von HIPE-2022. Zusätzlich wird die ICDAR-Europeana für Benchmarks auf Niederländisch und Französisch verwendet.

Wir verwenden eine markierte Version von Flair, um eine Art Reproduzierbarkeit zu gewährleisten. Die folgenden Befehle müssen ausgeführt werden, um alle erforderlichen Abhängigkeiten zu installieren:

$ pip3 install -r requirements.txt

Um die HMTeams -Modelle zu verwenden, müssen Sie beim Umarmungsmodell -Hub mit Ihrem Konto autorisieren. Dies kann über CLI erfolgen:

 # Use access token from https://huggingface.co/settings/tokens
$ huggingface-cli login

Wir verwenden eine Konfigurations Suche nach Hyper-Parameter. Das Skript flair-fine-tuner.py kann verwendet werden, um NER-Modelle aus unserem Modellzoo zu optimieren.

Darüber hinaus bieten wir ein Skript an, das umarmt, um das Gesicht Autotrain Advanced (Space Runner) für Feinabstiegsmodelle zu verwenden. Das folgende Ausschnitt zeigt ein Beispiel:

$ pip3 install git+https://github.com/huggingface/autotrain-advanced.git
$  export HF_TOKEN= " " # Get token from: https://huggingface.co/settings/tokens
$ autotrain spacerunner --project-name " flair-hmbench-hmbyt5-ajmc-de " 
  --script-path $( pwd ) 
  --username stefan-it 
  --token $HF_TOKEN 
  --backend spaces-t4s 
  --env " CONFIG=configs/ajmc/de/hmbyt5.json;HF_TOKEN= $HF_TOKEN ;HUB_ORG_NAME=stefan-it "

Die konkrete Implementierung finden Sie in script.py .

Hinweis : Die Autotrain -Implementierung befindet sich derzeit in der Entwicklung!

Alle Konfigurationen für die Feinabstimmung befinden sich im Ordner ./configs mit der folgenden Namenskonvention: ./configs/<dataset-name>/<language>/<model-name>.json <Language>/<model-name>.json.