miners Download - miners Quellcode Download

miners

AI-Quellcode

1.0.0

Herunterladen

Bergleute : Mehrsprachige Sprachmodelle als semantische Retriever

⚡ Einführung des Benchmarks von Miners , die zur Beurteilung der mehrsprachigen LMS-Fähigkeiten bei semantischen Abrufaufgaben, einschließlich Bitext-Mining und Klassifizierung, durch retrieval-ausgelöste Kontexte ohne Feinabstimmung bewertet werden. Es wurde ein umfassender Rahmen entwickelt, um die Wirksamkeit von Sprachmodellen beim Abrufen von Stichproben in über 200 verschiedenen Sprachen zu bewerten, einschließlich Sprachen mit niedrigem Ressourcen in herausfordernden intersprachigen (XS) und Code-Switching-Einstellungen (CS-Switching) . Die Ergebnisse zeigen, dass das Erreichen der Wettbewerbsleistung mit modernsten Methoden möglich ist, indem nur semantisch ähnliche Einbettungen abgerufen werden, ohne dass eine Feinabstimmung erforderlich ist.

Das Papier wurde bei den Ergebnissen der EMNLP 2024 akzeptiert.

Inhaltsverzeichnis

Papier
Benchmark
Umgebungsaufbau
Experiment -Protokolle
Auslaufexperimente
- Bitext -Abruf
- Abrufbasierte Klassifizierung
- ICL -Klassifizierung
Experimentergebnisse aggregieren
Visualisierung der Einbettungen
Modelle unterstützen
Wie kann man einen Beitrag leisten?
Auf Fortschritt

Papier

Dies ist der Quellcode des Papiers [Arxiv]:

Dieser Code wurde mit Pytorch geschrieben. Wenn Sie Code oder Datensätze aus diesem Toolkit in Ihrer Forschung verwenden, geben Sie bitte das zugehörige Papier an.

 @Article {Winata2024Miners,
  Titel = {Bergarbeiter: Mehrsprachige Sprachmodelle als semantische Retriever},
  Autor = {Winata, Genta Indra und Zhang, Ruoche und Adelani, David Ifeoluwa},
  Journal = {Arxiv Preprint Arxiv: 2406.07424},
  Jahr = {2024}
}

Benchmark

Die Bergleute umfassen 11 Datensätze: 7 mehrsprachige und 4 Code-Switching-Datensätze, die mehr als 200 Sprachen abdecken und sowohl parallele als auch klassifizierende Formate umfassen. Parallele Datensätze eignen sich für das Abruf von Bitext, da sie ausgerichtete mehrsprachige Inhalte enthalten und Bitext -Mining und maschinelle Übersetzungsaufgaben erleichtern. Darüber hinaus decken die Klassifizierungsdatensätze die Absichtserklärung, die Stimmungsanalyse und die Themenklassifizierung ab, die wir für das Abrufen- und ICL-Klassifizierungszuweisungen bewerten.

Unser Benchmark bewertet LMS an drei Aufgaben: Bitext-Abruf, Abrufbasis-Klassifizierung und ICL-Klassifizierung. Die Einstellungen umfassen einsprachige (mono) , intersprachige (XS) , Code-Switching (CS) und Kreuzungs-Lingual-Code-Witching (XS CS) .

⚡ Umgebungsaufbau

 pip install -r requirements.txt

Wenn Sie die APIs oder Modelle von OpenAI, Cohere oder Umarmung verwenden möchten, ändern Sie die OPENAI_TOKEN , COHERE_TOKEN und HF_TOKEN . Beachten Sie, dass die meisten Modelle auf dem Umarmungsgesicht nicht das HF_TOKEN erfordern, was speziell für die Lama- und Gemma -Modelle bestimmt ist.

Wenn Sie Lama3.1 verwenden möchten, müssen Sie die Transformers -Version aktualisieren

 pip install transformers==4.44.2

Experiment -Protokolle

Wenn Sie alle Ergebnisse und schnellen Beispiele aus unseren Experimenten erhalten möchten, können Sie sie hier (~ 360 MB) herunterladen.

? Auslaufexperimente

Alle Experimentergebnisse werden in den logs/ Verzeichnissen gespeichert. Sie können jedes Experiment mit den folgenden Befehlen ausführen:

Bitext -Abruf

Kreuzsprachige Einstellung

 ❱❱❱ python bitext.py --src_lang {src_lang} --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python bitext.py --src_lang de --dataset bucc --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Ensemble

Die Argumente sind ähnlich wie oben, außer dass wir --model_checkpoints und --weights verwenden

 ❱❱❱ python bitext.py --src_lang {src_lang} --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python bitext.py --src_lang de --dataset bucc --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Abrufbasierte Klassifizierung

Einsprachige Einstellung

 ❱❱❱ python classification.py --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python classification.py --dataset nusax --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Kreuzsprachige Einstellung

Fügen Sie --src_lang und --cross zum Befehl hinzu.

 ❱❱❱ python classification.py --src_lang {src_lang} --cross --dataset {dataset} --seed {seed} --cuda --model_checkpoint {model_checkpoint}
❱❱❱ python classification.py --src_lang eng --cross --dataset nusax --seed 42 --cuda --model_checkpoint sentence-transformers/LaBSE

Ensemble

Die Argumente sind ähnlich wie oben, außer dass wir --model_checkpoints und --weights verwenden

 ❱❱❱ python classification.py --dataset {dataset} --seed {seed} --cuda --model_checkpoints {model_checkpoint1} {model_checkpoint2} {...} --weights {weight1} {weight2} {...}
❱❱❱ python classification.py --dataset nusax --seed 42 --cuda --model_checkpoints sentence-transformers/LaBSE intfloat/multilingual-e5-large --weights 0.25 0.75

ICL -Klassifizierung

Einsprachige Einstellung

 ❱❱❱ python icl.py --dataset {dataset} --seed 42 --instruction {instruction} --model_checkpoint {model} --gen_model_checkpoint {gen_model_checkpoint}  --cuda --load_in_8bit --k {k}
❱❱❱ python icl.py --dataset nusax --seed 42 --instruction "Generate a sentiment label for a given input.nPlease only output the label." --model_checkpoint sentence-transformers/LaBSE --gen_model_checkpoint meta-llama/Meta-Llama-3-8B-Instruct  --cuda --load_in_8bit --k 1

Kreuzsprachige Einstellung

Fügen Sie --src_lang und --cross zum Befehl hinzu.

 ❱❱❱ python icl.py --src_lang {src_lang} --cross --dataset {dataset} --seed 42 --instruction {instruction} --model_checkpoint {model} --gen_model_checkpoint {gen_model_checkpoint}  --cuda --load_in_8bit --k {k}
❱❱❱ python icl.py --src_lang eng --cross --dataset nusax --seed 42 --instruction "Generate a sentiment label for a given input.nPlease only output the label." --model_checkpoint sentence-transformers/LaBSE --gen_model_checkpoint meta-llama/Meta-Llama-3-8B-Instruct  --cuda --load_in_8bit --k 1

? Experimentergebnisse aggregieren

Hinzufügen --k , um die Anzahl der abgerufenen Proben zu ändern.

 ❱❱❱ python script/aggregate/aggregate_bitext_mining.py --k {k}
❱❱❱ python script/aggregate/aggregate_classification.py --k {k}
❱❱❱ python script/aggregate/aggregate_classification_cross.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl_cross.py --k {k}
❱❱❱ python script/aggregate/aggregate_icl_percentile.py --k {k}

? ️ visualisieren Sie die Einbettungen

 ❱❱❱ python visualize.py --model_checkpoint {model_checkpoint} --dataset {dataset} --seed {seed} --cuda
❱❱❱ python visualize.py --model_checkpoint sentence-transformers/LaBSE --dataset nusax --seed 42 --cuda

Beispiele für die Visualisierung durch Klassenbezeichnungen: Labse (links) und XLM-R-Basis (rechts)

Beispiele für die Visualisierung durch Beispiel-ID: Labse (links) und XLM-R-Basis (rechts)

Modelle unterstützen

Unsere Codebasis unterstützt die Verwendung mehrerer Modelle für die Experimente und bietet Flexibilität für die Anpassung über die unten gezeigte Liste hinaus:

Encoder LMS und APIs

Open-Source LMS:

Satztransformer/Labse
Satztransformatoren/Anwendungs-CMLM-Multividual
intfloat/mehrsprachig-e5-Base
intfloat/mehrsprachig-e5-large
Satztransformer/Paraphrase-multinellierende MPNET-Base-V2
Microsoft/Mehrsprachiger Minilm-L12-H384
cis-LMU/GLOT500-Base
Facebook/XLM-Roberta-Base
Facebook/XLM-Roberta-Large

Kommerzielle Einbettungs -APIs (zuletzt getestet im Juni 2024)

Cohere-embedv3
OpenAI-embedv3

Generatives LMS:

Bloomz BigScience/Bloomz-560m BigScience/Bloom-1b7 BigScience/Bloomz-3B
MT0 BigScience/MT0-XL
XGLM Facebook/XGLM-564M Facebook/Xglm-2.9b
AYA-23 Coherforai/AYA-23-8B
AYA-101 COHERFORAI/AYA-101
Gemma 1.1 Weisen Sie Google/Gemma-1.1-7b-it an
LAMA 3 8B unterricht
LAMA 3 8B unterricht
GPT -Modelle (zuletzt getestet im Juni 2024)
Cohere Command R (zuletzt getestet im Juni 2024)

Wie kann man einen Beitrag leisten?

Fühlen Sie sich frei, ein Problem zu erstellen, wenn Sie Fragen haben. Erstellen Sie eine PR, um Fehler zu beheben oder Verbesserungen hinzuzufügen (dh Hinzufügen neuer Datensätze oder Modelle).

Wenn Sie daran interessiert sind, eine Erweiterung dieser Arbeit zu erstellen, können Sie sich gerne an uns wenden!

Unterstützen Sie unsere Open Source -Anstrengung

Auf Fortschritt

Wir verbessern den Code, um benutzerfreundlicher und anpassbarer zu gestalten. Wir haben ein neues Repository für die Implementierung von Distfuse erstellt, das unter https://github.com/gentaiscool/distfuse/ verfügbar ist. Sie können es installieren, indem Sie pip install distfuse ausführen. Später wird es in dieses Repository integriert.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-09-11
Größe 7.1MB
Kommt von Github

Ähnliche Anwendungen

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03