worldcuisines Download - worldcuisines Quellcode Download

worldcuisines

AI-Quellcode

1.0.0

Herunterladen

? Worldcuisies: Mehrsprachige multikulturelle VQA -Benchmark?

Einführung? Worldcuisines , ein massives mehrsprachiger und multikultureller VQA-Benchmark, der Vision-Sprache-Modelle (VLMs) herausfordert, um die kulturelle Lebensmittelvielfalt in über 30 Sprachen und Dialekten in 9 Sprachfamilien zu verstehen, wobei über 1 Million Datenpunkte aus 2,4K- Schalen mit 6K- Bildern erstellt wurden. Als Benchmark haben wir drei Sätze:

Trainingsdaten (1M). Wir sind dabei, einen umfassenden Datensatz für Schulungszwecke vorzubereiten. Für diesen Benchmark haben wir das Trainingssatz nicht zur Verbesserung des Modells genutzt. Stattdessen organisieren wir diese Daten, um zukünftige Forschungsbemühungen zu unterstützen.
Testen Sie klein (12k). Es ist für die recheneffiziente Bewertung gedacht.
Testen Sie groß (60k). Der 12K -Testsatz ist eine Teilmenge des 60K -Testsatzes.

Worldcuisies Preview

Inhaltsverzeichnis

Benchmark
Papier
? Rangliste und Ergebnisse
⚡ Umgebungsaufbau
? Experimente laufen
? Aggregat -Experimentergebnis
? ️ visualisieren Sie die Ergebnisse
Unterstützte Modelle
❓ VQA -Datensatzgenerierung
Wie kann man einen Beitrag leisten?
✏️ Über den Fortschritt

Benchmark

? Weltbauer? umfasst einen ausgewogenen Anteil seiner 2 unterstützten Aufgaben . Wir liefern über 1M Trainingsdaten und eine Bewertungsdaten von 60 km . Unser Benchmark bewertet VLMs an zwei Aufgaben: Vorhersage des Gerichtsnamens und der Gerichtsprüfung. Die Einstellungen umfassen No-Context , kontextualisierte und kontinuierliche infundierte Eingabeaufforderung als Eingabe des Modells.

Unser Datensatz ist bei verfügbar? Umarmung des Gesichtsdatensatzes. Die unterstützenden KB -Daten finden Sie bei? Umarmung des Gesichtsdatensatzes.

WorldCuisies -Datensatzstatistik

Papier

Dies ist der Quellcode des Papiers [ARXIV]. Dieser Code wurde mit Python geschrieben. Wenn Sie Code oder Datensätze aus diesem Toolkit in Ihrer Forschung verwenden, geben Sie bitte das zugehörige Papier an.

 @article { winata2024worldcuisines ,
  title = { WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines } ,
  author = { Winata, Genta Indra and Hudi, Frederikus and Irawan, Patrick Amadeus and Anugraha, David and Putri, Rifki Afina and Wang, Yutong and Nohejl, Adam and Prathama, Ubaidillah Ariq and Ousidhoum, Nedjma and Amriani, Afifa and others } ,
  journal = { arXiv preprint arXiv:2410.12705 } ,
  year = { 2024 }
}

? Rangliste und Ergebnisse

Wenn Sie das Endergebnis für alle von uns bewerteten VLLMs erhalten möchten, finden Sie in dieser Rangliste für die Zusammenfassung. Die RAW -Ergebnisse werden in das Verzeichnis evaluation/score/json platziert.

⚡ Umgebungsaufbau

Bitte führen Sie den folgenden Befehl aus, um die erforderlichen Bibliotheken zu installieren, um die Benchmark -Ergebnisse zu reproduzieren.

Via `pip`

 pip install -r requirements.txt

Über `conda`

 conda env create -f env.yml

Für Pangaea laufen Sie bitte Folgendes aus

 pip install -e "git+https://github.com/gentaiscool/LLaVA-NeXT@79ef45a6d8b89b92d7a8525f077c3a3a9894a87d#egg=llava[train]"

? Experimente laufen

Alle Experimentergebnisse werden in der evaluation/result/ des Verzeichnisses gespeichert. Die Ergebnisse werden mithilfe der Genauigkeit für alle Aufgaben bewertet, insbesondere für Open-End-Aufgaben (OEQ). Wir verwenden Genauigkeit, die mit Multi-Referenz berechnet wurde. Sie können jedes Experiment mit den folgenden Befehlen ausführen:

 cd evaluation/
python run.py --model_path {model_path} --task {task} --type {type}

Hauptargumente

Argument	Beschreibung	Beispiel / Standard
`--task`	Aufgabenummer zu bewerten (1 oder 2)	`1` (Standard), `2`
`--type`	Art der Frage zu bewerten ( `oe` oder `mc` )	`mc` (Standard), `oe`
`--model_path`	Pfad zum Modell	`Qwen/Qwen2-VL-72B-Instruct` (Standard) + andere
`--fp32`	Verwenden Sie `float32` anstelle von `float16` / `bfloat16`	`False` (Standard)
`--multi_gpu`	Verwenden Sie mehrere GPUs	`False` (Standard)
`-n` , `--chunk_num`	Anzahl der Stücke, um die Daten in die Daten aufzuteilen	`1` (Standard)
`-k` , `--chunk_id`	Chunk ID (0 basiert)	`0` (Standard)
`-s` , `--st_idx`	Starten Sie den Index für das Schneiden von Daten (inklusive)	`None` (Standard)
`-e` , `--ed_idx`	Endindex zum Schneiden von Daten (exklusiv)	`None` (Standard)

Unterstützte Modelle

Wir unterstützen die folgenden Modelle (Sie können unseren Code so ändern, dass Sie die Bewertung mit anderen Modellen ausführen).

rhymes-ai/Aria
meta-llama/Llama-3.2-11B-Vision-Instruct
meta-llama/Llama-3.2-90B-Vision-Instruct
llava-hf/llava-v1.6-vicuna-7b-hf
llava-hf/llava-v1.6-vicuna-13b-hf
allenai/MolmoE-1B-0924
allenai/Molmo-7B-D-0924
allenai/Molmo-7B-O-0924
microsoft/Phi-3.5-vision-instruct
Qwen/Qwen2-VL-2B-Instruct
Qwen/Qwen2-VL-7B-Instruct
Qwen/Qwen2-VL-72B-Instruct
mistralai/Pixtral-12B-2409
neulab/Pangea-7B (Bitte installieren Sie LLAVA, wie in ⚡ Umgebungs-Setup erwähnt)
WIP: Proprietäre Modelle

? Aggregat -Experimentergebnis

Bearbeiten Sie evaluation/score/score.yml um Bewertungsmodus, Bewertungssatz und Bewertung von VLMs zu bestimmen. Beachten Sie, dass mc Multiple-Choice bedeutet und oe offen geöffnet ist.

 mode : all # {all, mc, oe}  all = mc + oe
oe_mode : multi # {single, dual, multi}
subset : large # {large, small}
models :
- llava-1.6-7b
- llava-1.6-13b
- qwen-vl-2b
- qwen2-vl-7b-instruct
- qwen2-vl-72b
- llama-3.2-11b
- llama-3.2-90b
- molmoe-1b
- molmo-7b-d
- molmo-7b-o
- aria-25B-moe-4B
- Phi-3.5-vision-instruct
- pixtral-12b
- nvlm
- pangea-7b
- gpt-4o-2024-08-06
- gpt-4o-mini-2024-07-18
- gemini-1.5-flash

Zusätzlich zum multi -Modus zur Erzeugung des oe -Scores, der die Antwort auf die goldenen Etiketten in allen Sprachen vergleicht, unterstützen wir auch andere Einstellungen für goldene Etiketten:

single : Vergleicht die Antwort nur mit dem Goldenen Label in der Originalsprache.
dual Referenz : Vergleicht die Antwort auf das Goldene Label in der Originalsprache und Englisch.

Sobald Sie eingestellt haben, führen Sie diesen Befehl aus:

 cd evaluation/score/
python score.py

? ️ visualisieren Sie die Ergebnisse

Wir liefern Radar-, Streu- und Verbundene Streuzeilendiagramme, um die Bewertungsergebnisse für alle VLMs in evaluation/score/plot/ zu visualisieren.

Verwenden Sie, um alle Radardiagramme zu erzeugen:

 python evaluation/score/plot/visualization.py

Beispiele für das Radardiagramm

Beispiel für Radardiagramm

Sie können evaluation/score/score.yml auch ändern, um auszuwählen, welche VLMs die Diagrammbezeichnungen in plot_mapper.yml visualisieren und anpassen können.

Beispiele für andere Handlungen

Andere Skripte zur Erzeugung von Handlungen sind in den *.ipynb -Dateien in demselben Verzeichnis verfügbar.

Unterstützte Modelle

Unsere Codebasis unterstützt die Verwendung mehrerer Modelle für die Experimente und bietet Flexibilität für die Anpassung der unten gezeigten Liste:

Generative VLMs:

Open-Source

Llava1.6 vicuna llava-hf/llava-v1.6-vicuna-7b-hf llava-hf/llava-v1.6-vicuna-13b-hf
Qwen2 VL unterricht
LLAMA 3.2 BESTURT META-LLAMA/LAMA-3.2-11B-VISION-ISTRUCT META-LLAMA/LAMA-3.2-90B-VISION-ISTRUCT
Molmo-e 1b Allenai/Molmoe-1B-0924
Molmo-D 7b Allenai/Molmo-7b-D-0924
Molmo-O 7b Allenai/Molmo-7b-O-0924
ARIA 25B RHYMES-AI/ARIA
PHI-3,5 SIVE 4B Microsoft/Phi-3.5-Vision-Instruction
Pixtral 12B Mistralai/Pixtral-12b-2409
Pangea 7b Neulab/Pangea-7b
NVLM-D 72B NVIDIA/NVLM-D-72B

Proprietär

(Zuletzt getestet im Oktober 2024)

Gpt-4o
GPT-4o Mini
Gemini 1.5 Blitz

❓ VQA -Datensatzgenerierung

Um einen VQA -Datensatz aus der Wissensbasis zu generieren, können Sie sich auf das Skript generate_vqa/sampling.py beziehen. Dieses Skript generiert den Datensatz für verschiedene Aufgaben sowohl in den Trainings- als auch in den Testsätzen.

Beispielbefehle: So generieren Datensätze zum Test kleiner , großer Testen und Zugsätzen , führen Sie die folgenden Befehle aus:

 cd generate_vqa
mkdir -p generated_data

# Test Small Task 1
python3 sampling.py -o " generated_data/test_small_task1.csv " -n 9000 -nd 100 -np1a 1 -np1b 0 -np1c 1 -npb 1 --is-eval

# Test Small Task 2
python3 sampling.py -o " generated_data/test_small_task2.csv " -n 3000 -nd 100 -np1a 0 -np1b 1 -np1c 0 -npb 0 --is-eval

# Test Large Task 1
python3 sampling.py -o " generated_data/test_large_task1.csv " -n 45000 -nd 500 -np1a 1 -np1b 0 -np1c 1 -npb 1 --is-eval

# Test Large Task 2
python3 sampling.py -o " generated_data/test_large_task2.csv " -n 15000 -nd 500 -np1a 0 -np1b 1 -np1c 0 -npb 0 --i-eval

# Train Task 1
python3 sampling.py -o " generated_data/train_task1.csv " -n 810000 -nd 1800 -np1a 5 -np1b 0 -np1c 5 -npb 5 --no-is-eval

# Train Task 2
python3 sampling.py -o " generated_data/train_task2.csv " -n 270000 -nd 1800 -np1a 0 -np1b 5 -np1c 0 -npb 0 --no-is-eval

Hauptargumente

Argument	Beschreibung	Beispiel
`-o` , `--output-csv`	Ausgabe CSV -Pfad, auf dem der generierte VQA -Datensatz gespeichert wird.	`generated_data/test_small_task1.csv`
`-n` , `--num-samples`	Maximale Anzahl von Instanzen zu generieren. Wenn mehr Beispiele als möglich angefordert werden, wird das Skript angepasst.	`9000`
`-nd` , `--n-dish-max`	Maximale eindeutige Anzahl von Gerichten, aus denen man probieren kann.	`100`
`-np1a` , `--n-prompt-max-type1a`	Maximale eindeutige Eingabeaufforderungen aus Aufgabe 1 (a) (Nicht-Kontext), um in jeder Iteration pro Gericht zu probieren.	`1`
`-np1b` , `--n-prompt-max-type1b`	Maximale eindeutige Eingabeaufforderungen von Aufgabe 1 (b) (kontextualisiert) in jeder Iteration pro Gericht pro Gericht.	`1`
`-np1c` , `--n-prompt-max-type1c`	Maximale eindeutige Eingabeaufforderungen von Aufgabe 1 (c) (kontrovers) in jeder Iteration probieren.	`1`
`-np2` , `--n-prompt-max-type2`	Maximale eindeutige Eingabeaufforderungen von Aufgabe 2 bis Proben pro Gericht in jeder Iteration.	`1`
`--is-eval` , `--no-is-eval`	Ob Sie Bewertung (Test) oder Schulungsdatensätze generieren.	`--is-eval` für Test, `--no-is-eval` für den Zug

Zusätzliche Argumente

Argument	Beschreibung	Beispiel
`-fr` , `--food-raw-path`	Pfad zu den Rohfutterdaten CSV.	`food_raw_6oct.csv`
`-fc` , `--food-cleaned-path`	Pfad zu den gereinigten Lebensmitteldaten CSV.	`food_cleaned.csv`
`-q` , `--query-context-path`	Pfad zum Abfragekontext CSV.	`query_ctx.csv`
`-l` , `--loc-cuis-path`	Pfad zum Ort und zur Küche CSV.	`location_and_cuisine.csv`
`-ll` , `--list-of-languages`	Geben Sie Sprachen an, die als Liste von Zeichenfolgen verwendet werden sollen.	`'["en", "id_formal"]'`
`-aw` , `--alias-aware`	Aktivieren Sie die kontroversen Antworten mit parallele Aliase, anstatt Gerichte ohne Übersetzung durch Englisch zu ersetzen	`--alias-aware` für die Anforderung, Antworten zu finden, die eine parallele Übersetzung in allen Sprachen enthalten, `--no-alias-aware`

Wie kann man einen Beitrag leisten?

Fühlen Sie sich frei, ein Problem zu erstellen, wenn Sie Fragen haben. Erstellen Sie eine PR, um Fehler zu beheben oder Verbesserungen hinzuzufügen.

Wenn Sie daran interessiert sind, eine Erweiterung dieser Arbeit zu erstellen, können Sie sich gerne an uns wenden!

Unterstützen Sie unsere Open Source -Anstrengung

✏️ Über den Fortschritt

Wir verbessern den Code, insbesondere im Inferenzteil, um die Vereinigung evaluation/result und Bewertungsvisualisierungscode zu generieren, um benutzerfreundlicher und anpassbarer zu gestalten.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-09-09
Größe 371.6MB
Kommt von Github

Ähnliche Anwendungen

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

worldcuisines

? Worldcuisies: Mehrsprachige multikulturelle VQA -Benchmark?

Inhaltsverzeichnis

Benchmark

Papier

? Rangliste und Ergebnisse

⚡ Umgebungsaufbau

Via `pip`

Über `conda`

? Experimente laufen

Hauptargumente

Unterstützte Modelle

? Aggregat -Experimentergebnis

? ️ visualisieren Sie die Ergebnisse

Beispiele für das Radardiagramm

Beispiele für andere Handlungen

Unterstützte Modelle

Generative VLMs:

Open-Source

Proprietär

❓ VQA -Datensatzgenerierung

Hauptargumente

Zusätzliche Argumente

Wie kann man einen Beitrag leisten?

✏️ Über den Fortschritt

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

worldcuisines

? Worldcuisies: Mehrsprachige multikulturelle VQA -Benchmark?

Inhaltsverzeichnis

Benchmark

Papier

? Rangliste und Ergebnisse

⚡ Umgebungsaufbau

Via pip

Über conda

? Experimente laufen

Hauptargumente

Unterstützte Modelle

? Aggregat -Experimentergebnis

? ️ visualisieren Sie die Ergebnisse

Beispiele für das Radardiagramm

Beispiele für andere Handlungen

Unterstützte Modelle

Generative VLMs:

Open-Source

Proprietär

❓ VQA -Datensatzgenerierung

Hauptargumente

Zusätzliche Argumente

Wie kann man einen Beitrag leisten?

✏️ Über den Fortschritt

Via `pip`

Über `conda`