Descarga de worldcuisines - Descarga del código fuente worldcuisines

worldcuisines

Código Fuente de IA

1.0.0

Descargar

? WorldCisines: ¿Benchmark VQA multicultural multilingüe?

Introducir? WorldCisines , un punto de referencia VQA multilingüe a gran escala y multicultural que desafía los modelos en idioma de visión (VLMS) para comprender la diversidad cultural de alimentos en más de 30 idiomas y dialectos , en 9 familias de idiomas , con más de 1 millón de puntos de datos disponibles generados a partir de 2.4k pliegue con imágenes de 6k . Como punto de referencia, tenemos tres conjuntos:

Datos de entrenamiento (1m). Estamos en el proceso de preparar un conjunto de datos integral para fines de capacitación. Para este punto de referencia, no hemos utilizado el conjunto de capacitación para mejorar el modelo. En cambio, estamos organizando estos datos para apoyar los esfuerzos de investigación futuros.
Prueba pequeña (12k). Está destinado a evaluación de eficiencia de cómputo.
Prueba grande (60k). El conjunto de prueba de 12k es un subconjunto del conjunto de pruebas de 60k.

Vista previa de WorldCisines

Tabla de contenido

Punto de referencia
Papel
? Tabla de clasificación y resultados
⚡ Configuración del entorno
? Experimentos de ejecución
? Resultado agregado del experimento
? ️ Visualizar los resultados
Modelos compatibles
❓ Generación del conjunto de datos VQA
¿Cómo contribuir?
✏️ sobre el progreso

Punto de referencia

? ¿Vacinas mundiales? comprende una proporción equilibrada de sus 2 tareas respaldadas . Proporcionamos más de 1M Datos de capacitación y datos de evaluación de 60k . Nuestro punto de referencia evalúa VLM en dos tareas: predicción del nombre del plato y predicción de ubicación del plato. La configuración incluye el indicador sin contexto , contextualizado e infundido adversario como la entrada del modelo.

Nuestro conjunto de datos está disponible en? Abrazando el conjunto de datos de la cara. Los datos de KB de apoyo se pueden encontrar? Abrazando el conjunto de datos de la cara.

Estadística del conjunto de datos de WorldCisines

Papel

Este es el código fuente del documento [ARXIV]. Este código ha sido escrito usando Python. Si usa algún código o conjunto de datos de este conjunto de herramientas en su investigación, cita el documento asociado.

 @article { winata2024worldcuisines ,
  title = { WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines } ,
  author = { Winata, Genta Indra and Hudi, Frederikus and Irawan, Patrick Amadeus and Anugraha, David and Putri, Rifki Afina and Wang, Yutong and Nohejl, Adam and Prathama, Ubaidillah Ariq and Ousidhoum, Nedjma and Amriani, Afifa and others } ,
  journal = { arXiv preprint arXiv:2410.12705 } ,
  year = { 2024 }
}

? Tabla de clasificación y resultados

Si desea obtener el resultado final para todos los VLLM que evaluamos, consulte esta tabla de clasificación para obtener el resumen. Los resultados sin procesar se colocan en el directorio evaluation/score/json .

⚡ Configuración del entorno

Ejecute el siguiente comando para instalar las bibliotecas requeridas para reproducir los resultados de referencia.

A través de `pip`

 pip install -r requirements.txt

Vía `conda`

 conda env create -f env.yml

Para Pangea, ejecute lo siguiente

 pip install -e "git+https://github.com/gentaiscool/LLaVA-NeXT@79ef45a6d8b89b92d7a8525f077c3a3a9894a87d#egg=llava[train]"

? Experimentos de ejecución

Todos los resultados del experimento se almacenarán en la evaluation/result/ directorio. Los resultados se evalúan utilizando la precisión para todas las tareas, específicamente para tareas abiertas (OEQ), utilizamos precisión calculada utilizando la referencia múltiple . Puede ejecutar cada experimento usando los siguientes comandos:

 cd evaluation/
python run.py --model_path {model_path} --task {task} --type {type}

Argumentos principales

Argumento	Descripción	Ejemplo / predeterminado
`--task`	Número de tarea para evaluar (1 o 2)	`1` (predeterminado), `2`
`--type`	Tipo de pregunta para evaluar ( `oe` o `mc` )	`mc` (predeterminado), `oe`
`--model_path`	Camino hacia el modelo	`Qwen/Qwen2-VL-72B-Instruct` (predeterminado) + otros
`--fp32`	Use `float32` en lugar de `float16` / `bfloat16`	`False` (predeterminado)
`--multi_gpu`	Use múltiples GPU	`False` (predeterminado)
`-n` , `--chunk_num`	Número de fragmentos para dividir los datos en	`1` (predeterminado)
`-k` , `--chunk_id`	ID de fragmento (basado en 0)	`0` (predeterminado)
`-s` , `--st_idx`	Iniciar índice para cortar datos (inclusive)	`None` (predeterminado)
`-e` , `--ed_idx`	Índice final para cortar datos (exclusivo)	`None` (predeterminado)

Modelos compatibles

Apoyamos los siguientes modelos (puede modificar nuestro código para ejecutar la evaluación con otros modelos).

rhymes-ai/Aria
meta-llama/Llama-3.2-11B-Vision-Instruct
meta-llama/Llama-3.2-90B-Vision-Instruct
llava-hf/llava-v1.6-vicuna-7b-hf
llava-hf/llava-v1.6-vicuna-13b-hf
allenai/MolmoE-1B-0924
allenai/Molmo-7B-D-0924
allenai/Molmo-7B-O-0924
microsoft/Phi-3.5-vision-instruct
Qwen/Qwen2-VL-2B-Instruct
Qwen/Qwen2-VL-7B-Instruct
Qwen/Qwen2-VL-72B-Instruct
mistralai/Pixtral-12B-2409
neulab/Pangea-7B (instale llava como se menciona en la configuración del entorno ⚡)
WIP: modelos patentados

? Resultado agregado del experimento

Editar evaluation/score/score.yml para determinar el modo de puntuación, conjunto de evaluación y VLMS evaluado. Tenga en cuenta que mc significa opción múltiple y oe significa abierto.

 mode : all # {all, mc, oe}  all = mc + oe
oe_mode : multi # {single, dual, multi}
subset : large # {large, small}
models :
- llava-1.6-7b
- llava-1.6-13b
- qwen-vl-2b
- qwen2-vl-7b-instruct
- qwen2-vl-72b
- llama-3.2-11b
- llama-3.2-90b
- molmoe-1b
- molmo-7b-d
- molmo-7b-o
- aria-25B-moe-4B
- Phi-3.5-vision-instruct
- pixtral-12b
- nvlm
- pangea-7b
- gpt-4o-2024-08-06
- gpt-4o-mini-2024-07-18
- gemini-1.5-flash

Además del modo multi para generar la puntuación oe , que compara la respuesta con las etiquetas doradas en todos los idiomas, también admitimos otras configuraciones de referencia de etiquetas doradas:

Referencia single : compara la respuesta solo con la etiqueta dorada en el idioma original.
Referencia dual : compara la respuesta con la etiqueta dorada en el idioma original e inglés.

Una vez configurado, ejecute este comando:

 cd evaluation/score/
python score.py

? ️ Visualizar los resultados

Proporcionamos gráficos de radar, dispersión y línea de dispersión conectadas para visualizar los resultados de puntuación para todos los VLM en evaluation/score/plot/ .

Para generar toda la parcela de radar , use:

 python evaluation/score/plot/visualization.py

Ejemplos de parcela de radar

Ejemplo de gráfica de radar

También puede modificar evaluation/score/score.yml para seleccionar qué VLMS visualizar y ajustar las etiquetas de la traza en plot_mapper.yml .

Ejemplos de otras tramas

Otros scripts de generación de gráficos están disponibles en los archivos *.ipynb dentro del mismo directorio.

Modelos compatibles

Nuestra base de código admite el uso de múltiples modelos para los experimentos, proporcionando flexibilidad para la personalización de la lista que se muestra a continuación:

VLMS generativo:

De código abierto

Llava1.6 Vicuna Llava-HF/Llava-V1.6-Vicuna-7B-HF LLAVA-HF/LLAVA-V1.6-VICUNA-13B-HF
QWEN2 VL Instruir QWEN/QWEN2-VL-2B-INSTRUCT QWEN/QWEN2-VL-7B-INSTRUCT QWEN/QWEN2-VL-72B-Instructo
Llama 3.2 Instruir Meta-llama/Llama-3.2-11b-vision-Instructo Meta-llama/Llama-3.2-90b-Vision-Instructo
Molmo-E 1B Allenai/Molmoe-1b-0924
Molmo-D 7B Allenai/Molmo-7B-D-0924
Molmo-O 7B Allenai/Molmo-7B-O-0924
Aria 25B Rimas-AI/Aria
PHI-3.5 Visión 4B Microsoft/Phi-3.5-Vision-Instructo
Pixtral 12B MistraLai/PixTral-12B-2409
Pangea 7b neulab/pangea-7b
NVLM-D 72B NVIDIA/NVLM-D-72B

Propiedad

(Últimamente probado a partir de octubre de 2024)

GPT-4O
GPT-4O mini
Géminis 1.5 flash

❓ Generación del conjunto de datos VQA

Para generar un conjunto de datos VQA desde la base de conocimiento, puede consultar el script generate_vqa/sampling.py . Este script genera el conjunto de datos para varias tareas en conjuntos de capacitación y prueba.

Comandos de ejemplo: Para generar conjuntos de datos para probar pequeños , probar grandes y conjuntos de trenes , ejecute los siguientes comandos:

 cd generate_vqa
mkdir -p generated_data

# Test Small Task 1
python3 sampling.py -o " generated_data/test_small_task1.csv " -n 9000 -nd 100 -np1a 1 -np1b 0 -np1c 1 -npb 1 --is-eval

# Test Small Task 2
python3 sampling.py -o " generated_data/test_small_task2.csv " -n 3000 -nd 100 -np1a 0 -np1b 1 -np1c 0 -npb 0 --is-eval

# Test Large Task 1
python3 sampling.py -o " generated_data/test_large_task1.csv " -n 45000 -nd 500 -np1a 1 -np1b 0 -np1c 1 -npb 1 --is-eval

# Test Large Task 2
python3 sampling.py -o " generated_data/test_large_task2.csv " -n 15000 -nd 500 -np1a 0 -np1b 1 -np1c 0 -npb 0 --i-eval

# Train Task 1
python3 sampling.py -o " generated_data/train_task1.csv " -n 810000 -nd 1800 -np1a 5 -np1b 0 -np1c 5 -npb 5 --no-is-eval

# Train Task 2
python3 sampling.py -o " generated_data/train_task2.csv " -n 270000 -nd 1800 -np1a 0 -np1b 5 -np1c 0 -npb 0 --no-is-eval

Argumentos principales

Argumento	Descripción	Ejemplo
`-o` , `--output-csv`	Ruta CSV de salida donde se guardará el conjunto de datos VQA generado.	`generated_data/test_small_task1.csv`
`-n` , `--num-samples`	Número máximo de instancias a generar. Si se solicitan más muestras que posible, el script se ajustará.	`9000`
`-nd` , `--n-dish-max`	Máximo número único de platos a la muestra de.	`100`
`-np1a` , `--n-prompt-max-type1a`	Las indicaciones únicas máximas de la Tarea 1 (a) (sin contexto) para probar por plato en cada iteración.	`1`
`-np1b` , `--n-prompt-max-type1b`	Las indicaciones únicas máximas de la Tarea 1 (b) (contextualizada) para probar por plato en cada iteración.	`1`
`-np1c` , `--n-prompt-max-type1c`	Máximas indicaciones únicas de la Tarea 1 (c) (adversar) para probar por plato en cada iteración.	`1`
`-np2` , `--n-prompt-max-type2`	Máximo indicaciones únicas de la tarea 2 a la muestra por plato en cada iteración.	`1`
`--is-eval` , `--no-is-eval`	Si generar evaluación (prueba) o conjuntos de datos de capacitación.	`--is-eval` para la prueba, `--no-is-eval` para tren

Argumentos adicionales

Argumento	Descripción	Ejemplo
`-fr` , `--food-raw-path`	Camino hacia los datos de alimentos crudos CSV.	`food_raw_6oct.csv`
`-fc` , `--food-cleaned-path`	Camino hacia los datos de alimentos limpios CSV.	`food_cleaned.csv`
`-q` , `--query-context-path`	Camino hacia el contexto de consulta CSV.	`query_ctx.csv`
`-l` , `--loc-cuis-path`	Camino a la ubicación y la cocina CSV.	`location_and_cuisine.csv`
`-ll` , `--list-of-languages`	Especifique los idiomas que se utilizarán como una lista de cadenas.	`'["en", "id_formal"]'`
`-aw` , `--alias-aware`	Habilite respuestas adversas con alias paralelos en lugar de reemplazar los platos sin traducción con inglés	`--alias-aware` del requisito de encontrar respuestas que contengan traducción paralela en todos los idiomas, `--no-alias-aware` para relajar el requisito de nombre de los platos paralelos

¿Cómo contribuir?

No dude en crear un problema si tiene alguna pregunta. Y, cree un PR para corregir errores o agregar mejoras.

Si está interesado en crear una extensión de este trabajo, ¡no dude en comunicarse con nosotros!

Apoyar nuestro esfuerzo de código abierto

✏️ sobre el progreso

Estamos mejorando el código, especialmente en la parte de inferencia para generar evaluation/result y puntuación de la unificación del código de visualización, para que sea más fácil de usar y personalizable.

Expandir

Información adicional