Fundación impresionante y modelos multimodales
? ️ + + =?
Modelo de base : un modelo de aprendizaje automático previamente capacitado que sirve como base para una amplia gama de tareas aguas abajo. Captura el conocimiento general de un gran conjunto de datos y se puede ajustar para realizar tareas específicas de manera más efectiva.
Modelo multimodal : un modelo que puede procesar múltiples modalidades (por ejemplo, texto, imagen, video, audio, etc.) al mismo tiempo.
? modelos
Yolo-World: Detección de objetos abiertos en tiempo real
Tianheng Cheng, Lin Song, Yixiao GE, Wenyu Liu, Xinggang Wang, Ying Shan
- Fecha: 2024-01-30
- Modalidades : ? ️ +
- Tareas: detección de objetos de disparo cero
Profundidad cualquier cosa
Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
- Fecha: 2024-01-19
- Modalidades : ?
- Tareas: Estimación de profundidad
Eficientsam: pretrenesa de imagen enmascarada apalancada para un segmento eficiente cualquier cosa
Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra
- Fecha: 2023-12-01
- Modalidades : ? ️
- Tareas: segmentación de objetos de disparo cero
Qwen-vl-plus / max
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- Fecha: 2023-11-28
- Modalidades : ? ️ +
- Tareas: subtitulación de imágenes, VQA, detección de objetos de disparo cero
COGVLM: Experto visual para modelos de lenguaje previos a
Weihan Wang, Qingsong LV, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang
- Fecha: 2023-11-06
- Modalidades : ? ️ +
- Tareas: subtitulación de imágenes, VQA
Fuyu-8b: una arquitectura multimodal para agentes de IA
Rohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, Sağnak Taşırlar
- Fecha: 2023-10-17
- Modalidades : ? ️ +
- Tareas: clasificación de imágenes, subtitulación de imágenes, VQA, Buscar texto en la imagen
Hurto: consulte y conecte cualquier cosa en cualquier lugar en cualquier granularidad
Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
- Fecha: 2023-10-11
- Modalidades : ? ️ +
- Tareas: subtitulación de imágenes, VQA, frase a tierra, detección de objetos
Metaclip: Datos de clip desmitificantes
Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer
- Fecha: 2023-09-28
- Modalidades : ? ️ +
- Tareas: clasificación de disparo cero
Qwen-VL: un modelo versátil en idioma de visión para la comprensión, localización, lectura de texto y más allá
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- Fecha: 2023-09-24
- Modalidades : ? ️ +
- Tareas: subtitulación de imágenes, VQA
Siglip: pérdida sigmoidea para la imagen de la imagen del lenguaje
Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer
- Fecha: 2023-08-27
- Modalidades : ? ️
- Tareas: clasificación de imágenes de disparo cero
Nougat: comprensión óptica neuronal para documentos académicos
Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic
- Fecha: 2023-08-25
- Modalidades : ? ️
- Tareas: respuesta de preguntas visuales
Audioldm 2: Aprender la generación de audio holística con previación auto-supervisada
Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley
- Fecha: 2023-08-10
- Modalidades: ️ +
- Tareas: texto a audio, texto a voz
OpenFlamingo: un marco de código abierto para capacitar a grandes modelos de lenguaje de visión autorregresivos
Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig.
- Fecha: 2023-08-02
- Modalidades : ? ️ +
- Tareas: clasificación de imágenes, subtitulación de imágenes, VQA
Kosmos-2: modelos de lenguaje grande multimodal para el mundo
Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei
- Fecha: 2023-07-26
- Modalidades : ? ️ +
- Tareas: subtitulación de imágenes, VQA, frase a tierra
OWLV2: escala de detección de objetos de vocabulario abierto
Matthias Minderer, Alexey Gritsenko, Neil Houlsby
- Fecha: 2023-06-17
- Modalidades : ? ️
- Tareas: detección de objetos de disparo cero
ImageBind: Un espacio de incrustación para unirlos a todos
Rohit Girdhar, Alaaeldin El-Noubby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra
- Fecha: 2023-05-09
- Modalidades : ? ️ + +
- Tareas:
Llava: Asistente de lenguaje y visión grande
Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
- Fecha: 2023-04-17
- Modalidades : ? ️ +
- Tareas: modelado de lenguaje de visión
Segmento cualquier cosa
Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen LO, Piotr Dollár, Ross Girshick
- Fecha: 2023-04-05
- Modalidades : ? ️
- Tareas: segmentación de objetos de disparo cero
Dino de tierra: casarse con dino con pre-entrenamiento conectado a tierra para detección de objetos abiertos
Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang
- Fecha: 2023-03-09
- Modalidades : ? ️ +
- Tareas: frase a tierra, detección de objetos de disparo cero
BLIP-2: Bootstrapping Language-Image Pretringing con codificadores de imágenes congeladas y modelos de idiomas grandes
Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi
- Fecha: 2023-01-30
- Modalidades : ? ️ +
- Tareas: subtitulación de imágenes, respuesta de preguntas visuales
Whisper: Reconocimiento de voz robusto a través de una supervisión débil a gran escala
Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever
- Fecha: 2022-12-06
- Modalidades: ️ +
- Tareas: habla a texto
OWL-VIT: Detección simple de objetos de vocabulario abierto con transformadores de visión
Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, Neil Houlsby
- Fecha: 2022-05-12
- Modalidades : ? ️ +
- Tareas: detección de objetos de disparo cero
Clip: Aprender modelos visuales transferibles a partir de la supervisión del lenguaje natural
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
- Fecha: 2021-02-26
- Modalidades : ? ️ +
- Tareas: clasificación de disparo cero
? contribución
¡Nos encantaría su ayuda para hacer que este repositorio sea aún mejor! Si conoce un artículo increíble que no se enumera aquí, o si tiene alguna sugerencia de mejora, no dude en abrir un problema o enviar una solicitud de extracción.