Descarga de awesome foundation and multimodal models - Descarga del código fuente de awesome foundation and multimodal models

awesome foundation and multimodal models

Otro código fuente

1.0.0

Descargar

Fundación impresionante y modelos multimodales

? ️ + + =?

Modelo de base : un modelo de aprendizaje automático previamente capacitado que sirve como base para una amplia gama de tareas aguas abajo. Captura el conocimiento general de un gran conjunto de datos y se puede ajustar para realizar tareas específicas de manera más efectiva.

Modelo multimodal : un modelo que puede procesar múltiples modalidades (por ejemplo, texto, imagen, video, audio, etc.) al mismo tiempo.

? modelos

Yolo-World: Detección de objetos abiertos en tiempo real

Tianheng Cheng, Lin Song, Yixiao GE, Wenyu Liu, Xinggang Wang, Ying Shan

Fecha: 2024-01-30
Modalidades : ? ️ +
Tareas: detección de objetos de disparo cero

Profundidad cualquier cosa

Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

Fecha: 2024-01-19
Modalidades : ?
Tareas: Estimación de profundidad

Eficientsam: pretrenesa de imagen enmascarada apalancada para un segmento eficiente cualquier cosa

Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra

Fecha: 2023-12-01
Modalidades : ? ️
Tareas: segmentación de objetos de disparo cero

Qwen-vl-plus / max

Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

Fecha: 2023-11-28
Modalidades : ? ️ +
Tareas: subtitulación de imágenes, VQA, detección de objetos de disparo cero

COGVLM: Experto visual para modelos de lenguaje previos a

Weihan Wang, Qingsong LV, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang

Fecha: 2023-11-06
Modalidades : ? ️ +
Tareas: subtitulación de imágenes, VQA

Fuyu-8b: una arquitectura multimodal para agentes de IA

Rohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, Sağnak Taşırlar

Fecha: 2023-10-17
Modalidades : ? ️ +
Tareas: clasificación de imágenes, subtitulación de imágenes, VQA, Buscar texto en la imagen

Hurto: consulte y conecte cualquier cosa en cualquier lugar en cualquier granularidad

Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang

Fecha: 2023-10-11
Modalidades : ? ️ +
Tareas: subtitulación de imágenes, VQA, frase a tierra, detección de objetos

Metaclip: Datos de clip desmitificantes

Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer

Fecha: 2023-09-28
Modalidades : ? ️ +
Tareas: clasificación de disparo cero

Qwen-VL: un modelo versátil en idioma de visión para la comprensión, localización, lectura de texto y más allá

Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

Fecha: 2023-09-24
Modalidades : ? ️ +
Tareas: subtitulación de imágenes, VQA

Siglip: pérdida sigmoidea para la imagen de la imagen del lenguaje

Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer

Fecha: 2023-08-27
Modalidades : ? ️
Tareas: clasificación de imágenes de disparo cero

Nougat: comprensión óptica neuronal para documentos académicos

Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic

Fecha: 2023-08-25
Modalidades : ? ️
Tareas: respuesta de preguntas visuales

Audioldm 2: Aprender la generación de audio holística con previación auto-supervisada

Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley

Fecha: 2023-08-10
Modalidades: ️ +
Tareas: texto a audio, texto a voz

OpenFlamingo: un marco de código abierto para capacitar a grandes modelos de lenguaje de visión autorregresivos

Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig.

Fecha: 2023-08-02
Modalidades : ? ️ +
Tareas: clasificación de imágenes, subtitulación de imágenes, VQA

Kosmos-2: modelos de lenguaje grande multimodal para el mundo

Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei

Fecha: 2023-07-26
Modalidades : ? ️ +
Tareas: subtitulación de imágenes, VQA, frase a tierra

OWLV2: escala de detección de objetos de vocabulario abierto

Matthias Minderer, Alexey Gritsenko, Neil Houlsby

Fecha: 2023-06-17
Modalidades : ? ️
Tareas: detección de objetos de disparo cero

ImageBind: Un espacio de incrustación para unirlos a todos

Rohit Girdhar, Alaaeldin El-Noubby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra

Fecha: 2023-05-09
Modalidades : ? ️ + +
Tareas:

Llava: Asistente de lenguaje y visión grande

Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

Fecha: 2023-04-17
Modalidades : ? ️ +
Tareas: modelado de lenguaje de visión

Segmento cualquier cosa

Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen LO, Piotr Dollár, Ross Girshick

Fecha: 2023-04-05
Modalidades : ? ️
Tareas: segmentación de objetos de disparo cero

Dino de tierra: casarse con dino con pre-entrenamiento conectado a tierra para detección de objetos abiertos

Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang

Fecha: 2023-03-09
Modalidades : ? ️ +
Tareas: frase a tierra, detección de objetos de disparo cero

BLIP-2: Bootstrapping Language-Image Pretringing con codificadores de imágenes congeladas y modelos de idiomas grandes

Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi

Fecha: 2023-01-30
Modalidades : ? ️ +
Tareas: subtitulación de imágenes, respuesta de preguntas visuales

Whisper: Reconocimiento de voz robusto a través de una supervisión débil a gran escala

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

Fecha: 2022-12-06
Modalidades: ️ +
Tareas: habla a texto

OWL-VIT: Detección simple de objetos de vocabulario abierto con transformadores de visión

Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, Neil Houlsby

Fecha: 2022-05-12
Modalidades : ? ️ +
Tareas: detección de objetos de disparo cero

Clip: Aprender modelos visuales transferibles a partir de la supervisión del lenguaje natural

Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever

Fecha: 2021-02-26
Modalidades : ? ️ +
Tareas: clasificación de disparo cero

? contribución

¡Nos encantaría su ayuda para hacer que este repositorio sea aún mejor! Si conoce un artículo increíble que no se enumera aquí, o si tiene alguna sugerencia de mejora, no dude en abrir un problema o enviar una solicitud de extracción.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-16
tamaño 12.6KB
Proviene de Github

Aplicaciones relacionadas

awesome citygml

2024-11-13
llama models

2024-11-10
awesome generative ai guide

2024-11-05
pytorch image models

2024-11-03
awesome swift

2024-11-03
El anuncio impresionante

2022-08-08

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo