Fundação incrível e modelos multimodais
? ️ + + =?
Modelo de Fundação - Um modelo de aprendizado de máquina pré -treinado que serve como base para uma ampla gama de tarefas a jusante. Ele captura o conhecimento geral de um grande conjunto de dados e pode ser ajustado para executar tarefas específicas com mais eficiência.
Modelo multimodal - um modelo que pode processar várias modalidades (por exemplo, texto, imagem, vídeo, áudio etc.) ao mesmo tempo.
? modelos
YOLO-WORLD: Detecção de objetos-vocabulares abertos em tempo real
Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
- Data: 2024-01-30
- Modalidades : ? ️ +
- Tarefas: Detecção de objeto com tiro zero
Profundidade qualquer coisa
Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
- Data: 2024-01-19
- Modalidades : ?
- Tarefas: estimativa de profundidade
Eficientsam: Imagem mascarada alavancada pré -treinamento para segmento eficiente qualquer coisa
Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra
- Data: 2023-12-01
- Modalidades : ? ️
- Tarefas: segmentação de objetos zero-tiro
QWEN-VL-PLUS / MAX
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- Data: 2023-11-28
- Modalidades : ? ️ +
- Tarefas: Legenda de imagem, VQA, detecção de objetos zero-tiro
Cogvlm: especialista visual para modelos de idiomas pré -criados
Weihan Wang, Qingsong LV, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui JI, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Ju, Junzi Li, Yuxiao Dong, Ming Ding,
- Data: 2023-11-06
- Modalidades : ? ️ +
- Tarefas: Legenda de imagem, VQA
Fuyu-8b: Uma arquitetura multimodal para agentes de IA
Rohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, Sağnak Taşırlar
- Data: 2023-10-17
- Modalidades : ? ️ +
- Tarefas: Classificação da imagem, Legenda de imagem, VQA, Encontre texto na imagem
Ferret: consulte e aterre qualquer coisa em qualquer lugar em qualquer granularidade
Haoxuan você, Haotian Zhang, Zhe Gan, Xianzhi DU, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
- Data: 2023-10-11
- Modalidades : ? ️ +
- Tarefas: Legenda de imagem, VQA, fundição de frase, detecção de objetos
Metaclip: desmistificação de dados do clipe
Hu Xu, Singing Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer
- Data: 2023-09-28
- Modalidades : ? ️ +
- Tarefas: classificação zero-tiro
QWEN-VL: Um modelo versátil de linguagem de visão para compreensão, localização, leitura de texto e além
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- Data: 2023-09-24
- Modalidades : ? ️ +
- Tarefas: Legenda de imagem, VQA
Siglip: perda sigmóide para a imagem do idioma pré-treinamento
Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer
- Data: 2023-08-27
- Modalidades : ? ️
- Tarefas: Classificação de imagem com tiro zero
Nougat: entendimento óptico neural para documentos acadêmicos
Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic
- Data: 2023-08-25
- Modalidades : ? ️
- Tarefas: Resposta de perguntas visuais
Audioldm 2: Aprendendo geração holística de áudio com pré-treinamento auto-supervisionado
Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Sim Wang, Wenwu Wang, Yuxuan Wang, Mark D.
- Data: 2023-08-10
- Modalidades: ️ +
- Tarefas: Texto para áudio, texto em fala
OpenFlamingo: uma estrutura de código aberto para treinar grandes modelos de linguagem de visão autoregressiva
Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Marathe de Kalyani, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Kohmsman, Gabrel, Gabrel, Jitsev, Simon Kornblith, Pang, Wei Kohitha, Gabrel, Gabrel, Jitsev.
- Data: 2023-08-02
- Modalidades : ? ️ +
- Tarefas: Classificação da imagem, Legenda de imagem, VQA
KOSMOS-2: Modelos de linguagem grande multimodal de aterramento para o mundo
Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei
- Data: 2023-07-26
- Modalidades : ? ️ +
- Tarefas: Legenda de imagem, VQA, Frase Grounding
OWLV2: Escalando a detecção de objetos-vocabulares abertos
Matthias Minderer, Alexey Gritsenko, Neil Houlsby
- Data: 2023-06-17
- Modalidades : ? ️
- Tarefas: Detecção de objeto com tiro zero
ImageBind: um espaço de incorporação para vincular todos eles
Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra
- Data: 2023-05-09
- Modalidades : ?
- Tarefas:
Llava: grande linguagem e assistente de visão
Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
- Data: 2023-04-17
- Modalidades : ? ️ +
- Tarefas: Modelagem da linguagem da visão
Segmentar qualquer coisa
Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Girshick Ross Girshick
- Data: 2023-04-05
- Modalidades : ? ️
- Tarefas: segmentação de objetos zero-tiro
Dino aterrado: casar o dino com pré-treinamento fundamentado para detecção de objetos de sexo aberto
Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang
- Data: 2023-03-09
- Modalidades : ? ️ +
- Tarefas: fundição de frase, detecção de objetos com tiro zero
BLIP-2: PRÉ-TREINAM
Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi
- Data: 2023-01-30
- Modalidades : ? ️ +
- Tarefas: Legenda de imagem, resposta visual para responder
Whisper: reconhecimento robusto de fala por meio de supervisão fraca em larga escala
Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever
- Data: 2022-12-06
- Modalidades: ️ +
- Tarefas: fala para texto
Owl-Vit: Detecção de objetos de vocabulário aberto simples com transformadores de visão
Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, Neil Houlsby
- Data: 2022-05-12
- Modalidades : ? ️ +
- Tarefas: Detecção de objeto com tiro zero
Clipe: Aprendendo modelos visuais transferíveis da supervisão da linguagem natural
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
- Data: 2021-02-26
- Modalidades : ? ️ +
- Tarefas: classificação zero-tiro
? contribuição
Adoraríamos sua ajuda para tornar este repositório ainda melhor! Se você conhece um artigo incrível que não está listado aqui ou se tiver alguma sugestão de melhoria, fique à vontade para abrir um problema ou enviar uma solicitação de tração.