awesome foundation and multimodal models Download - awesome foundation and multimodal models Download de código fonte

awesome foundation and multimodal models

Outro código-fonte

1.0.0

Baixar

Fundação incrível e modelos multimodais

? ️ + + =?

Modelo de Fundação - Um modelo de aprendizado de máquina pré -treinado que serve como base para uma ampla gama de tarefas a jusante. Ele captura o conhecimento geral de um grande conjunto de dados e pode ser ajustado para executar tarefas específicas com mais eficiência.

Modelo multimodal - um modelo que pode processar várias modalidades (por exemplo, texto, imagem, vídeo, áudio etc.) ao mesmo tempo.

? modelos

YOLO-WORLD: Detecção de objetos-vocabulares abertos em tempo real

Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan

Data: 2024-01-30
Modalidades : ? ️ +
Tarefas: Detecção de objeto com tiro zero

Profundidade qualquer coisa

Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

Data: 2024-01-19
Modalidades : ?
Tarefas: estimativa de profundidade

Eficientsam: Imagem mascarada alavancada pré -treinamento para segmento eficiente qualquer coisa

Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra

Data: 2023-12-01
Modalidades : ? ️
Tarefas: segmentação de objetos zero-tiro

QWEN-VL-PLUS / MAX

Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

Data: 2023-11-28
Modalidades : ? ️ +
Tarefas: Legenda de imagem, VQA, detecção de objetos zero-tiro

Cogvlm: especialista visual para modelos de idiomas pré -criados

Weihan Wang, Qingsong LV, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui JI, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Ju, Junzi Li, Yuxiao Dong, Ming Ding,

Data: 2023-11-06
Modalidades : ? ️ +
Tarefas: Legenda de imagem, VQA

Fuyu-8b: Uma arquitetura multimodal para agentes de IA

Rohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, Sağnak Taşırlar

Data: 2023-10-17
Modalidades : ? ️ +
Tarefas: Classificação da imagem, Legenda de imagem, VQA, Encontre texto na imagem

Ferret: consulte e aterre qualquer coisa em qualquer lugar em qualquer granularidade

Haoxuan você, Haotian Zhang, Zhe Gan, Xianzhi DU, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang

Data: 2023-10-11
Modalidades : ? ️ +
Tarefas: Legenda de imagem, VQA, fundição de frase, detecção de objetos

Metaclip: desmistificação de dados do clipe

Hu Xu, Singing Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer

Data: 2023-09-28
Modalidades : ? ️ +
Tarefas: classificação zero-tiro

QWEN-VL: Um modelo versátil de linguagem de visão para compreensão, localização, leitura de texto e além

Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

Data: 2023-09-24
Modalidades : ? ️ +
Tarefas: Legenda de imagem, VQA

Siglip: perda sigmóide para a imagem do idioma pré-treinamento

Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer

Data: 2023-08-27
Modalidades : ? ️
Tarefas: Classificação de imagem com tiro zero

Nougat: entendimento óptico neural para documentos acadêmicos

Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic

Data: 2023-08-25
Modalidades : ? ️
Tarefas: Resposta de perguntas visuais

Audioldm 2: Aprendendo geração holística de áudio com pré-treinamento auto-supervisionado

Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Sim Wang, Wenwu Wang, Yuxuan Wang, Mark D.

Data: 2023-08-10
Modalidades: ️ +
Tarefas: Texto para áudio, texto em fala

OpenFlamingo: uma estrutura de código aberto para treinar grandes modelos de linguagem de visão autoregressiva

Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Marathe de Kalyani, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Kohmsman, Gabrel, Gabrel, Jitsev, Simon Kornblith, Pang, Wei Kohitha, Gabrel, Gabrel, Jitsev.

Data: 2023-08-02
Modalidades : ? ️ +
Tarefas: Classificação da imagem, Legenda de imagem, VQA

KOSMOS-2: Modelos de linguagem grande multimodal de aterramento para o mundo

Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei

Data: 2023-07-26
Modalidades : ? ️ +
Tarefas: Legenda de imagem, VQA, Frase Grounding

OWLV2: Escalando a detecção de objetos-vocabulares abertos

Matthias Minderer, Alexey Gritsenko, Neil Houlsby

Data: 2023-06-17
Modalidades : ? ️
Tarefas: Detecção de objeto com tiro zero

ImageBind: um espaço de incorporação para vincular todos eles

Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra

Data: 2023-05-09
Modalidades : ?
Tarefas:

Llava: grande linguagem e assistente de visão

Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

Data: 2023-04-17
Modalidades : ? ️ +
Tarefas: Modelagem da linguagem da visão

Segmentar qualquer coisa

Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Girshick Ross Girshick

Data: 2023-04-05
Modalidades : ? ️
Tarefas: segmentação de objetos zero-tiro

Dino aterrado: casar o dino com pré-treinamento fundamentado para detecção de objetos de sexo aberto

Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang

Data: 2023-03-09
Modalidades : ? ️ +
Tarefas: fundição de frase, detecção de objetos com tiro zero

BLIP-2: PRÉ-TREINAM

Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi

Data: 2023-01-30
Modalidades : ? ️ +
Tarefas: Legenda de imagem, resposta visual para responder

Whisper: reconhecimento robusto de fala por meio de supervisão fraca em larga escala

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

Data: 2022-12-06
Modalidades: ️ +
Tarefas: fala para texto

Owl-Vit: Detecção de objetos de vocabulário aberto simples com transformadores de visão

Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, Neil Houlsby

Data: 2022-05-12
Modalidades : ? ️ +
Tarefas: Detecção de objeto com tiro zero

Clipe: Aprendendo modelos visuais transferíveis da supervisão da linguagem natural

Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever

Data: 2021-02-26
Modalidades : ? ️ +
Tarefas: classificação zero-tiro

? contribuição

Adoraríamos sua ajuda para tornar este repositório ainda melhor! Se você conhece um artigo incrível que não está listado aqui ou se tiver alguma sugestão de melhoria, fique à vontade para abrir um problema ou enviar uma solicitação de tração.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 12.6KB
Vindo de Github

Aplicativos Relacionados

awesome citygml

2024-11-13
llama models

2024-11-10
awesome generative ai guide

2024-11-05
pytorch image models

2024-11-03
awesome swift

2024-11-03
O anúncio incrível

2022-08-08

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos