Téléchargement awesome foundation and multimodal models - awesome foundation and multimodal models Téléchargement du code source

awesome foundation and multimodal models

Autre code source

1.0.0

Télécharger

Foundations impressionnantes et modèles multimodaux

? ️ + + =?

Modèle de fondation - Un modèle d'apprentissage automatique pré-formé qui sert de base à une large gamme de tâches en aval. Il capture les connaissances générales d'un grand ensemble de données et peut être affinée pour effectuer des tâches spécifiques plus efficacement.

Modèle multimodal - un modèle qui peut traiter plusieurs modalités (par exemple, texte, image, vidéo, audio, etc.) en même temps.

? modèles

YOLO-WORLD: Détection d'objets ouverts en temps réel

Tianheng Cheng, Lin Song, Yixiao GE, Wenyu Liu, Xinggang Wang, Ying Shan

Date: 2024-01-30
Modalités : ? ️ +
Tâches: détection d'objets à tirs zéro

Profondeur quoi que ce soit

Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

Date: 2024-01-19
Modalités : ?
Tâches: estimation de la profondeur

Efficientsam: Image masquée à effet de levier pré-formation pour un segment efficace quoi que ce soit

Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra

Date: 2023-12-01
Modalités : ? ️
Tâches: segmentation d'objets à tirs zéro

Qwen-vl-Plus / Max

Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

Date: 2023-11-28
Modalités : ? ️ +
Tâches: Le sous-titrage de l'image, VQA, détection d'objets zéro-shot

COGVLM: expert visuel pour les modèles de langue pré-entraînés

Weihan Wang, Qingsong LV, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang, Jie Tang

Date: 2023-11-06
Modalités : ? ️ +
Tâches: sous-titrage de l'image, VQA

Fuyu-8b: une architecture multimodale pour les agents de l'IA

Rohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, Sağnak Taşırlar

Date: 2023-10-17
Modalités : ? ️ +
Tâches: classification d'image, sous-titrage de l'image, VQA, recherchez du texte dans l'image

Ferret: référer et fonder n'importe quoi n'importe où à n'importe quelle granularité

Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangiang Cao, Shih-Fu Chang, Yinfei Yang

Date: 2023-10-11
Modalités : ? ️ +
Tâches: sous-titrage de l'image, VQA, mise à la terre des phrases, détection d'objets

Metaclip: démystification des données de clip

Hu Xu, Sounting Xie, Xiaoqing Ellen Tan, Po-yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer

Date: 2023-09-28
Modalités : ? ️ +
Tâches: classification zéro

Qwen-vl: un modèle polyvalent de langue visuelle pour la compréhension, la localisation, la lecture de texte et au-delà

Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou

Date: 2023-09-24
Modalités : ? ️ +
Tâches: sous-titrage de l'image, VQA

Siglip: perte sigmoïde pour l'image linguistique pré-formation

Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer

Date: 2023-08-27
Modalités : ? ️
Tâches: classification d'image à tirs zéro

Nougat: compréhension optique neurale des documents académiques

Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic

Date: 2023-08-25
Modalités : ? ️
Tâches: question visuelle répondant

Audioldm 2: Apprendre la génération d'audio holistique avec pré-formation auto-supervisée

Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumpyy

Date: 2023-08-10
Modalités: ️ +
Tâches: text-to-audio, text-to-dispeops

OpenFlamingo: un cadre open source pour la formation de grands modèles de langue de vision autorégressifs

Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchll

Date: 2023-08-02
Modalités : ? ️ +
Tâches: classification d'image, sous-titrage de l'image, VQA

Kosmos-2: mise à la terre des modèles de grande langue multimodaux au monde

Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming MA, Furu Wei

Date: 2023-07-26
Modalités : ? ️ +
Tâches: sous-titrage de l'image, VQA, mise à la terre des phrases

OWLV2: Échelle de détection d'objets à vocabulaire ouvert

Matthias Minderer, Alexey Gritssenko, Neil Houlsby

Date: 2023-06-17
Modalités : ? ️
Tâches: détection d'objets à tirs zéro

ImageBind: un espace d'intégration pour les lier tous

Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra

Date: 2023-05-09
Modalités : ? ️ + +
Tâches:

LLAVA: Assistant grand langage et vision

Haotian Liu, Chunyuan Li, Qingyang WU, Yong Jae Lee

Date: 2023-04-17
Modalités : ? ️ +
Tâches: modélisation du langage de vision

Segmenter quoi que ce soit

Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick

Date: 2023-04-05
Modalités : ? ️
Tâches: segmentation d'objets à tirs zéro

Dino à la mise à la terre: épouser un dino avec une pré-formation ancrée pour la détection d'objets ouverts

Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang

Date: 2023-03-09
Modalités : ? ️ +
Tâches: mise à la terre des phrases, détection d'objets zéro-shot

Blip-2: Bootstrap-Image-Image pré-formation avec des encodeurs d'image surgelés et des modèles de gros langues

Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi

Date: 2023-01-30
Modalités : ? ️ +
Tâches: sous-titrage de l'image, réponse aux questions visuelles

Whisper: Robust Disory Reconnaissance via une faible supervision à grande échelle

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

Date: 2022-12-06
Modalités: ️ +
Tâches: discours à texte

OWL-VIT: Détection d'objets ouverts simples avec transformateurs de vision

Matthias Minderer, Alexey Gritssenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mosfa Dehghani, Zhuoran Shen, Xiao Wang, XiaoHua Zhai, Thomas Kipf, NEIL HOULSBY

Date: 2022-05-12
Modalités : ? ️ +
Tâches: détection d'objets à tirs zéro

Clip: Apprentissage des modèles visuels transférables de la supervision du langage naturel

Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever

Date: 2021-02-26
Modalités : ? ️ +
Tâches: classification zéro

? contribution

Nous aimerions votre aide pour rendre ce référentiel encore meilleur! Si vous connaissez un article incroyable qui n'est pas répertorié ici, ou si vous avez des suggestions d'amélioration, n'hésitez pas à ouvrir un problème ou à soumettre une demande de traction.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 12.6KB
Provenant de Github

Applications connexes

awesome citygml

2024-11-13
llama models

2024-11-10
awesome generative ai guide

2024-11-05
pytorch image models

2024-11-03
awesome swift

2024-11-03
La superbe publicité

2022-08-08

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout