Foundations impressionnantes et modèles multimodaux
? ️ + + =?
Modèle de fondation - Un modèle d'apprentissage automatique pré-formé qui sert de base à une large gamme de tâches en aval. Il capture les connaissances générales d'un grand ensemble de données et peut être affinée pour effectuer des tâches spécifiques plus efficacement.
Modèle multimodal - un modèle qui peut traiter plusieurs modalités (par exemple, texte, image, vidéo, audio, etc.) en même temps.
? modèles
YOLO-WORLD: Détection d'objets ouverts en temps réel
Tianheng Cheng, Lin Song, Yixiao GE, Wenyu Liu, Xinggang Wang, Ying Shan
- Date: 2024-01-30
- Modalités : ? ️ +
- Tâches: détection d'objets à tirs zéro
Profondeur quoi que ce soit
Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
- Date: 2024-01-19
- Modalités : ?
- Tâches: estimation de la profondeur
Efficientsam: Image masquée à effet de levier pré-formation pour un segment efficace quoi que ce soit
Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra
- Date: 2023-12-01
- Modalités : ? ️
- Tâches: segmentation d'objets à tirs zéro
Qwen-vl-Plus / Max
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- Date: 2023-11-28
- Modalités : ? ️ +
- Tâches: Le sous-titrage de l'image, VQA, détection d'objets zéro-shot
COGVLM: expert visuel pour les modèles de langue pré-entraînés
Weihan Wang, Qingsong LV, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang, Jie Tang
- Date: 2023-11-06
- Modalités : ? ️ +
- Tâches: sous-titrage de l'image, VQA
Fuyu-8b: une architecture multimodale pour les agents de l'IA
Rohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, Sağnak Taşırlar
- Date: 2023-10-17
- Modalités : ? ️ +
- Tâches: classification d'image, sous-titrage de l'image, VQA, recherchez du texte dans l'image
Ferret: référer et fonder n'importe quoi n'importe où à n'importe quelle granularité
Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangiang Cao, Shih-Fu Chang, Yinfei Yang
- Date: 2023-10-11
- Modalités : ? ️ +
- Tâches: sous-titrage de l'image, VQA, mise à la terre des phrases, détection d'objets
Metaclip: démystification des données de clip
Hu Xu, Sounting Xie, Xiaoqing Ellen Tan, Po-yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer
- Date: 2023-09-28
- Modalités : ? ️ +
- Tâches: classification zéro
Qwen-vl: un modèle polyvalent de langue visuelle pour la compréhension, la localisation, la lecture de texte et au-delà
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- Date: 2023-09-24
- Modalités : ? ️ +
- Tâches: sous-titrage de l'image, VQA
Siglip: perte sigmoïde pour l'image linguistique pré-formation
Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer
- Date: 2023-08-27
- Modalités : ? ️
- Tâches: classification d'image à tirs zéro
Nougat: compréhension optique neurale des documents académiques
Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic
- Date: 2023-08-25
- Modalités : ? ️
- Tâches: question visuelle répondant
Audioldm 2: Apprendre la génération d'audio holistique avec pré-formation auto-supervisée
Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumpyy
- Date: 2023-08-10
- Modalités: ️ +
- Tâches: text-to-audio, text-to-dispeops
OpenFlamingo: un cadre open source pour la formation de grands modèles de langue de vision autorégressifs
Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchll
- Date: 2023-08-02
- Modalités : ? ️ +
- Tâches: classification d'image, sous-titrage de l'image, VQA
Kosmos-2: mise à la terre des modèles de grande langue multimodaux au monde
Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming MA, Furu Wei
- Date: 2023-07-26
- Modalités : ? ️ +
- Tâches: sous-titrage de l'image, VQA, mise à la terre des phrases
OWLV2: Échelle de détection d'objets à vocabulaire ouvert
Matthias Minderer, Alexey Gritssenko, Neil Houlsby
- Date: 2023-06-17
- Modalités : ? ️
- Tâches: détection d'objets à tirs zéro
ImageBind: un espace d'intégration pour les lier tous
Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra
- Date: 2023-05-09
- Modalités : ? ️ + +
- Tâches:
LLAVA: Assistant grand langage et vision
Haotian Liu, Chunyuan Li, Qingyang WU, Yong Jae Lee
- Date: 2023-04-17
- Modalités : ? ️ +
- Tâches: modélisation du langage de vision
Segmenter quoi que ce soit
Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick
- Date: 2023-04-05
- Modalités : ? ️
- Tâches: segmentation d'objets à tirs zéro
Dino à la mise à la terre: épouser un dino avec une pré-formation ancrée pour la détection d'objets ouverts
Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang
- Date: 2023-03-09
- Modalités : ? ️ +
- Tâches: mise à la terre des phrases, détection d'objets zéro-shot
Blip-2: Bootstrap-Image-Image pré-formation avec des encodeurs d'image surgelés et des modèles de gros langues
Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi
- Date: 2023-01-30
- Modalités : ? ️ +
- Tâches: sous-titrage de l'image, réponse aux questions visuelles
Whisper: Robust Disory Reconnaissance via une faible supervision à grande échelle
Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever
- Date: 2022-12-06
- Modalités: ️ +
- Tâches: discours à texte
OWL-VIT: Détection d'objets ouverts simples avec transformateurs de vision
Matthias Minderer, Alexey Gritssenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mosfa Dehghani, Zhuoran Shen, Xiao Wang, XiaoHua Zhai, Thomas Kipf, NEIL HOULSBY
- Date: 2022-05-12
- Modalités : ? ️ +
- Tâches: détection d'objets à tirs zéro
Clip: Apprentissage des modèles visuels transférables de la supervision du langage naturel
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
- Date: 2021-02-26
- Modalités : ? ️ +
- Tâches: classification zéro
? contribution
Nous aimerions votre aide pour rendre ce référentiel encore meilleur! Si vous connaissez un article incroyable qui n'est pas répertorié ici, ou si vous avez des suggestions d'amélioration, n'hésitez pas à ouvrir un problème ou à soumettre une demande de traction.