Awesome Foundation и мультимодальные модели
? ️ + + =?
Фонд -модель - предварительно обученная модель машинного обучения, которая служит основой для широкого спектра нижестоящих задач. Он фиксирует общие знания из большого набора данных и может быть точно настроен для более эффективного выполнения конкретных задач.
Мультимодальная модель - модель, которая может обрабатывать несколько модальностей (например, текст, изображение, видео, аудио и т. Д.) В одно и то же время.
? модели
WOLO-WORLD: Обнаружение объекта в реальном времени в реальном времени
Tianheng Cheng, Lin Song, Yixiao GE, Wenyu Liu, Singgang Wang, Ying Shan
- Дата: 2024-01-30
- Модальности:? ️ +
- Задачи: обнаружение объекта с нулевым выстрелом
Глубина всего
Лихе Ян, Бинги Кан, Зилонг Хуанг, Сяаганг Сюй, Цзяши Фенг, Хенгшуан Чжао
- Дата: 2024-01-19
- Модальности:?
- Задачи: оценка глубины
EfficientAm: обработанное изображение в масках
Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra
- Дата: 2023-12-01
- Модальности:? ️
- Задачи: сегментация объектов с нулевым выстрелом
QWEN-VL-PLUS / MAX
Джинзе Бай, Шуай Бай, Шушенг Ян, Шиджи Ван, Синан Тан, Пенг Ван, Юньянг Лин, Чанг Чжоу, Цзинрен Чжоу
- Дата: 2023-11-28
- Модальности:? ️ +
- Задачи: Подпись изображения, VQA, обнаружение объекта с нулевым выстрелом
Cogvlm: Visual Expert для предварительно проведенных языковых моделей
Вейхан Ванг, Цинсонг Л.В., Венменг Ю., Вени Хонг, Джи Ци, Ян Ванг, Джунхуи Джи, Чжуайя Ян, Лей Чжао, Сенг Сюань, Джиажхенг Сю, бин Сю, Хуанзи Ли, Йусио Донг, Мин Дин, Джи Танг
- Дата: 2023-11-06
- Модальности:? ️ +
- Задачи: Подпись изображения, VQA
Fuyu-8b: мультимодальная архитектура для агентов ИИ
Рохан Бавиши, Эрих Эльсен, Кертис Хоторн, Максвелл Най, Август Оден, Аруши Сомани, Санак Таширлар
- Дата: 2023-10-17
- Модальности:? ️ +
- Задачи: классификация изображений, подписание изображения, VQA, найти текст в изображении
Хорька: обратитесь и заземляйте что угодно в любом месте в любой гранулярности
Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-fu Chang, Yinfei Yang
- Дата: 2023-10-11
- Модальности:? ️ +
- Задачи: Подпись изображения, VQA, фраза заземления, обнаружение объекта
METACLIP: демистификация данных клипа
Ху Сюй, Санинг Си, Сяокин Эллен Тан, По-яо Хуан, Рассел Хоус, Васу Шарма, Шан-Вэнь Ли, Гарги Гош, Люк Зеттлемуер, Кристоф Фейхтенхофер
- Дата: 2023-09-28
- Модальности:? ️ +
- Задачи: классификация с нулевым выстрелом
QWEN-VL: универсальная модель на языке зрения для понимания, локализации, чтения текста и за его пределами
Джинзе Бай, Шуай Бай, Шушенг Ян, Шиджи Ван, Синан Тан, Пенг Ван, Юньянг Лин, Чанг Чжоу, Цзинрен Чжоу
- Дата: 2023-09-24
- Модальности:? ️ +
- Задачи: Подпись изображения, VQA
Siglip: Sigmoid Потеря для обучения языковым изображениям
Сяохуа Чжая, Базилий Мустафа, Александр Колесников, Лукас Бейер
- Дата: 2023-08-27
- Модальности:? ️
- Задачи: классификация изображений с нулевым выстрелом
Nougat: нейронное оптическое понимание для академических документов
Лукас Блехер, Гильем Кукурулл, Томас Сцилом, Роберт Стойник
- Дата: 2023-08-25
- Модальности:? ️
- Задачи: Ответ на визуальный вопрос
Audioldm 2: изучение целостного генерации аудио с самоотверженной предварительной подготовкой
Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley
- Дата: 2023-08-10
- Модальности: ️ +
- Задачи: текст к Аудио, текст в речь
OpenFlamingo: рамка с открытым исходным кодом для обучения крупных авторегрессивных моделей на языке зрения
Анас Авадалла, Ирена Гао, Джош Гарднер, Джек Хессель, Юсуф Ханафи, Ванрон Чжу, Каляни Марат, Йонатан Биттон, Самир Гадра, Шиори Сагава, Дженя Джитевв, Саймон Корнблит, Пан Вей Ко, Габриэль Илхарко, Митчелл, Митчелл, Митчелл, Митчелл, Митчелл, Митчелл.
- Дата: 2023-08-02
- Модальности:? ️ +
- Задачи: классификация изображений, подписание изображения, VQA
Kosmos-2: обоснование мультимодальных крупных языковых моделей в мир
Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming MA, Furu Wei
- Дата: 2023-07-26
- Модальности:? ️ +
- Задачи: Подпись изображения, VQA, фраза заземления
OWLV2: масштабирование обнаружения открытых вокабуляционных объектов
Матиас Миндерер, Алексей Гритсенко, Нил Хоулсби
- Дата: 2023-06-17
- Модальности:? ️
- Задачи: обнаружение объекта с нулевым выстрелом
ImageBind: Одно встраиваю пространство, чтобы связать их все
Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra
- Дата: 2023-05-09
- Модальности:? ️ + +
- Задачи:
Llava: большой ассистент языка и видения
Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
- Дата: 2023-04-17
- Модальности:? ️ +
- Задачи: моделирование языка зрения
Сегмент что угодно
Александр Кириллов, Эрик Минтун, Нихила Рави, Ханзи Мао, Хлоя Ролланд, Лора Густафсон, Тет Сяо, Спенсер Уайтхед, Александр С. Берг, Ван-Йен Ло, Петр Доллр, Росс Гиршик
- Дата: 2023-04-05
- Модальности:? ️
- Задачи: сегментация объектов с нулевым выстрелом
Заземление Дино: жениться на Дино с заземленным предварительным тренировком для обнаружения объекта с открытым набором
Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang
- Дата: 2023-03-09
- Модальности:? ️ +
- Задачи: фраза заземления, обнаружение объекта с нулевым выстрелом
BLIP-2: предварительное обучение на основе обработки языка с замороженными кодерами изображения и большими языковыми моделями
Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi
- Дата: 2023-01-30
- Модальности:? ️ +
- Задачи: Подпись изображения, визуальный вопрос ответа
Шепот: надежное распознавание речи с помощью крупномасштабного слабого надзора
Алек Рэдфорд, Чон Вук Ким, Тао Сюй, Грег Брокман, Кристина Маклави, Илья Сутскевер
- Дата: 2022-12-06
- Модальности: ️ +
- Задачи: речь к тексту
Owl-Vit: простое обнаружение объектов с открытым вокабуляцией с трансформаторами зрения
Матиас Миндерер, Алексей Гритсенко, Остин Стоун, Максим Нейманн, Дирк Вайссенборн, Алексей Досовицкий, Аравинд Махендран, Анураг Арнаб, Мостафа Дехгани, Чжуоран Шен, Сяо Ван, Сяохуа Чжай, Томас Кипф, Нейл Хулсби
- Дата: 2022-05-12
- Модальности:? ️ +
- Задачи: обнаружение объекта с нулевым выстрелом
CLIP: Обучение переносимым визуальным моделям из естественного языка надзора
Алек Рэдфорд, Чон Вук Ким, Крис Халласи, Адитья Рамеш, Габриэль Го, Сандхини Агарвал, Гириш Штри, Аманда Аскалл, Памела Мишкин, Джек Кларк, Гретхен Крюгер, Илья Сатскевер
- Дата: 2021-02-26
- Модальности:? ️ +
- Задачи: классификация с нулевым выстрелом
? вклад
Мы хотели бы вашей помощи в том, чтобы сделать этот репозиторий еще лучше! Если вы знаете об удивительной статье, которая здесь не указана, или если у вас есть какие -либо предложения по улучшению, не стесняйтесь открывать проблему или отправить запрос на привлечение.