Потрясающие документы с искусственным искусством ️
Описание
Этот репозиторий является актуальным списком значительных документов AI, организованных датой публикации. Он охватывает пять полей: компьютерное зрение, обработка естественного языка, обработка аудио, мультимодальное обучение и обучение подкреплению. Не стесняйтесь придать этому репозиторию звезду, если вам нравится работа.
Содействие: Aimerou ndiaye
Оглавление
- 2023 Документы
- Компьютерное зрение
- Обработка естественного языка
- Аудио -обработка
- Мультимодальное обучение
- Подкрепление обучения
- Другие документы
- 2022 Документы
- Компьютерное зрение
- Обработка естественного языка
- Аудио -обработка
- Мультимодальное обучение
- Подкрепление обучения
- Другие документы
- Исторические документы
Таксономия
Чтобы выбрать наиболее соответствующие документы, мы выбрали субъективные ограничения с точки зрения количества цитат. Каждый значок здесь обозначает тип бумаги, который соответствует одному из этих критериев.
? Историческая статья: более 10 тыс. Цитатов и решающее влияние на эволюцию ИИ.
Важная статья: более 50 цитат и современные результаты.
⏫ Тенденция: от 1 до 50 цитат, недавняя и инновационная статья с растущим внедрением.
? Важная статья: решающая работа, которая не сопровождалась исследовательской работой.
2023 Документы
Компьютерное зрение
- 01/2023: Muse: Generation Text To-Image Generation Generative Transformers (Muse)
- 02/2023: Структура и синтез видео, управляемых контентом с диффузионными моделями (Gen-1)
- 02/2023: масштабирование трансформаторов зрения до 22 миллиардов параметров (Vit 22b)
- 02/2023: Добавление условного управления к моделям диффузии текста до изображения (ControlNet)
- 03/2023: Visual Chatgpt: разговор, рисование и редактирование с моделями Visual Foundation (Visual Catgpt)
- 03/2023: масштабирование Gans для синтеза текста к изображению (Gigagan)
- 04/2023: сегмент что угодно (SAM)
- 04/2023: DINOV2: Обучение надежными визуальными функциями без надзора (DINOV2)
- 04/2023: настройка визуальных инструкций
- 04/2023: Совместите свои задержки: синтез видео с высоким разрешением с скрытыми диффузионными моделями (Videoldm)
- 04/2023: Синтетические данные из диффузионных моделей улучшают классификацию ImageNet
- 04/2023: сегмент что угодно на медицинских изображениях (Medsam)
- 05/2023: Перетащите свой GAN: интерактивные манипуляции на основе точек на генеративном коллекторе изображения (Draggan)
- 06/2023: Neuralangelo: реконструкция нейронной поверхности с высокой точностью (Neuralangelo)
- 07/2023: SDXL: улучшение моделей скрытой диффузии для синтеза изображения с высоким разрешением (SDXL)
- 08/2023: 3d гауссовый разбрызгивание для поля сияния в реальном времени
- 08/2023: QWEN-VL: универсальная модель на языке зрения для понимания, локализации ... (QWEN-VL)
- ⏫ 08/2023: MVDream: диффузия с несколькими просмотрами для 3D-поколения (MVDream)
- ⏫ 11/2023: Флоренция-2: продвижение единого представления для различных задач зрения (Флоренция-2)
- ⏫ 12/2023: VideoPoet: большая языковая модель для генерации видео с нулевым выстрелом (VideoPoet)
НЛП
- 01/2023: Detectgpt: обнаружение текста с ноль-выстрелом с использованием кривизны вероятности (Detectgpt)
- 02/2023: Toolformer: Языковые модели могут научить себя использовать инструменты (Toolformer)
- 02/2023: Llama: открытые и эффективные языковые модели фундамента (лама)
- ? 03/2023: GPT-4
- 03/2023: Спарки искусственного общего интеллекта: ранние эксперименты с GPT-4 (GPT-4 Eval)
- 03/2023: HuggingGpt: решение задач AI с Chatgpt и его друзьями в Huggingface (HuggingGpt)
- 03/2023: Bloomberggpt: большая языковая модель для финансов (Bloomberggpt)
- 04/2023: настройка инструкции с GPT-4
- 04/2023: Генеративные агенты: интерактивная симулякра человека (Gen Agents)
- 05/2023: Palm 2 Технический отчет (PALM-2)
- 05/2023: Дерево мыслей: преднамеренное решение проблем с большими языковыми моделями (TOT)
- 05/2023: Лима: меньше для выравнивания (Лима)
- 05/2023: Qlora: эффективное создание квантовых LLM (Qlora)
- 05/2023: Voyager: открытый воплощенный агент с большими языковыми моделями (Voyager)
- 07/2023: TOOLLLM: облегчение моделей крупных языков для освоения API-интерфейсов реального мира 16000+ (TOOLLLM)
- 08/2023: Метагпт: Мета программирование для многоагентной совместной структуры (Metagpt)
- 08/2023: Code Llama: Open Foundation Models для кода (код Llama)
- ⏫ 09/2023: RLAIF: масштабирование подкрепления, обучение от обратной связи с человеком с обратной связью с ИИ (RLAIF)
- 09/2023: Модели больших языков в качестве оптимизаторов (OPRO)
- ⏫ 10/2023: Eureka: дизайн вознаграждения на уровне человека через кодируя большие языковые модели (Eureka)
- ⏫ 12/2023: Математические открытия из программного поиска с большими языковыми моделями (Funsearch)
Аудио -обработка
- 01/2023: Языковые модели нейронного кодека представляют собой нулевой текст для синтезаторов речи (Vall-E)
- 01/2023: MusicLM: генерирование музыки из текста (MusicLM)
- 01/2023: Audioldm: Генерация текста в Аулио с скрытыми диффузионными моделями (Audioldm)
- 03/2023: Google USM: масштабирование автоматического распознавания речи за 100 языков (USM)
- 05/2023: масштабирование речевых технологий на 1000+ языках (MMS)
- ⏫ 06/2023: простое и контролируемое поколение музыки (MusicGen)
- ⏫ 06/2023: Audiopalm: большая языковая модель, которая может говорить и слушать (Audiopalm)
- ⏫ 06/2023: Voicebox: Text-Please Mullyringual Universal Speech Generation в Scale (Voicebox)
Мультимодальное обучение
- 02/2023: Язык-это не все, что вам нужно: Совместное восприятие с языковыми моделями (Kosmos-1)
- 03/2023: Palm-E: воплощенная мультимодальная языковая модель (Palm-E)
- 04/2023: Audiogpt: понимание и генерирование речи, музыки, звука и говорящей головы (Audiogpt)
- 05/2023: Imagebind: одно пространство для встраивания, чтобы связать их все (ImageBind)
- ⏫ 07/2023: масштабирование авторегрессивных мультимодальных моделей: предварительная подготовка и настройка инструкций (CM3Leon)
- ⏫ 07/2023: мета-трансформатор: унифицированная структура для мультимодального обучения (мета-трансформатор)
- ⏫ 08/2023: SeamlessM4T: массовый многоязычный и мультимодальный машинный перевод (SeamlessM4T)
Подкрепление обучения
- 01/2023: Освоение разнообразных доменов через мировые модели (Dreamerv3)
- ⏫ 02/2023: заземление больших языковых моделей в интерактивных средах с онлайн -RL (гламур)
- ⏫ 02/2023: Эффективное обучение онлайн -подкреплению с автономными данными (RLPD)
- ⏫ 03/2023: дизайн вознаграждения с языковыми моделями
- 05/2023: Прямая оптимизация предпочтений: ваша языковая модель тайно - модель вознаграждения (DPO)
- ⏫ 06/2023: быстрее алгоритмы сортировки обнаружены с использованием глубокого обучения подкреплению (Alphadev)
- ⏫ 08/2023: Мороторимерщик: ретроспективные крупные языковые агенты с оптимизацией градиента политики (Retroformer)
Другие документы
- 02/2023: Символическое обнаружение алгоритмов оптимизации (лев)
- 07/2023: RT-2: модели Vision-Language-Action Передают веб-знания на роботизированное управление (RT-2)
- ⏫ 11/2023: масштабирование глубокого обучения для обнаружения материалов (GNOME)
- ⏫ 12/2023: открытие структурного класса антибиотиков с объяснимым глубоким обучением
2022 Документы
Компьютерное зрение
- 01/2022: конвнета для 2020 -х годов (Convnext)
- 01/2022: патчи - это все, что вам нужно (Convmixer)
- 02/2022: Block-Snerf: масштабируемый большой сцену.
- 03/2022: DINO: DETR с улучшенными якорными коробками для обнаружения комплексных объектов (DINO)
- 03/2022: масштабирование ваших ядров до 31 × 31: пересмотр большой конструкции ядра в CNN (большое ядро CNN)
- 03/2022: Tensorf: Тенсиориальные поля сияния (Tensorf)
- 04/2022: MaxVIT: многооретный трансформатор зрения (MAXVIT)
- 04/2022: Иерархическое создание текстовых кондиционированных изображений с задержкой клип (Dall-e 2)
- 05/2022: фотореалистичные диффузионные модели текста к изображению с глубоким языком понимание (Imagen)
- 05/2022: GIT: генеративный трансформатор изображения в текст для видения и языка (GIT)
- 06/2022: CMT: сверточная нейронная сеть встречается с трансформаторами зрения (CMT)
- 07/2022: SWIN UNETR: SWIN Transformers для семантической сегментации опухолей головного мозга ... (SUNE UNETR)
- 07/2022: Руководство по диффузии без классификатора
- 08/2022: тонкая настройка диффузионных моделей текста до изображения для генерации, управляемого субъектом (Dreambooth)
- 09/2022: Dreamfusion: Text-To-3d с использованием 2D диффузии (DreamFusion)
- 09/2022: Make-a-Video: генерация текста-Video без данных текстового видео (Make-A-Video)
- 10/2022: при дистилляции моделей диффузии с гидом
- 10/2022: LAION-5B: открытый крупномасштабный набор данных для обучения моделей изображений следующего поколения (LAION-5B)
- 10/2022: Imagic: Редактирование реального изображения на основе текста с помощью диффузионных моделей (Imagic)
- 11/2022: настройка визуальной подсказки
- 11/2022: Magic3D: создание контента с высоким разрешением (Magic3D)
- 11/2022: DiffusionDet: диффузионная модель для обнаружения объекта (DiffusionDet)
- 11/2022: INSTRUCTPIX2PIX: Learning, чтобы следовать инструкциям по редактированию изображений (InstructPix2Pix)
- 12/2022: настройка мульти-концепции диффузии текста к изображению (индивидуальная диффузия)
- 12/2022: масштабируемые диффузионные модели с трансформаторами (DIT)
НЛП
- 01/2022: Lambda: языковые модели для диалоговых приложений (Lambda)
- 01/2022: побуждение к цепочке мыслей вызывает рассуждения в моделях крупных языков (COT)
- 02/2022: генерация кода на уровне конкуренции с помощью альфакода (альфакод)
- 02/2022: модели на искусственных языках-это ученики с нулевым выстрелом (Flan)
- 03/2022: Модели языка обучения, чтобы следовать человеческим инструкциям с обратной связью с человека (Instructgpt)
- 03/2022: многозадачная подготовка
- 03/2022: Обучение вычислительно-оптимально больших языковых моделей (шиншилла)
- 04/2022: Делай как могу, а не как я говорю: Язык на роботизированных возможностях (Saycan)
- 04/2022: GPT-neox-20B: модель авторегрессии с открытым исходным кодом (GPT-neox)
- 04/2022: Палм: Моделирование языка масштабирования с помощью путей (ладонь)
- 06/2022: Помимо имитационной игры: количественная оценка и экстраполирование возможностей Ланга ... (Большой Бенч)
- 06/2022: решение количественных проблем рассуждений с языковыми моделями (Minerva)
- 10/2022: React: синергирование рассуждений и действий в языковых моделях (React)
- 11/2022: Блум: многоязычная языковая модель 176B-параметра (Bloom)
- ? 11/2022: оптимизация языковых моделей для диалога (CHATGPT)
- 12/2022: модели крупных языков кодируют клинические знания (Med-Palm)
Аудио -обработка
- 02/2022: MSLAM: массово многоязычное совместное предварительное обучение для речи и текста (MSLAM)
- 02/2022: Добавить 2022: Первая задача обнаружения глубокого синтеза аудио (добавить)
- 03/2022: Эффективное обучение аудио -трансформаторов с патчетом (PASST)
- 04/2022: Maestro: Сопоставленные речевые текстовые представления через соответствие модальности (Maestro)
- 05/2022: SpeechT5: предварительный тренировки энкодера-декодера Unified-Modal для разговорного языка ... (SpeechT5)
- 06/2022: Wavlm: крупномасштабная самоотверженная предварительная тренировка для полной обработки речи (wavlm)
- 07/2022: BIGSSL: Изучение границы крупномасштабного полупрофильного обучения для ASR (BIGSSL)
- 08/2022: Мулан: совместное внедрение музыкального аудио и естественного языка (Мулан)
- 09/2022: Audiolm: подход к языковому моделированию к генерации аудио (Audiolm)
- 09/2022: Audiogen: Textly Guide Generation (Audiogen)
- 10/2022: сжатие нейронного звука высокой верности (ENCODEC)
- 12/2022: надежное распознавание речи с помощью крупномасштабного слабого надзора (Whisper)
Мультимодальное обучение
- 01/2022: Blip: Boostrapping Language-Image-Image Предварительное обучение для унифицированного зрения ... (Blip)
- 02/2022: Data2VEC: общая структура для самоподходящего обучения в речи, зрения и ... (Data2VEC)
- 03/2022: VL-Adapter: Параметр-эффективное обучение передачи для задач зрения и языка (VL-Adapter)
- 04/2022: Winoground: модели видения и языка для Visio-Linguistic ... (Pinoground)
- 04/2022: Flamingo: модель визуального языка для нескольких выстрелов (Flamingo)
- 05/2022: генеральный агент (Гато)
- 05/2022: Coca: контрастные подписи являются моделями фонда с изображением текста (Coca)
- 05/2022: VLMO: Unified Vision-Language Pre Training со смесью модальности-экспертов (VLMO)
- 08/2022: Изображение как иностранный язык: бейт-предварительная подготовка для всех задач видения и языка зрения (BEIT)
- 09/2022: PALI: совместно масштабированная многоязычная модель языка (PALI)
Подкрепление обучения
- 01/2022: Обучение устойчивое восприимчивое локомоция для квадратных роботов в дикой природе
- 02/2022: BC-Z: обобщение задач с нулевым выстрелом с помощью обучения роботизированию имитации
- 02/2022: возмущающий чемпион Гран Турисмо водители с глубоким обучением подкрепления (Софи)
- 02/2022: Магнитный контроль токамак -плазмы посредством глубокого обучения подкреплению
- 08/2022: научиться ходить в считанные минуты, используя массово параллельное обучение глубоким подкреплением (Anymal)
- 10/2022: Обнаружение более быстрого алгоритмам умножения матрицы с обучением подкрепления (альфатенсор)
Другие документы
- 02/2022: Fourcastnet: глобальная модель погоды с высоким разрешением с высоким разрешением ... (Fourcastnet)
- 05/2022: Colabfold: Складывание белка доступным для всех (Colabfold)
- 06/2022: Измерение и улучшение использования информации о графике в GNN
- 10/2022: Timesnet: временное моделирование 2D-качества для общего анализа временных рядов (Timesnet)
- 12/2022: RT-1: трансформатор робототехники для управления реальным миром в масштабе (RT-1)
Исторические документы
- ? 1958: Perceptron: вероятностная модель для хранения информации и организации в мозге (Perceptron)
- ? 1986: Учебные представления по ошибкам с разжиганиями (BackPropagation)
- ? 1986: индукция деревьев решений (CART)
- ? 1989: Учебное пособие по скрытым моделям Маркова и выбранным приложениям по распознаванию речи (HMM)
- ? 1989: Многослойные сети с прямыми отделами являются универсальными аппроксиматорами
- ? 1992: Алгоритм обучения для оптимальных классификаторов маржи (SVM)
- ? 1996: предикторы мешков
- ? 1998: Обучение на основе градиентов применяется к распознаванию документов (CNN/GTN)
- ? 2001: Случайные леса
- ? 2001: быстрый и элитальный многоцелевой генетический алгоритм (NSGA-II)
- ? 2003: скрытое распределение Dirichlet (LDA)
- ? 2006: Сокращение размерности данных с помощью нейронных сетей (AutoEncoder)
- ? 2008: визуализация данных с использованием t-sne (t-sne)
- ? 2009: ImageNet: крупномасштабная иерархическая база данных изображений (ImageNet)
- ? 2012: классификация ImageNet с глубокими сверточными нейронными сетями (Alexnet)
- ? 2013: Эффективная оценка представлений слов в векторном пространстве (Word2VEC)
- ? 2013: Вариационная байеса (VAE)
- ? 2014: Генеративные состязательные сети (GAN)
- ? 2014: отступление: простой способ предотвратить переосмысление нейронных сетей (отсечение)
- ? 2014: последовательность обучения последовательности с нейронными сетями
- ? 2014: перевод нейронной машины путем совместного обучения для выравнивания и перевода (RNNSearch-50)
- ? 2014: Адам: метод стохастической оптимизации (Адам)
- ? 2015: Нормализация партии: ускорение глубокой сети обучения путем сокращения внутреннего COV ... (Batchnorm)
- ? 2015: углубляться в свертывание (начало)
- ? 2015: контроль на уровне человека с помощью глубокого подкрепления обучения (Deep Q Network)
- ? 2015: быстрее R-CNN: к обнаружению объектов в реальном времени с сети предложений региона (быстрее R-CNN)
- ? 2015: U-Net: сверточные сети для биомедицинской сегментации изображений (U-Net)
- ? 2015: глубокое остаточное обучение для распознавания изображений (Resnet)
- ? 2016: вы смотрите только один раз: единое обнаружение объектов в реальном времени (YOLO)
- ? 2017: Внимание - это все, что вам нужно (трансформатор)
- ? 2018: Берт: предварительное обучение глубоких двунаправленных трансформаторов для понимания языка (BERT)
- ? 2020: Языковые модели-это несколько выстрелов (GPT-3)
- ? 2020: Вероятностные модели денорирования диффузии (DDPM)
- ? 2020: изображение стоит 16x16 слов: трансформаторы для распознавания изображений в масштабе (Vit)
- ? 2021: Высокий точный прогноз структуры белка с помощью алфалолда (Alphafold)
- ? 2022: CHATGPT: оптимизация языковых моделей для диалога (CHATGPT)