Documentos de IA impresionantes ️
Descripción
Este repositorio es una lista actualizada de documentos de IA significativos organizados por fecha de publicación. Cubre cinco campos: visión por computadora, procesamiento del lenguaje natural, procesamiento de audio, aprendizaje multimodal y aprendizaje de refuerzo. Siéntase libre de darle a este repositorio una estrella si disfruta del trabajo.
Mantenedor: Aimerou ndiaye
Tabla de contenido
- 2023 documentos
- Visión por computadora
- Procesamiento del lenguaje natural
- Procesamiento de audio
- Aprendizaje multimodal
- Aprendizaje de refuerzo
- Otros documentos
- 2022 documentos
- Visión por computadora
- Procesamiento del lenguaje natural
- Procesamiento de audio
- Aprendizaje multimodal
- Aprendizaje de refuerzo
- Otros documentos
- Documentos históricos
Taxonomía
Para seleccionar los documentos más relevantes, elegimos límites subjetivos en términos de número de citas. Cada ícono aquí designa un tipo de papel que cumple con uno de estos criterios.
? Documento histórico: más de 10k citas y un impacto decisivo en la evolución de la IA.
Documento importante: más de 50 citas y resultados de última generación.
⏫ Tendencia: 1 a 50 citas, documento reciente e innovador con una adopción creciente.
? Artículo importante: trabajo decisivo que no fue acompañado de un trabajo de investigación.
2023 documentos
Visión por computadora
- 01/2023: Muse: Generación de texto a imagen a través de transformadores generativos enmascarados (Muse)
- 02/2023: Síntesis de video de estructura y contenido con modelos de difusión (Gen-1)
- 02/2023: Escala de transformadores de visión a 22 mil millones de parámetros (VIT 22b)
- 02/2023: Agregar control condicional a los modelos de difusión de texto a imagen (Controlnet)
- 03/2023: CHATGPT visual: hablar, dibujar y editar con los modelos Visual Foundation (ChatGPT visual)
- 03/2023: Escalando Gans para la síntesis de texto a imagen (Gigagan)
- 04/2023: segmento cualquier cosa (Sam)
- 04/2023: Dinov2: Aprender características visuales robustas sin supervisión (Dinov2)
- 04/2023: ajuste de instrucciones visuales
- 04/2023: Alinee sus latentes: síntesis de video de alta resolución con modelos de difusión latente (VideOdM)
- 04/2023: los datos sintéticos de los modelos de difusión mejoran la clasificación de Imagenet
- 04/2023: segmento cualquier cosa en imágenes médicas (Medsam)
- 05/2023: Arrastre su GaN: manipulación interactiva basada en puntos en el colector de imágenes generativas (Draggan)
- 06/0623: Neuralangelo: Reconstrucción de la superficie neural de alta fidelidad (Neuralangelo)
- 07/2023: SDXL: Mejora de modelos de difusión latente para la síntesis de imágenes de alta resolución (SDXL)
- 08/2023: Splatting gaussiano 3D para el renderizado de campo de radiación en tiempo real
- 08/2023: Qwen-VL: un modelo versátil en idioma de visión para la comprensión, localización ... (Qwen-VL)
- ⏫ 08/2023: MVDream: difusión de visión múltiple para la generación 3D (MVDream)
- ⏫ 11/2023: Florencia-2: Avance de una representación unificada para una variedad de tareas de visión (Florencia-2)
- ⏫ 12/2023: VideoPoet: un modelo de lenguaje grande para la generación de videos cero (VideoPoet)
PNLP
- 01/2023: DetectGPT: detección de texto generada por la máquina de disparos cero utilizando curvatura de probabilidad (DetectGPT)
- 02/2023: Formador de herramientas: los modelos de idiomas pueden enseñarse a usar herramientas (Formador de herramientas)
- 02/2023: LLAMA: Modelos de idiomas de base abiertos y eficientes (LLAMA)
- ? 03/2023: GPT-4
- 03/2023: chispas de inteligencia general artificial: experimentos tempranos con GPT-4 (GPT-4 Eval)
- 03/2023: HuggingGpt: Resolver tareas de AI con ChatGPT y sus amigos en Huggingface (HuggingGpt)
- 03/2023: Bloombergppt: un modelo de lenguaje grande para finanzas (Bloomberggpt)
- 04/2023: Ajuste de instrucciones con GPT-4
- 04/2023: Agentes generativos: simulacros interactivos de los humanos (agentes generales)
- 05/2023: Informe técnico de Palm 2 (Palm-2)
- 05/2023: Árbol de pensamientos: resolución de problemas deliberados con modelos de idiomas grandes (TOT)
- 05/2023: Lima: menos es más para la alineación (Lima)
- 05/2023: Qlora: Finetuning eficiente de LLM cuantificados (Qlora)
- 05/2023: Voyager: un agente incorporado abierto con modelos de idiomas grandes (Voyager)
- 07/2023: TOOLLLM: Facilitar modelos de idiomas grandes para dominar más de 16000 API del mundo real (TOOLLLM)
- 08/2023: Metagpt: Meta Programming para marco colaborativo de múltiples agentes (MetAgpt)
- 08/2023: Código Llama: Open Foundation Models for Code (Code Llama)
- ⏫ 09/2023: RLAIF: Escala Aprendizaje de refuerzo de la retroalimentación humana con comentarios de IA (RLAIF)
- 09/2023: Modelos de idiomas grandes como optimizadores (OPRO)
- ⏫ 10/2023: Eureka: Diseño de recompensa a nivel humano a través de la codificación de modelos de idiomas grandes (Eureka)
- ⏫2/2023: Descubrimientos matemáticos de la búsqueda de programas con modelos de idiomas grandes (FunSearch)
Procesamiento de audio
- 01/2023: los modelos de lenguaje de códec neural son texto de texto a cero para sintetizadores del habla (Vall-e)
- 01/2023: MusicLM: Generación de música a partir de texto (MusicLM)
- 01/2023: Audioldm: Generación de texto a audio con modelos de difusión latente (Audioldm)
- 03/2023: Google USM: Escala de reconocimiento automático de voz más allá de 100 idiomas (USM)
- 05/2023: Escala de tecnología del habla a más de 1,000 idiomas (MMS)
- ⏫ 06/2023: Generación de música simple y controlable (MusicGen)
- ⏫ 06/2023: Audiopalm: un modelo de idioma grande que puede hablar y escuchar (Audiopalm)
- ⏫ 06/2023 :Box: VoiceBox: Generación de discursos universal multilingüe guiada por texto a escala (caja de voz)
Aprendizaje multimodal
- 02/2023: El lenguaje no es todo lo que necesita: alineación de la percepción con los modelos de idiomas (Kosmos-1)
- 03/2023: Palm-E: un modelo de lenguaje multimodal incorporado (Palm-E)
- 04/2023: Audiogpt: Comprensión y generación de discursos, música, sonido y cabeza parlante (Audiogpt)
- 05/2023: ImageBind: Un espacio de incrustación para unirlos a todos (ImageBind)
- ⏫ 07/2023: Escala Modelos multimodales autorregresivos: pre-streining e instrucciones (CM3Leon)
- ⏫ 07/2023: meta-transformador: un marco unificado para el aprendizaje multimodal (meta-transformador)
- ⏫ 08/2023: SeamlessM4T: traducción automática multilingüe y multimodal (sin costura)
Aprendizaje de refuerzo
- 01/2023: Dominar diversos dominios a través de modelos mundiales (Dreamerv3)
- ⏫ 02/2023: base en base a grandes modelos de lenguaje en entornos interactivos con RL en línea (GLAM)
- ⏫ 02/2023: aprendizaje eficiente de refuerzo en línea con datos fuera de línea (RLPD)
- ⏫ 03/2023: Diseño de recompensa con modelos de idiomas
- 05/2023: Optimización de preferencias directas: su modelo de lenguaje es secretamente un modelo de recompensa (DPO)
- ⏫ 06/2023: Algoritmos de clasificación más rápidos descubiertos usando el aprendizaje de refuerzo profundo (Alphadev)
- ⏫ 08/2023: Metformer: retrospectivos de agentes de lenguaje grande con optimización de gradiente de políticas (reformulador)
Otros documentos
- 02/2023: Descubrimiento simbólico de algoritmos de optimización (Lion)
- 07/2023: RT-2: Los modelos de acción-lenguaje de visión transfieren el conocimiento web al control robótico (RT-2)
- ⏫ 11/2023: Escala de aprendizaje profundo para el descubrimiento de materiales (gnomo)
- ⏫ 20/12/2023: Descubrimiento de una clase estructural de antibióticos con un aprendizaje profundo explicable
2022 documentos
Visión por computadora
- 01/2022: un Convnet para la 2020 (ConvNext)
- 01/2022: los parches son todo lo que necesita (Convmixer)
- 02/2022: BLOCK-NERF: Síntesis de vista neuronal de escena grande escalable (block-ganf)
- 03/2022: Dino: DETR con cajas de anclaje de renovación mejoradas para la detección de objetos de extremo a extremo (Dino)
- 03/2022: Escalando sus núcleos a 31 × 31: Revisando el diseño de núcleo grande en CNN (gran núcleo CNN)
- 03/2022: Tensorf: campos de radiación tensorial (tensorf)
- 04/2022: Maxvit: transformador de visión múltiple de eje (MaxVit)
- 04/2022: Generación de imágenes de texto jerárquico condicional con clip latentes (Dall-e 2)
- 05/2022: Modelos de difusión de texto a imagen fotorrealista con comprensión del lenguaje profundo (Imagen)
- 05/2022: Git: un transformador generativo de imagen a texto para la visión y el lenguaje (GIT)
- 06/2022: CMT: Red neuronal convolucional Reunión de Vision Transformers (CMT)
- 07/2022: Swin Unetr: Transformadores de giro para la segmentación semántica de tumores cerebrales ... (Swin Unetr)
- 07/2022: Guía de difusión sin clasificadores
- 08/2022: Modelos de difusión de texto a imagen de ajuste fino para la generación impulsada por sujetos (Dreambooth)
- 09/2022: Dreamfusion: Text-to-3d usando la difusión 2D (Dreamfusion)
- 09/2022: Make-A-Video: Generación de texto a video sin datos de videos de texto (make-a-video)
- 10/2022: Sobre la destilación de modelos de difusión guiados
- 10/2022: Laion-5b: un conjunto de datos a gran escala abierto para capacitar a los modelos de texto de imagen de próxima generación (Laion-5b)
- 10/2022: Imagic: edición de imágenes reales basadas en texto con modelos de difusión (IMÁGIC)
- 11/2022: ajuste de inmediato visual
- 11/2022: Magic3d: creación de contenido de texto a 3D de alta resolución (Magic3d)
- 11/2022: DifusionDet: modelo de difusión para la detección de objetos (DiffusionDet)
- 11/2022: Instructpix2pix: Aprender a seguir las instrucciones de edición de imágenes (Instructpix2pix)
- 20/122: Personalización de múltiples concepto de difusión de texto a imagen (difusión personalizada)
- 12/2022: Modelos de difusión escalables con transformadores (DIT)
PNLP
- 01/2022: Lambda: modelos de idioma para aplicaciones de diálogo (Lambda)
- 01/2022: La provisión de la cadena de pensamiento provoca un razonamiento en modelos de idiomas grandes (COT)
- 02/2022: Generación de códigos a nivel de competencia con alfacodos (alfacodo)
- 02/2022: los modelos de lenguaje Finetened son alumnos de disparo cero (FLAN)
- 03/2022: Modelos de lenguaje de capacitación para seguir las instrucciones humanas con comentarios humanos (instructSppt)
- 03/2022: La capacitación impulsada por múltiples tareas permite la generalización de tareas de disparo cero (T0)
- 03/2022: Capacuto de modelos de idiomas grandes óptimos (chinchilla)
- 04/2022: Haz lo que pueda, no como yo digo: lenguaje de conexión a tierra en posibilidades robóticas (Saycan)
- 04/2022: GPT-NEOX-20B: Un modelo de lenguaje autorregresivo de código abierto (GPT-NEOX)
- 04/2022: palma: modelado de lenguaje de escala con vías (palma)
- 06/2022: Más allá del juego de imitación: cuantificar y extrapolar las capacidades de Lang ... (Big Bench)
- 06/222: Resolver problemas de razonamiento cuantitativo con modelos de idiomas (Minerva)
- 10/2022: Reaccion: Razonamiento sinnerging y actuación en modelos de idiomas (React)
- 11/2022: Bloom: un modelo de lenguaje multilingüe de acceso abierto de 176b-parámetro (Bloom)
- ? 11/2022: Optimización de modelos de idiomas para el diálogo (chatgpt)
- 20/122: los modelos de lenguaje grande codifican el conocimiento clínico (Med-Palm)
Procesamiento de audio
- 02/2022: MSLAM: pretruento conjunto multilingüe masivo para el habla y el texto (MSLAM)
- 02/2022: Agregar 2022: El primer desafío de detección de síntesis de audio profundo (Agregar)
- 03/2022: Entrenamiento eficiente de transformadores de audio con Patchout (Passt)
- 04/2022: Maestro: representaciones de texto del habla emparejadas a través de la coincidencia de modalidad (maestro)
- 05/2022: Speecht5: Presadrina del codificador de codificador unificado para el lenguaje hablado ... (Speecht5)
- 06/2022: WAVLM: Pre-Training de auto-supervisado a gran escala para el procesamiento completo del habla de la pila (WAVLM)
- 20/0722: Bigssl: Explorando la frontera del aprendizaje semi-supervisado a gran escala para ASR (Bigssl)
- 08/2022: Mulan: una integración conjunta de audio musical y lenguaje natural (Mulan)
- 09/2022: Audiolm: un enfoque de modelado de idiomas para la generación de audio (Audiolm)
- 09/2022: Audiogen: Generación de audio guiada textualmente (Audiogen)
- 10/2022: Compresión de audio neuronal de alta fidelidad (Encodec)
- 20/122: Reconocimiento de voz robusto a través de una supervisión débil a gran escala (Whisper)
Aprendizaje multimodal
- 01/2022: BLIP: Boostrapping Language-Image Pre-Training para Languaje de Visión Unificado ... (BLIP)
- 02/2022: data2vec: un marco general para el aprendizaje auto-supervisado en el habla, la visión y ... (data2vec)
- 03/2022: VL-Adapter: aprendizaje de transferencia de parámetros-eficiente para tareas de visión y lenguaje (VL-Adapter)
- 04/2022: WinoGround: Modelos de visión y lenguaje de sondeo para visio-lingüística ... (WinoGround)
- 04/2022: Flamingo: un modelo de lenguaje visual para el aprendizaje de pocos disparos (flamenco)
- 05/2022: un agente generalista (Gato)
- 05/2022: Coca: los subtítulos contrastados son modelos de base de texto de imagen (Coca)
- 05/2022: VLMO: Pre-Training en lenguaje de visión unificado con mezcla de experiencias de modalidad (VLMO)
- 08/2022: Imagen como idioma extranjero: preventiva para todas las tareas de visión y lenguaje de visión (BEIT)
- 09/2022: Pali: un modelo de imagen de lenguaje multilingüe a escala conjunta (PALI)
Aprendizaje de refuerzo
- 01/2022: Aprendizaje de locomoción perceptiva robusta para robots cuadrúpedos en la naturaleza
- 02/2022: BC-Z: Generalización de tareas de disparo cero con aprendizaje de imitación robótica
- 02/222: Campeón de Outraping Gran Turismo Conductores con aprendizaje de refuerzo profundo (SOPHY)
- 02/2022: Control magnético de plasmas de tokamak a través del aprendizaje de refuerzo profundo
- 08/2022: Aprender a caminar en minutos utilizando un aprendizaje de refuerzo profundo masivamente paralelo (cualquiera)
- 10/2022: Descubriendo algoritmos de multiplicación de matriz más rápido con aprendizaje de refuerzo (alfatensor)
Otros documentos
- 02/2022: Fourcastnet: un modelo de clima de alta resolución basado en datos global ... (Fourcastnet)
- 05/2022: Colabfold: hacer el plegamiento de proteínas accesible para todos (Colabfold)
- 06/2022: Medición y mejora del uso de información de gráficos en GNN
- 10/2022: TimesNet: modelado temporal de variación 2D para el análisis general de series de tiempo (TimesNet)
- 20/122: RT-1: Transformador de robótica para el control del mundo real a escala (RT-1)
Documentos históricos
- ? 1958: Perceptron: un modelo probabilístico para el almacenamiento de información y la organización en el cerebro (Perceptron)
- ? 1986: Representaciones de aprendizaje por errores de propagación hacia atrás (backpropagation)
- ? 1986: Inducción de árboles de decisión (CART)
- ? 1989: Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en el reconocimiento de voz (hmm)
- ? 1989: las redes de alimentación multicapa son aproximadores universales
- ? 1992: un algoritmo de entrenamiento para clasificadores de margen óptimo (SVM)
- ? 1996: predictores de embolsado
- ? 1998: Aprendizaje basado en gradientes aplicado al reconocimiento de documentos (CNN/GTN)
- ? 2001: bosques aleatorios
- ? 2001: un algoritmo genético multiobjetivo rápido y elitista (NSGA-II)
- ? 2003: Asignación latente de Dirichlet (LDA)
- ? 2006: Reducción de la dimensionalidad de los datos con redes neuronales (autoencoder)
- ? 2008: Visualización de datos utilizando T-SNE (T-SNE)
- ? 2009: Imagenet: una base de datos de imágenes jerárquicas a gran escala (Imagenet)
- ? 2012: Clasificación de Imagenet con profundas redes neuronales convolucionales (Alexnet)
- ? 2013: Estimación eficiente de las representaciones de palabras en el espacio vectorial (Word2Vec)
- ? 2013: Bayes variacionales de codificación automática (VAE)
- ? 2014: Redes adversas generativas (GaN)
- ? 2014: abandono: una forma simple de evitar que las redes neuronales se sobreajuste (abandono)
- ? 2014: secuencia al aprendizaje de secuencia con redes neuronales
- ? 2014: Traducción automática neural aprendiendo conjuntamente a alinearse y traducir (rnnsearch-50)
- ? 2014: Adam: un método para la optimización estocástica (Adam)
- ? 2015: Normalización por lotes: acelerar el entrenamiento de la red profunda al reducir el COV interno ... (BatchNorm)
- ? 2015: profundizar con las convoluciones (inicio)
- ? 2015: Control a nivel humano a través del aprendizaje de refuerzo profundo (Red Pro Deep Q)
- ? 2015: R-CNN más rápido: Hacia la detección de objetos en tiempo real con redes de propuestas de región (R-CNN más rápido)
- ? 2015: U-Net: redes convolucionales para la segmentación de imágenes biomédicas (U-NET)
- ? 2015: aprendizaje residual profundo para el reconocimiento de imágenes (resnet)
- ? 2016: solo miras una vez: detección de objetos unificados en tiempo real (yolo)
- ? 2017: La atención es todo lo que necesitas (Transformer)
- ? 2018: Bert: Prerreining de transformadores bidireccionales profundos para la comprensión del lenguaje (BERT)
- ? 2020: los modelos de idiomas son alumnos de pocos disparos (GPT-3)
- ? 2020: Modelos probabilísticos de difusión de difusión Denoing (DDPM)
- ? 2020: Una imagen vale 16x16 palabras: transformadores para el reconocimiento de imágenes a escala (vit)
- ? 2021: Predicción de estructura de proteínas altamente precisa con Alfafold (Alfafold)
- ? 2022: CHATGPT: Optimización de modelos de idiomas para el diálogo (chatgpt)