Incluso con todo lo que sucedió en el mundo este año, todavía tuvimos la oportunidad de ver salir muchas investigaciones increíbles. Especialmente en el campo de la inteligencia artificial. Más, muchos aspectos importantes se destacaron este año, como los aspectos éticos, los sesgos importantes y mucho más. La inteligencia artificial y nuestra comprensión del cerebro humano y su vínculo con la IA evolucionan constantemente, mostrando aplicaciones prometedoras en el futuro pronto.
Estos son los trabajos de investigación más interesantes del año, en caso de que te hayas perdido alguno de ellos. En resumen, es básicamente una lista curada de los últimos avances en IA y ciencia de datos por fecha de lanzamiento con una explicación de video clara, enlace a un artículo más profundo y código (si corresponde). ¡Disfruta de la lectura!
La referencia completa a cada documento se enumera al final de este repositorio.
Mantenedor - LouisFB01
Suscríbase a mi boletín: las últimas actualizaciones en AI explicadas cada semana.
? ¡Mira el repositorio 2021!
Siéntase libre de enviarme un mensaje que me perdiera los documentos que me perdí para agregar a este repositorio en [email protected]
¡Etiquetame en Twitter @Whats_Ai o LinkedIn @louis (What's AI) Bouchard si comparte la lista!
Los 10 documentos principales de visión por computadora en 2020 con demostraciones de video, artículos, código y referencia en papel.
Top 10 documentos de visión por computadora 2020
? Si desea apoyar mi trabajo y usar W&B (de forma gratuita) para rastrear sus experimentos de ML y hacer que su trabajo sea reproducible o colaborar con un equipo, ¡puede probarlo siguiendo esta guía! Dado que la mayor parte del código aquí está basado en Pytorch, pensamos que una guía rápida para usar W&B en Pytorch sería más interesante compartir.
Siga esta guía rápida, use las mismas líneas W&B en su código o en cualquiera de los reposos a continuación, ¡y haga que todos sus experimentos rastreen automáticamente en su cuenta W&B! ¡No lleva más de 5 minutos establecerse y cambiará tu vida como lo hizo para mí! Aquí hay una guía más avanzada para usar barridos de hiperparámetro si está interesado :)
? ¡Gracias a pesas y prejuicios por patrocinar este repositorio y el trabajo que he estado haciendo, y gracias a cualquiera de ustedes que usa este enlace e intenta W&B!
Esta cuarta versión ha sido presentada recientemente en abril de 2020 por Alexey Bochkovsky et al. En el documento "Yolov4: velocidad óptima y precisión de la detección de objetos". El objetivo principal de este algoritmo era hacer un detector de objetos súper rápido con alta calidad en términos de precisión.
¡Ahora puede generar imágenes faciales de alta calidad a partir de bocetos ásperos o incluso incompletos con habilidades de dibujo cero utilizando esta nueva técnica de traducción de imagen a imagen! Si sus habilidades de dibujo tan malas como las mías incluso puede ajustar cuánto los ojos, la boca y la nariz afectarán la imagen final. Veamos si realmente funciona y cómo lo hicieron.
Gamegan, una red adversaria generativa entrenada en 50,000 episodios de Pac-Man, produce una versión completamente funcional del clásico de mazas de puntos sin un motor de juego subyacente.
¡Este nuevo algoritmo transforma una imagen borrosa en una imagen de alta resolución! ¡Puede tomar una imagen de 16x16 súper baja y convertirla en una cara humana de alta definición de 1080p! ¿No me crees? ¡Entonces puedes hacer como yo y probarlo en menos de un minuto! Pero primero, veamos cómo hicieron eso.
¡Este nuevo modelo convierte el código de un lenguaje de programación a otro sin ninguna supervisión! Puede tomar una función de Python y traducirla en una función C ++, y viceversa, ¡sin ningún ejemplo previo! ¡Comprende la sintaxis de cada idioma y, por lo tanto, puede generalizarse a cualquier lenguaje de programación! Veamos cómo hicieron eso.
¡Esta IA genera reconstrucciones 3D de alta resolución de personas de imágenes 2D! Solo necesita una sola imagen tuya para generar un avatar 3D que se parezca a usted, ¡incluso desde atrás!
Los investigadores de Disney desarrollaron un nuevo algoritmo de intercambio de rostros de alta resolución para efectos visuales en el documento del mismo nombre. Es capaz de obtener resultados fotográficos realistas en la resolución de megapíxeles. Trabajando para Disney, son sin duda el mejor equipo para este trabajo. Su objetivo es cambiar la cara de un actor objetivo de un actor de origen mientras mantiene la actuación del actor. Esto es increíblemente desafiante y es útil en muchas circunstancias, como cambiar la edad de un personaje, cuando un actor no está disponible, o incluso cuando involucra una escena de acrobacias que sería demasiado peligrosa para que el actor principal realice. Los enfoques actuales requieren una gran cantidad de animación de marco por cuadro y postprocesamiento de profesionales.
¡Esta nueva técnica puede cambiar la textura de cualquier imagen mientras se mantiene realista utilizando una capacitación completa sin supervisión! ¡Los resultados se ven aún mejor de lo que Gans puede lograr al tiempo que es mucho más rápido! ¡Incluso podría usarse para crear defensores profundos!
Los actuales sistemas de PNL de última generación luchan para generalizar para trabajar en diferentes tareas. Deben ajustarse en conjuntos de datos de miles de ejemplos, mientras que los humanos solo necesitan ver algunos ejemplos para realizar una nueva tarea de idioma. Este era el objetivo detrás de GPT-3, para mejorar la característica de la tarea-agnóstica de los modelos de lenguaje.
¡Esta IA puede llenar los píxeles faltantes detrás de un objeto en movimiento eliminado y reconstruir todo el video con mucha más precisión y menos desenfoque que los enfoques actuales de vanguardia!
Una buena IA, como la utilizada en Gmail, puede generar texto coherente y terminar su frase. ¡Este usa los mismos principios para completar una imagen! ¡Todo hecho en una capacitación sin supervisión sin etiquetas requeridas!
¡Esta IA puede cartoonizar cualquier imagen o video que lo alimente en el estilo de dibujos animados que desee! Veamos cómo hace eso y algunos ejemplos sorprendentes. ¡Incluso puede probarlo usted mismo en el sitio web que crearon como lo hice por mí mismo!
¡Este modelo generador de la cara puede transferir fotografías de cara normal a estilos distintivos como el estilo de dibujos animados de Lee Mal-Nyeon, los Simpson, las artes e incluso los perros! Lo mejor de esta nueva técnica es que es súper simple y supera significativamente las técnicas anteriores utilizadas en Gans.
El algoritmo representa la pose y la forma del cuerpo como una malla paramétrica que se puede reconstruir a partir de una sola imagen y fácilmente reposse. Dada una imagen de una persona, pueden crear imágenes sintéticas de la persona en diferentes poses o con ropa diferente obtenida de otra imagen de entrada.
Su objetivo era proponer una nueva técnica para la estimación de Mose y Mesh 3D de una sola imagen RGB. Lo llamaron I2L-Meshnet. Donde I2L significa imagen a lixel. Al igual que un vóxel, volumen + píxel, es una célula cuantificada en el espacio tridimensional, definieron el lixel, una línea y píxel, como una celda cuantificada en el espacio unidimensional. ¡Su método supera a los métodos anteriores y el código está disponible públicamente!
https://github.com/mks0601/i2l-meshnet_release
La navegación guiada por el idioma es un campo ampliamente estudiado y muy complejo. De hecho, puede parecer simple para un humano caminar por una casa para llegar a su café que dejó en su mesita de noche a la izquierda de su cama. Pero es una historia completamente diferente para un agente, que es un sistema autónomo impulsado por la IA que utiliza el aprendizaje profundo para realizar tareas.
El Premio al Mejor Paper de ECCV 2020 va al equipo de Princeton. Desarrollaron un nuevo modelo capacitable de extremo a extremo para el flujo óptico. Su método supera la precisión de las arquitecturas de última generación en múltiples conjuntos de datos y es mucho más eficiente. ¡Incluso pusieron el código disponible para todos en su GitHub!
¡Utilizando las fotos públicas de los turistas de Internet, pudieron reconstruir múltiples puntos de vista de una escena conservando las sombras y la iluminación realistas! Este es un gran avance de las técnicas de vanguardia para la representación de escenas fotorrealistas y sus resultados son simplemente increíbles.
Imagine tener las fotos viejas, dobladas e incluso desgarradas de su abuela cuando tenía 18 años de alta definición con cero artefactos. Esto se llama antigua restauración de fotos y este documento acaba de abrir una vía completamente nueva para abordar este problema utilizando un enfoque de aprendizaje profundo.
Investigadores de IST Austria y MIT han entrenado con éxito un automóvil autónomo utilizando un nuevo sistema de inteligencia artificial basado en el cerebro de los animales pequeños, como las gustas de los roscas. Lo lograron con solo unas pocas neuronas capaces de controlar el automóvil autónomo, en comparación con los millones de neuronas necesarias por las populares redes neuronales profundas, como incepciones, resnets o VGG. ¡Su red pudo controlar completamente un automóvil usando solo 75 000 parámetros, compuestos por 19 neuronas de control, en lugar de millones!
Un equipo de investigadores de Adobe Research desarrolló una nueva técnica para la síntesis de transformación de edad basada en una sola imagen de la persona. Puede generar las imágenes de vida útil a partir de cualquier imagen que la haya enviado.
Deoldify es una técnica para colorear y restaurar imágenes antiguas en blanco y negro o incluso imágenes de películas. Fue desarrollado y todavía está siendo actualizado por una sola persona Jason Antic. Ahora es la forma de última generación de colorizar imágenes en blanco y negro, y todo está de código abierto, pero volveremos a esto en un momento.
Como dice el nombre, utiliza transformadores para generar descripciones de texto precisas para cada secuencia de un video, utilizando tanto el video como una descripción general de él como entradas.
¡Este método de traducción de imagen a pintura simula un pintor real en múltiples estilos utilizando un enfoque novedoso que no involucra ninguna arquitectura de GaN, a diferencia de todos los enfoques de última generación!
La estera humana es una tarea extremadamente interesante donde el objetivo es encontrar cualquier humano en una imagen y eliminar el fondo de ella. Es realmente difícil de lograr debido a la complejidad de la tarea, tener que encontrar a la persona o personas con el contorno perfecto. En esta publicación, reviso las mejores técnicas utilizadas a lo largo de los años y un enfoque novedoso publicado el 29 de noviembre de 2020. Muchas técnicas están utilizando algoritmos básicos de visión por computadora para lograr esta tarea, como el algoritmo GrabCut, que es extremadamente rápido, pero no muy preciso.
¡Con este nuevo método de entrenamiento desarrollado por NVIDIA, puede entrenar un poderoso modelo generativo con una décima parte de las imágenes! ¡Haciendo posibles muchas aplicaciones que no tienen acceso a tantas imágenes!
¡Con este nuevo método de entrenamiento desarrollado por NVIDIA, puede entrenar un poderoso modelo generativo con una décima parte de las imágenes! ¡Haciendo posibles muchas aplicaciones que no tienen acceso a tantas imágenes!
Este nuevo método puede generar una escena tridimensional completa y tiene la capacidad de decidir la iluminación de la escena. Todo esto con costos de cálculo muy limitados y resultados sorprendentes en comparación con enfoques anteriores.
? ¡Mira el repositorio 2021!
¡Etiquetame en Twitter @Whats_Ai o LinkedIn @louis (What's AI) Bouchard si comparte la lista!
[1] A. Bochkovskiy, C.-Y. Wang y H.-Sym Liao, Yolov4: Velocidad y precisión óptimas de la detección de objetos, 2020. ARXIV: 2004.10934 [cs.CV].
[2] S.-Y. Chen, W. Su, L. Gao, S. Xia y H. Fu, "DeepfacedRawing: Generación profunda de imágenes faciales de bocetos", Transacciones ACM en gráficos (Actas de ACM Siggraph2020), vol. 39, no. 4, 72: 1–72: 16, 2020.
[3] SW Kim, Y. Zhou, J. Philion, A. Torralba y S. Fidler, "Aprendiendo a simular dinámenes dinámicos con Gamegan", en la conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR), junio de 2020.
[4] S. Menon, A. Damian, S. Hu, N. Ravi y C. Rudin, Pulse: Self-Supervised Photo Smampreing a través de la exploración espacial latente de modelos generativos, 2020. ARXIV: 2003.03808 [CS.CV].
[5] M.-A. Lachaux, B. Roziere, L. Chanussot y G. Lample, Traducción sin supervisión de lenguajes de programación, 2020. ARXIV: 2006.03511 [cs.Cl].
[6] S. Saito, T. Simon, J. Saragih y H. Joo, Pifuhd: función implícita alineada por píxeles de nivel múltiple para la digitalización humana 3D de alta resolución, 2020. ARXIV: 2004.00452 [cs.CV].
[7] J. Naruniec, L. Helminger, C. Schroers y R. Weber, "Compatición de la cara neuronal de alta resolución para efectos visuales", Computer Graphics Forum, vol. 39, pp. 173–184, julio 2020.doi: 10.1111/cgf.14062.
[8] T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, AA Efros y R. Zhang, SwapingAutoCoder para la manipulación de imágenes profundas, 2020. Arxiv: 2007.00653 [cs.CV].
[9] TB Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert- Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, DM Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever y D. amodei, "Los modelos de idiomas son alumnos de pocos disparos", 2020 . ARXIV: 2005.14165 [cs.Cl].
[10] Y. Zeng, J. Fu y H. Chao, Aprendiendo transformaciones espaciales espaciales para el video en pintura, 2020. ARXIV: 2007.10247 [cs.CV].
[11] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan e I. Sutskever, "Pretratenamiento generativo de los píxeles", en Actas de la 37ª Conferencia Internacional sobre Aprendizaje Autor, HD III y A. Singh, eds., Ser. Actas de la investigación de aprendizaje automático, vol. 119, Virtual: PMLR, 13–18 de julio de 2020, pp. 1691–1703. [En línea]. Disponible: http: //proceedings.mlr.press/v119/chen20s.html.
[12] Xinrui Wang y Jinze Yu, "Aprendiendo a dibujos de dibujos animados con representaciones de dibujos animados de caja blanca", Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, junio de 2020.
[13] S. Mo, M. Cho y J. Shin, congelan el discriminador: una línea de base simple para el ajuste de Gans, 2020. ARXIV: 2002.10964 [cs.CV].
[14] K. Sarkar, D. Mehta, W. Xu, V. Golyanik y C. Theobalt, "Representación neuronal de humanos de una sola imagen", en la Conferencia Europea sobre Visión Computadora (ECCV), 2020.
[15] G. Moon y KM Lee, "I2L-Meshnet: red de predicción de imagen a lixel para la estimación precisa de la pose y malla humana de una sola imagen RGB", en la Conferencia Europea sobre Computervision (ECCV), 2020
[16] J. Krantz, E. Wijmans, A. Majumdar, D. Batra y S. Lee, "Más allá del NAV-Graph: navegación de visión y lenguaje en entornos continuos", 2020. ARXIV: 2004.02857 [Cs. Cv].
[17] Z. Teed y J. Deng, Raft: transformaciones de campo recurrentes para todos los pares para el flujo óptico, 2020. ARXIV: 2003.12039 [CS.CV].
[18] Z. Li, W. Xian, A. Davis y N. Snavely, "Crowdsampling la función plenóptica", Conferencia Inproc.europea sobre visión por computadora (ECCV), 2020.
[19] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao y F. Wen, Old Photo Restation a través de Deep Latent Space Translation, 2020. ARXIV: 2009.07047 [CS.CV ]
[20] Lechner, M., Hasani, R., Amini, A. et al. Políticas de circuito neural que permiten autonomía auditable. Nat Mach Intell 2, 642–652 (2020). https://doi.org/10.1038/s42256-020-00237-3
[21] R. Or-El, S. Sengupta, O. Fried, E. Shechtman e I. Kemelmacher-Shlizerman, "Síntesis de transformación de vida útil", en Actas de la Conferencia Europea sobre Visión Computadora (ECCV), 2020.
[22] Jason Antic, creador de Deoldify, https://github.com/jantic/deoldify
[23] S. Ging, M. Zolfaghari, H. Pirsiavash y T. Brox, "Coot: transformador jerárquico cooperativo para el aprendizaje de representación de texto de video", en Conferencias sobre procesos de información neural, sistemas de procesos, 2020.
[24] Z. Zou, T. Shi, S. Qiu, Y. Yuan y Z. Shi, Stylized Neural Painting, 2020. ARXIV: 2011.08114 [cs.CV].
[25] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan y Rw Lau, "¿Es realmente necesaria una pantalla verde para la estera de retrato en tiempo real?" Arxiv, vol. ABS/2011.11961, 2020.
[26] T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen y T. Aila, Entrenamiento de redes adversas generativas con datos limitados, 2020. ARXIV: 2006.06676 [cs.CV].
[27] Ja Weyn, Dr. Durran y R. Caruana, "Mejora de la predicción del clima global basada en datos utilizando redes neuronales convolucionales profundas en una esfera en cubos", Journal of Advances in Modeling Earth Systems, vol. 12, no. 9, septiembre de 2020, ISSN: 1942–2466.doi: 10.1029/2020ms002109
[28] PP Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall y Jt Barron, "Nerv: reflectancia neuronal y campos de visibilidad para volver a reemplazar y ver la síntesis", en Arxiv, 2020.