Mientras el mundo todavía se está recuperando, la investigación no ha ralentizado su ritmo frenético, especialmente en el campo de la inteligencia artificial. Más, muchos aspectos importantes se destacaron este año, como los aspectos éticos, los sesgos importantes, la gobernanza, la transparencia y mucho más. La inteligencia artificial y nuestra comprensión del cerebro humano y su vínculo con la IA evolucionan constantemente, mostrando aplicaciones prometedoras que mejoran la calidad de nuestra vida en el futuro cercano. Aún así, debemos tener cuidado con la tecnología que elegimos aplicar.
"La ciencia no puede decirnos qué debemos hacer, solo lo que podemos hacer".
- Jean-Paul Sartre, ser y nada
Aquí hay una lista curada de los últimos avances en AI y Data Science por fecha de lanzamiento con una explicación de video clara, enlace a un artículo más profundo y código (si corresponde). ¡Disfruta de la lectura!
La referencia completa a cada documento se enumera al final de este repositorio. ¡Estrella este repositorio para mantenerse actualizado y estar atento para el próximo año! ️
Mantenedor: LouisFB01, también activo en YouTube y como podcaster si desea ver/escuchar más sobre AI.
Suscríbase a mi boletín: las últimas actualizaciones en AI explicadas cada semana.
Siéntase libre de enviarme un mensaje interesante que me haya perdido para agregar a este repositorio.
¡Etiquetame en Twitter @Whats_Ai o LinkedIn @louis (What's AI) Bouchard si comparte la lista! ¡Y ven a chatear con nosotros en nuestra comunidad de discordia de IA AI AI JUNS!
? Si desea apoyar mi trabajo , puede verificar para patrocinar este repositorio o apoyarme en Patreon.
Ciertamente ha experimentado esta situación una vez: tomas una excelente foto con tu amigo y alguien está fotobombando detrás de ti, arruinando tu futura publicación de Instagram. Bueno, eso ya no es un problema. O es una persona o una basura que olvidó eliminar antes de tomar su selfie que está arruinando su foto. Esta IA simplemente eliminará automáticamente el objeto o persona no deseado en la imagen y guardará su publicación. ¡Es como un diseñador profesional de Photoshop en su bolsillo y con un simple clic!
Esta tarea de eliminar parte de una imagen y reemplazarla con lo que debería aparecer detrás ha sido abordada por muchos investigadores de IA durante mucho tiempo. Se llama imagen de imagen, y es extremadamente desafiante ...
Ciertamente, has visto películas como el reciente Capitán Marvel o Géminis Man donde Samuel L Jackson y Will Smith parecían parecer que eran mucho más jóvenes. Esto requiere cientos, si no miles de horas de trabajo, de profesionales editan manualmente las escenas en las que apareció. En cambio, podría usar una IA simple y hacerlo en unos minutos. De hecho, muchas técnicas le permiten agregar sonrisas, hacer que se vea más joven o mayor, todo automáticamente utilizando algoritmos basados en AI. ¡Se llama manipulaciones faciales basadas en AI en videos y aquí está el estado actual de arte en 2022!
Representación neuronal. La representación neuronal es la capacidad de generar un modelo fotorrealista en el espacio como este, desde imágenes del objeto, persona o escena de interés. En este caso, tendrá un puñado de imágenes de esta escultura y le pediría a la máquina que comprenda cómo debería ser el objeto en estas imágenes en el espacio. Básicamente, está pidiendo a una máquina que comprenda la física y las formas de las imágenes. Esto es bastante fácil para nosotros, ya que solo conocemos el mundo real y las profundidades, pero es un desafío completamente diferente para una máquina que solo ve píxeles. Es genial que el modelo generado se vea preciso con formas realistas, pero ¿qué pasa con cómo se combina en la nueva escena? ¿Y qué pasa si las condiciones de iluminación varían en las imágenes tomadas y el modelo generado se ve diferente dependiendo del ángulo que lo mire? Esto automáticamente nos parecería extraño y poco realista. Estos son los desafíos que Snapchat y la Universidad del Sur de California atacaron en esta nueva investigación.
Hemos visto la interpago de imagen, que tiene como objetivo eliminar un objeto indeseable de una imagen. Las técnicas basadas en el aprendizaje automático no simplemente eliminan los objetos, sino que también entienden la imagen y llenan las partes faltantes de la imagen con cómo debería ser el fondo. Los avances recientes son increíbles, al igual que los resultados, y esta tarea de entrada puede ser bastante útil para muchas aplicaciones como anuncios o mejorar su futura publicación de Instagram. También cubrimos una tarea aún más desafiante: la interfirga de video, donde se aplica el mismo proceso a los videos para eliminar objetos o personas.
El desafío con videos viene con mantenerse consistente de marco a marco sin ningún artefacto con errores. Pero ahora, ¿qué sucede si eliminamos correctamente a una persona de una película y el sonido todavía está allí, sin cambios? Bueno, podemos escuchar un fantasma y arruinar todo nuestro trabajo.
Aquí es donde entra una tarea que nunca cubrí en mi canal: el discurso de entrada. Lo escuchaste bien, los investigadores de Google acaban de publicar un artículo que apunta a la entrada de discursos y, como veremos, los resultados son bastante impresionantes. De acuerdo, podríamos escuchar que ver los resultados, pero entiendes el punto. Puede corregir su gramática, pronunciación o incluso eliminar el ruido de fondo. Todas las cosas que definitivamente necesito seguir trabajando, o ... simplemente use su nuevo modelo ... ¡escuche los ejemplos de mi video!
¿También tienes fotos antiguas de ti mismo o de cerca que no envejecieron bien o que tú, o tus padres, tomaron antes de que pudiéramos producir imágenes de alta calidad? Lo hago, y sentí que esos recuerdos estaban dañados para siempre. Chico, ¿me equivoqué!
Este modelo de IA nuevo y completamente gratuito puede arreglar la mayoría de sus imágenes antiguas en una fracción de segundo. Funciona bien incluso con entradas muy bajas o de alta calidad, lo cual suele ser todo el desafío.
El documento de esta semana llamado hacia la restauración de la cara ciega del mundo real con la tarea previa del Facial Generativo de la Facial Generativa La tarea de restauración de fotos con resultados sobresalientes. Lo que es aún más genial es que puedes probarlo tú mismo y de tu manera preferida. Han recibido su código, creado una demostración y aplicaciones en línea para que lo pruebe en este momento. Si los resultados que ha visto anteriormente no son lo suficientemente convincentes, solo mira el video y hazme saber lo que piensas en los comentarios, ¡sé que te dejará boquiabierto!
¿Cómo ven los vehículos autónomos?
Probablemente haya oído hablar de los sensores LiDAR u otras cámaras extrañas que están usando. Pero, ¿cómo funcionan, cómo pueden ver el mundo y qué ven exactamente en comparación con nosotros? Comprender cómo funcionan es esencial si queremos ponerlos en el camino, principalmente si trabaja en el gobierno o construye las próximas regulaciones. Pero también como cliente de estos servicios.
Anteriormente cubrimos cómo el piloto automático Tesla ve y funciona, pero son diferentes de los vehículos autónomos convencionales. Tesla solo usa cámaras para comprender el mundo, mientras que la mayoría de ellas, como Waymo, usan cámaras regulares y sensores lidar 3D. Estos sensores lidar son bastante simples de entender: no producirán imágenes como cámaras normales, sino nubes de puntos 3D. Las cámaras Lidar miden la distancia entre los objetos, calculando el tiempo de viaje del láser de pulso que proyectan al objeto.
Aún así, ¿cómo podemos combinar esta información de manera eficiente y hacer que el vehículo la entienda? ¿Y qué termina viendo el vehículo? ¿Solo puntos en todas partes? ¿Es suficiente para conducir en nuestras carreteras? Analizaremos esto con un nuevo trabajo de investigación de Waymo y Google Research ...
Como si tomar una foto no fuera una destreza tecnológica lo suficientemente desafiante, ahora estamos haciendo lo contrario: modelar el mundo a partir de las imágenes. He cubierto increíbles modelos basados en IA que podrían tomar imágenes y convertirlas en escenas de alta calidad. Una tarea desafiante que consiste en tomar algunas imágenes en el mundo de las imágenes bidimensionales para crear cómo se vería el objeto o la persona en el mundo real.
Tome algunas fotos e instantáneamente tenga un modelo realista para insertar en su producto. ¿Qué tan genial es eso?
Los resultados han mejorado dramáticamente el primer modelo que cubrí en 2020, llamado Nerf. Y esta mejora no es solo sobre la calidad de los resultados. Nvidia lo hizo aún mejor.
No solo que la calidad es comparable, si no mejor, sino que es más de 1000 veces más rápido con menos de dos años de investigación.
El año pasado compartí Dall · E, un modelo increíble de OpenAI capaz de generar imágenes a partir de una entrada de texto con resultados increíbles. Ahora es el momento de su hermano mayor, Dall · E 2. ¡Y no creerás el progreso en un solo año! Dall · E 2 no solo es mejor para generar imágenes fotorrealistas a partir del texto. ¡Los resultados son cuatro veces la resolución!
Como si no fuera lo suficientemente impresionante, el modelo reciente aprendió una nueva habilidad; Imagen Inpaña.
Dall · E podría generar imágenes a partir de entradas de texto.
Dall · E 2 puede hacerlo mejor, pero no se detiene allí. ¡También puede editar esas imágenes y hacer que se vean aún mejor! O simplemente agregue una función que desee como algunos flamencos en el fondo.
¿Suena interesante? ¡Obtenga más información en el video o lea más a continuación!
Este nuevo modelo de Google Research y Tel-Aviv University es increíble. Puedes verlo como un profundo muy poderoso que puede hacer cualquier cosa.
Tome cien fotos de cualquier persona y tendrá su personalidad codificada para solucionar, editar o crear cualquier imagen realista que desee.
Esto es sorprendente y aterrador si me preguntas, especialmente cuando miras los resultados. ¡Mire el video para ver más resultados y comprender cómo funciona el modelo!
¡Vea el podcast What's AI para obtener más contenido de IA en forma de entrevistas con expertos en el campo! Un experto en IA invitado y yo cubriremos temas específicos, subcampos y roles relacionados con la IA para enseñar y compartir conocimiento de las personas que trabajaron duro para reunirlo.
Todos hemos escuchado sobre GPT-3 y tenemos una idea clara de sus capacidades. Ciertamente, ha visto algunas aplicaciones nacidas estrictamente debido a este modelo, algunas de las cuales cubrí en un video anterior sobre el modelo. GPT-3 es un modelo desarrollado por OpenAI al que puede acceder a través de una API paga pero que no tiene acceso al modelo en sí.
Lo que hace que GPT-3 sea tan fuerte es tanto su arquitectura como su tamaño. Tiene 175 mil millones de parámetros. ¡El doble de la cantidad de neuronas que tenemos en nuestros cerebros! Esta inmensa red estaba prácticamente entrenada en todo Internet para comprender cómo escribimos, intercambiamos y entendemos el texto. Esta semana, Meta ha dado un gran paso adelante para la comunidad. Acaban de lanzar un modelo que es igual de poderoso, si no más y lo ha abierto completamente.
Blobgan permite la manipulación irreal de las imágenes, realizadas de control sencillo sencillo. Todos estos pequeños blobs representan un objeto, y puede moverlos o hacerlos más grandes, más pequeños o incluso eliminarlos, y tendrá el mismo efecto en el objeto que representa en la imagen. ¡Esto es genial!
Como los autores compartieron sus resultados, incluso puede crear imágenes novedosas duplicando blobs, creando imágenes invisibles en el conjunto de datos como una habitación con dos ventiladores de techo. Corrígeme si me equivoco, pero creo que es uno de los primeros, si no el primero, el documento para hacer que la modificación de las imágenes sean tan simples como mover blobs y permitir que las ediciones no se vean en el conjunto de datos de entrenamiento.
¡Y puedes jugar con este en comparación con algunas compañías que todos conocemos! Compartieron su código públicamente y una demostración de Colab que puede probar de inmediato. Aún más emocionante es cómo funciona Blobgan. ¡Obtenga más información en el video!
¡Gato de Deepmind acaba de publicar! ¡Es un solo transformador que puede jugar juegos de Atari, imágenes de subtítulos, chatear con personas, controlar un brazo robótico real y más! De hecho, está entrenado una vez y usa los mismos pesos para lograr todas esas tareas. Y según DeepMind, esto no es solo un transformador sino también un agente. Esto es lo que sucede cuando mezclas transformadores con progreso en agentes de aprendizaje de refuerzo de varias tareas.
Gato es un agente multimodal. Lo que significa que puede crear subtítulos para imágenes o responder preguntas como chatbot. Diría que GPT-3 ya puede hacer eso, pero Gato puede hacer más ... La multimodalidad proviene del hecho de que Gato también puede jugar a los juegos de Atari a nivel humano o incluso hacer tareas del mundo real, como controlar los brazos robóticos para mover objetos con precisión. Entiende palabras, imágenes e incluso física ...
Si pensó que Dall-E 2 tuvo excelentes resultados, espere hasta que vea lo que puede hacer este nuevo modelo de Google Brain.
Dalle-E es sorprendente, pero a menudo carece de realismo, y esto es lo que el equipo atacó con este nuevo modelo llamado Imagen.
Comparten muchos resultados en la página de su proyecto, así como un punto de referencia, que introdujeron para comparar modelos de texto a imagen, donde claramente superan a Dall-E 2, y los enfoques de generación de imágenes anteriores. Obtenga más información en el video ...
Dalle Mini es increíble, ¡y puedes usarlo!
Estoy seguro de que has visto fotos como las de tu feed de Twitter en los últimos días. Si se preguntó qué eran, son imágenes generadas por una IA llamada Dall · E Mini. Si nunca los has visto, debes ver este video porque te estás perdiendo. Si se pregunta cómo es posible, bueno, está en el video perfecto y sabrá la respuesta en menos de cinco minutos.
Dalle Mini es una IA gratuita de código abierto que produce imágenes sorprendentes a partir de entradas de texto.
El modelo más reciente de Meta AI, llamado "No queda lenguaje, hace exactamente eso: se traduce en 200 idiomas diferentes con una calidad de vanguardia. Un solo modelo puede manejar 200 idiomas. ¿Qué tan increíble es eso?
Nos resulta difícil tener excelentes resultados estrictamente en inglés, mientras que Meta está abordando 200 idiomas diferentes con el mismo modelo, y algunos de los más complicados y menos representados que incluso traducen Google luchas con ...
Reconstruyen el sonido con cámaras y un haz láser en cualquier superficie vibratoria, lo que les permite aislar instrumentos musicales, centrarse en un altavoz específico, eliminar los ruidos ambientales y muchas más aplicaciones sorprendentes.
Make-a-Scene no es "solo otro Dalle". El objetivo de este nuevo modelo no es permitir a los usuarios generar imágenes aleatorias después del texto del texto como lo hace Dalle, lo cual es realmente genial, pero restringe el control del usuario en las generaciones.
En cambio, Meta quería impulsar la expresión creativa, fusionando esta tendencia de texto a imagen con modelos anteriores de boceto a imagen, lo que llevó a "Make-A-Scene": una fantástica combinación entre el texto y la generación de imágenes con boceto.
¡Crea modelos 3D deformables a partir de imágenes con Banmo!
¿Qué tienen en común todos los modelos de imagen súper poderosos recientes como Dalle, Imagen o MidJourney? Aparte de sus altos costos informáticos, un gran tiempo de entrenamiento y exageración compartida, todos se basan en el mismo mecanismo: la difusión. Los modelos de difusión recientemente lograron resultados de vanguardia para la mayoría de las tareas de imagen, incluidos el texto a la imagen con Dalle, pero muchas otras tareas relacionadas con la generación de imágenes, como la invasión de la imagen, la transferencia de estilo o la súper resolución de la imagen.
? Si desea apoyar mi trabajo , puede verificar para patrocinar este repositorio o apoyarme en Patreon.
La generación de gráficos de la escena panóptica, o PSG, es una nueva tarea de problemas con el objetivo de generar una representación gráfica más completa de una imagen o escena basada en la segmentación panóptica en lugar de las cajas delimitadoras. Se puede usar para comprender las imágenes y generar oraciones que describan lo que está sucediendo. ¡Esta puede ser la tarea más desafiante para una IA! Obtenga más información a continuación ...
Los modelos de texto a imagen como Dalle o difusión estable son realmente geniales y nos permiten generar imágenes fantásticas con una simple entrada de texto. ¿Pero sería aún más genial darles una foto tuya y pedirle que lo convierta en una pintura? Imagine poder enviar cualquier imagen de un objeto, persona o incluso su gato, y pídale al modelo que lo transforme en otro estilo como convertirse en un cyborg de su estilo artístico preferido o agregarlo a una nueva escena.
Básicamente, ¿qué tan genial sería tener una versión de Dalle que podamos usar para Photoshop nuestras imágenes en lugar de tener generaciones aleatorias? Tener un dalle personalizado, al tiempo que hace que sea mucho más simple controlar la generación como "una imagen vale más que mil palabras". Sería como tener un modelo Dalle que sea tan personalizado y adictivo como el algoritmo Tiktok.
Bueno, esto es en lo que trabajaron los investigadores de la Universidad de Tel Aviv y Nvidia. Desarrollaron un enfoque para acondicionar modelos de texto a imagen, como la difusión estable que cubrí la semana pasada, con algunas imágenes para representar cualquier objeto o concepto a través de las palabras que enviará a lo largo de sus imágenes. ¡Transformando el objeto de sus imágenes de entrada en lo que desee!
Hemos visto la IA generar texto, luego generar imágenes y más recientemente incluso generar videos cortos, a pesar de que todavía necesitan trabajo. Los resultados son increíbles cuando crees que nadie está realmente involucrado en el proceso de creación de estas piezas y solo tiene que ser entrenado una vez para ser usado por miles de personas como la difusión estable. Aún así, ¿entienden realmente estos modelos lo que están haciendo? ¿Saben lo que realmente representa la imagen o el video que acaban de producir? ¿Qué entiende tal modelo cuando ve tal imagen o, aún más complejo, un video?
El nuevo modelo de Meta AI Make-A-Video está fuera y en una sola oración: genera videos a partir de texto. ¡No solo es capaz de generar videos, sino que también es el nuevo método de vanguardia, que produce videos de mayor calidad y más coherentes que nunca!
¿Alguna vez ha soñado con una buena herramienta de transcripción que entendiera con precisión lo que dice y la escribe? No como las herramientas automáticas de traducción de YouTube ... quiero decir, son buenas pero lejos de ser perfectas. Solo pruébelo y encienda la función para el video, y verá de lo que estoy hablando.
Afortunadamente, Openai acaba de lanzar y de código abierto un modelo de IA bastante poderoso solo para eso: Whisper.
Entiende cosas que ni siquiera puedo comprender, no ser un hablante nativo de inglés (escucha en el video) y también funciona para la traducción del idioma.
Hemos visto modelos capaces de tomar una oración y generar imágenes. Luego, otros enfoques para manipular las imágenes generadas aprendiendo conceptos específicos como un objeto o estilo particular.
La semana pasada, Meta publicó el modelo Make-A-Video que cubrí, que le permite generar un video corto también a partir de una oración de texto. Los resultados aún no son perfectos, pero el progreso que hemos logrado en el campo desde el año pasado es simplemente increíble.
Esta semana damos otro paso adelante.
Aquí está Dreamfusion, un nuevo modelo de investigación de Google que puede comprender una oración lo suficiente como para generar un modelo 3D de la misma. Puede ver esto como una difusión dalle o estable pero en 3D.
Si cree que los modelos recientes de generación de imágenes como Dalle o la difusión estable son geniales, simplemente no creerá lo increíble que es este. "Este" es imágenes. Imagic toma un modelo basado en la difusión capaz de tomar texto y generar imágenes y adapta el modelo para editar las imágenes. Puede generar una imagen y luego enseñarle al modelo a editarla de la manera que desee.
Ediffi, el modelo más reciente de Nvidia, genera imágenes más atractivas y más precisas que todos los enfoques anteriores como Dalle 2 o difusión estable. Ediffi comprende mejor el texto que envía y es más personalizable, agregando una función que vimos en un artículo anterior de Nvidia: The Painter Tool.
? Si desea apoyar mi trabajo , puede verificar para patrocinar este repositorio o apoyarme en Patreon.
¡Genere nuevos marcos infinitos como si estuviera volando a su imagen!
Galactica es un modelo de lenguaje grande con un tamaño comparable a GPT-3, pero especializado en conocimiento científico. El modelo puede escribir en blanco, revisiones, páginas de Wikipedia y código. Sabe cómo citar y cómo escribir ecuaciones. Es un gran problema para la IA y la ciencia.
Desde un solo video, pueden sintetizar a la persona que habla por casi cualquier palabra o oración en tiempo real con mejor calidad. Puede animar una cabeza parlante después de cualquier pista de audio en tiempo real.
ChatGPT se ha apoderado de Twitter y casi todo Internet, gracias a su poder y al potencial de meme que proporciona. Todos sabemos cómo poder generar memes es la mejor manera de conquistar Internet, por lo que funcionó.
Dado que ha visto numerosos ejemplos, es posible que ya sepa que ChatGPT es una IA lanzada recientemente al público por OpenAI, con el que puede chatear. También se llama chatbot, lo que significa que puede interactuar con él conversando, imitando una discusión humana individual.
Lo que quizás no sepa es qué es y cómo funciona ... ¡Vea el video o lea el artículo o la publicación de blog a continuación para obtener más información!
Ya sea por diversión en un filtro de Snapchat, para una película, o incluso para eliminar algunas arrugas, todos tenemos una utilidad en mente para poder cambiar nuestra edad en una imagen.
Esto generalmente lo hacen artistas calificados que usan Photoshop o una herramienta similar para editar sus imágenes. ¡Lo peor, en un video, tienen que hacer este tipo de edición manual para cada cuadro! Solo imagine la cantidad de trabajo necesaria para eso. Bueno, aquí hay una solución y un nuevo problema para esta situación ...?
Si desea leer más documentos y tener una visión más amplia, aquí hay otro gran repositorio para usted que cubre 2021: 2021: un año lleno de documentos de IA increíbles: una reseña y no dude en suscribirse a mi boletín semanal y mantenerse al día ¡Date con nuevas publicaciones en IA para 2022!
¡Etiquetame en Twitter @Whats_Ai o LinkedIn @louis (What's AI) Bouchard si comparte la lista!
[1] Suvorov, R., Logacheva, E., Mashikhin, A., Remizova, A., Ashukha, A., Silvestrov, A., Kong, N., Goka, H., Park, K. y Lempitsky, V., 2022. Resolución-robusta de máscara grande Inpenación con convoluciones de Fourier. En Actas de la Conferencia de Invierno IEEE/CVF sobre aplicaciones de la visión por computadora (pp. 2149–2159)., Https://arxiv.org/pdf/2109.07161.pdf
[2] Tzaban, R., Mokady, R., Gal, R., Bermano, Ah y Cohen-Or, D., 2022. Costarlo en el tiempo: edición facial basada en GaN de videos reales. https://arxiv.org/abs/2201.08361
[3] Kuang, Z., Olszewski, K., Chai, M., Huang, Z., Achlioptas, P. y Tulyakov, S., 2022. Neroic: Renderización neural de objetos de colecciones de imágenes en línea. https://arxiv.org/pdf/2201.02533.pdf
[4] Borsos, Z., Sharifi, M. y Tagliasacchi, M., 2022. SpeechPainter: Inpenación de discursos con texto con texto. https://arxiv.org/pdf/2202.07273.pdf
[5] Wang, X., Li, Y., Zhang, H. and Shan, Y., 2021. Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9168–9178), https://arxiv.org/pdf/2101.04061.pdf
[6] Piergiovanni, AJ, Casser, V., Ryoo, MS and Angelova, A., 2021. 4d-net for learned multi-modal alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15435–15445), https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf.
[7] Thomas Muller, Alex Evans, Christoph Schied and Alexander Keller, 2022, "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
[8] A. Ramesh et al., 2022, "Hierarchical Text-Conditional Image Generation with CLIP Latents", https://cdn.openai.com/papers/dall-e-2.pdf
[9] Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
[10] Zhang, Susan et al. “OPT: Open Pre-trained Transformer Language Models.” https://arxiv.org/abs/2205.01068
[11] Epstein, D., Park, T., Zhang, R., Shechtman, E. and Efros, AA, 2022. BlobGAN: Spatially Disentangled Scene Representations. arXiv preprint arXiv:2205.02837.
[12] Reed S. et al., 2022, Deemind: Gato - A generalist agent, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
[13] Saharia et al., 2022, Google Brain, Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://gweb-research-imagen.appspot.com/paper.pdf
[14] Dayma, et al., 2021, DALL·E Mini, doi:10.5281/zenodo.5146400
[15] NLLB Team et al., 2022, No Language Left Behind: Scaling Human-Centered Machine Translation
[16] Sheinin, Mark and Chan, Dorian and O'Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
[17] Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. and Taigman, Y., 2022. Make-a-scene: Scene-based text-to-image generation with human priors. https://arxiv.org/pdf/2203.13131.pdf
[18] Yang, G., Vo, M., Neverova, N., Ramanan, D., Vedaldi, A. and Joo, H., 2022. Banmo: Building animatable 3d neural models from many casual videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2863-2873).
[19] Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
[20] Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. and Liu, Z., 2022. Panoptic Scene Graph Generation. arXiv preprint arXiv:2207.11247.
[21] Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH, Chechik, G. and Cohen-Or, D., 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.
[22] Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and Ling, H., 2022. Expanding Language-Image Pretrained Models for General Video Recognition. arXiv preprint arXiv:2208.02816.
[23] Singer et al. (Meta AI), 2022, “MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA”, https://makeavideo.studio/Make-A-Video.pdf
[24] Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. and Sutskever, I., Robust Speech Recognition via Large-Scale Weak Supervision.
[25] Poole, B., Jain, A., Barron, JT and Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. arXiv preprint arXiv:2209.14988.
[26] Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
[27] Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
[28] Li, Z., Wang, Q., Snavely, N. and Kanazawa, A., 2022. InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images. In European Conference on Computer Vision (pp. 515–534). Springer, Cham, https://arxiv.org/abs/2207.11148
[29] Taylor et al., 2022: Galactica: A Large Language Model for Science, https://galactica.org/
[30] Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv preprint arXiv:2211.12368.
[31] OpenAI, 2022: ChatGPT: Optimizing Language Models for Dialogue, https://openai.com/blog/chatgpt/
[32] Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/