LLM · NLP
Text2All · All2All
Multimodal · tareas múltiples
La inteligencia humana prospera en el concepto de sinergia cognitiva, donde la colaboración y la integración de la información entre los diferentes procesos cognitivos producen resultados superiores en comparación con los procesos cognitivos individuales de forma aislada. Aunque los modelos de idiomas grandes (LLM) han demostrado un rendimiento prometedor como agentes generales de resolución de tareas, todavía luchan con tareas que requieren conocimiento intensivo de dominio y razonamiento complejo. En este trabajo, proponemos la solicitud de rendimiento en solitario (SPP), que transforma un solo LLM en un sinergista cognitivo al participar en la autocolaboración múltiple con múltiples personajes. Un sinergista cognitivo se refiere a un agente inteligente que colabora con múltiples mentes, combinando sus fortalezas y conocimientos individuales, para mejorar la resolución de problemas y el rendimiento general en tareas complejas. Al identificar y simular dinámicamente diferentes personajes basados en entradas de tareas, SPP desata el potencial de la sinergia cognitiva en LLM. Hemos descubierto que asignar múltiples personajes de grano fino en LLMS provoca mejores habilidades de resolución de problemas en comparación con el uso de un número único o fijo de personas. Evaluamos SPP en tres tareas desafiantes: trivia creativa, colaboración de los nombres de código y rompecabezas de cuadrícula lógica, que abarca los tipos de conocimiento intensivo y de razonamiento. A diferencia de los trabajos anteriores, como la cadena de pensamiento, que mejoran únicamente las habilidades de razonamiento en LLMS, SPP provoca efectivamente las habilidades de adquisición de conocimiento interno, reduce la alucinación y mantiene fuertes capacidades de razonamiento. El código, los datos y las indicaciones se pueden encontrar en: esta URL HTTPS.
Presentamos LLM-Blender, un marco conjunto diseñado para lograr un rendimiento consistentemente superior al aprovechar las diversas fortalezas de múltiples modelos de lenguaje de código abierto (LLM). Nuestro marco consta de dos módulos: Parranker y Genfuser, abordando la observación de que los LLM óptimos para diferentes ejemplos pueden variar significativamente. PareRanker emplea un método especializado de comparación por pares para distinguir diferencias sutiles entre los resultados candidatos. Codifica conjuntamente el texto de entrada y un par de candidatos, utilizando codificadores cruzados para determinar el superior. Nuestros resultados demuestran que Parranker exhibe la correlación más alta con la clasificación basada en ChatGPT. Luego, Genfuser tiene como objetivo fusionar a los candidatos mejor clasificados, generando una producción mejorada al capitalizar sus fortalezas y mitigar sus debilidades. Para facilitar la evaluación a gran escala, presentamos un conjunto de datos de referencia, MixInstruct, que es una mezcla de conjuntos de datos de instrucciones múltiples con comparaciones de Oracle por pares. Nuestro LLM-Blender superan significativamente las LLM individuales y los métodos de referencia en varias métricas, estableciendo una brecha sustancial de rendimiento.
Los modelos de idiomas grandes (LLM) han demostrado ser prometedor para probar teoremas formales utilizando asistentes de prueba como Lean. Sin embargo, los métodos existentes son difíciles de reproducir o construir, debido al código privado, los datos y los grandes requisitos de cómputo. Esto ha creado barreras sustanciales para la investigación sobre métodos de aprendizaje automático para la prueba del teorema. Este documento elimina estas barreras al introducir Leandojo: un patio de recreo Lean de código abierto que consiste en kits de herramientas, datos, modelos y puntos de referencia. Leandojo extrae datos de Lean y permite la interacción con el entorno de prueba programáticamente. Contiene anotaciones de grano fino de las premisas en las pruebas, proporcionando datos valiosos para la selección de premisas, un cuello de botella clave en la prueba del teorema. Utilizando estos datos, desarrollamos ReProver (Prover de recuperación de recuperación): el primer prover basado en LLM que se aumenta con la recuperación para seleccionar instalaciones de una vasta biblioteca de matemáticas. Es económico y solo necesita una semana de entrenamiento GPU. Nuestro Retriever aprovecha la capacidad de análisis del programa de Leandojo para identificar premisas accesibles y ejemplos negativos duros, lo que hace que la recuperación sea mucho más efectiva. Además, construimos un nuevo punto de referencia que consta de 96,962 teoremas y pruebas extraídas de la biblioteca de matemáticas de Lean. Cuenta con una división de datos desafiantes que requieren que el Prover generalice a los teoremas que dependen de las premisas novedosas que nunca se usan en la capacitación. Utilizamos este punto de referencia para la capacitación y la evaluación, y los resultados experimentales demuestran la efectividad del reprover en líneas de base no retrievales y GPT-4. Por lo tanto, proporcionamos el primer conjunto de retrocesos de teorema basados en LLM de código abierto sin ningún conjunto de datos patentados y lo lanzamos bajo una licencia MIT permisiva para facilitar más investigaciones.
Responder consultas visuales es una tarea compleja que requiere procesamiento visual y razonamiento. Los modelos de extremo a extremo, el enfoque dominante para esta tarea, no diferencian explícitamente entre los dos, lo que limita la interpretabilidad y la generalización. El aprendizaje de los programas modulares presenta una alternativa prometedora, pero ha demostrado ser desafiante debido a la dificultad de aprender tanto los programas como los módulos simultáneamente. Introducimos VIPERGPT, un marco que aprovecha los modelos de generación de código para componer modelos de visión y lenguaje en subrutinas para producir un resultado para cualquier consulta. VIPERGPT utiliza una API proporcionada para acceder a los módulos disponibles y los compone generando el código Python que luego se ejecuta. Este enfoque simple no requiere más entrenamiento y logra resultados de última generación en varias tareas visuales complejas.
La longitud de la secuencia de escala se ha convertido en una demanda crítica en la era de los modelos de idiomas grandes. Sin embargo, los métodos existentes luchan con la complejidad computacional o la expresividad del modelo, lo que hace que la longitud de secuencia máxima restringida. En este trabajo, presentamos LongNet, una variante del transformador que puede escalar la longitud de la secuencia a más de mil millones de tokens, sin sacrificar el rendimiento en secuencias más cortas. Específicamente, proponemos la atención dilatada, lo que expande el campo atento exponencialmente a medida que la distancia crece. LongNet tiene ventajas significativas: 1) tiene una complejidad de cálculo lineal y una dependencia del logaritmo entre tokens; 2) Se puede servir como entrenador distribuido para secuencias extremadamente largas; 3) Su atención dilatada es un reemplazo de atención para la atención estándar, que puede integrarse sin problemas con la optimización basada en transformadores existentes. Los resultados de los experimentos demuestran que LongNet produce un fuerte rendimiento tanto en el modelado de secuencia larga como en las tareas de lenguaje general. Nuestro trabajo abre nuevas posibilidades para modelar secuencias muy largas, por ejemplo, tratar un corpus completo o incluso todo el Internet como una secuencia.
Está surgiendo una gran convergencia del lenguaje, la visión y el pretrenesa multimodal. En este trabajo, presentamos un modelo de base multimodal de uso general BEIT-3, que logra el rendimiento de transferencia de última generación en tareas de visión y lenguaje de visión. Específicamente, avanzamos la gran convergencia de tres aspectos: arquitectura de la troncal, tarea previa a la altura y ampliación del modelo. Introducimos a los transformadores múltiples para el modelado de uso general, donde la arquitectura modular permite la fusión profunda y la codificación específica de la modalidad. Basado en la columna vertebral compartida, realizamos un modelado de "lenguaje" enmascarado en imágenes (IMGlish), textos (inglés) y pares de texto de imagen ("oraciones paralelas") de manera unificada. Los resultados experimentales muestran que BEIT-3 obtiene el rendimiento de última generación en la detección de objetos (COCO), la segmentación semántica (ADE20K), la clasificación de imágenes (Imagenet), el razonamiento visual (NLVR2), la respuesta de preguntas visuales (VQAV2), el subtitulación de imágenes (COCO) y el retrovelo intermodal (Flickr30K, Coco).
Los modelos de idiomas grandes (LLM) han visto una impresionante ola de avances recientemente, con modelos que ahora se destacan en una variedad de tareas, como el razonamiento matemático y la síntesis del programa. Sin embargo, su potencial para usar herramientas de manera efectiva a través de llamadas API permanece sin cumplir. Esta es una tarea desafiante incluso para los LLM de vanguardia de hoy como GPT-4, en gran parte debido a su incapacidad para generar argumentos de entrada precisos y su tendencia a alucinar el uso incorrecto de una llamada API. Lanzamos Gorilla, un modelo de Finetuned Llama que supera el rendimiento de GPT-4 al escribir llamadas API. Cuando se combina con un documento Retriever, Gorilla demuestra una fuerte capacidad para adaptarse a los cambios de documento de tiempo de prueba, habilitando actualizaciones flexibles de los usuarios o cambios de versión. También mitiga sustancialmente el problema de la alucinación, comúnmente encontrado al solicitar LLM directamente. Para evaluar la capacidad del modelo, presentamos a Apibench, un conjunto de datos integral que consiste en API Huggingface, Torchhub y Tensorhub. La integración exitosa del sistema de recuperación con Gorilla demuestra el potencial de que LLMS utilice las herramientas con mayor precisión, mantenga al día con la documentación actualizada con frecuencia y, en consecuencia, aumente la confiabilidad y aplicabilidad de sus resultados. El modelo y el código de gorila están disponibles en https://github.com/shishirpatil/gorilla.
Los modelos de lenguaje grande (LLM) han logrado un progreso notable en varias tareas de procesamiento del lenguaje natural con habilidades emergentes. Sin embargo, enfrentan limitaciones inherentes, como la incapacidad de acceder a la información actualizada, utilizar herramientas externas o realizar un razonamiento matemático preciso. En este artículo, presentamos a Chameleon, un marco de razonamiento de composición plug-and-play que aumenta los LLM para ayudar a abordar estos desafíos. Chameleon sintetiza programas para componer diversas herramientas, incluidos los modelos LLM, los modelos de visión estándar, los motores de búsqueda web, las funciones de Python y los módulos basados en reglas adaptados a los intereses de los usuarios. Construido sobre un LLM como un planificador de lenguaje natural, Chameleon infiere la secuencia apropiada de herramientas para componer y ejecutar para generar una respuesta final. Mostramos la adaptabilidad y efectividad del camaleón en dos tareas: Scienceqa y TabMWP. En particular, el camaleón con GPT-4 logra una precisión del 86.54% en ScienceQA, mejorando significativamente el modelo de pocos disparos mejor publicado en un 11.37%; Usando GPT-4 como LLM subyacente, Chameleon logra un aumento del 17.8% sobre el modelo de última generación, lo que lleva a una precisión general del 98.78% en TABMWP. Otros estudios sugieren que el uso de GPT-4 como planificador exhibe una selección de herramientas más consistente y racional y es capaz de inferir posibles restricciones dadas las instrucciones, en comparación con otros LLM como ChatGPT.
Cómo transformar eficientemente los modelos de idiomas grandes (LLM) en seguidores de instrucciones es recientemente una dirección de investigación popular, mientras que la capacitación de LLM para razonamiento multimodal sigue siendo menos explorado. Aunque el reciente adaptador de llamas demuestra el potencial para manejar las entradas visuales con LLM, aún no puede generalizarse bien a las instrucciones visuales abiertas y los retrasos detrás de GPT-4. En este artículo, presentamos LLAMA-Adapter V2, un modelo de instrucción visual eficiente en parámetros. Específicamente, primero aumentamos el adaptador de LLAMA desbloqueando más parámetros aprendizables (por ejemplo, norma, sesgo y escala), que distribuyen la capacidad de seguimiento de instrucciones en todo el modelo de LLAMA además de adaptadores. En segundo lugar, proponemos una estrategia de fusión temprana para alimentar tokens visuales solo en las primeras capas de LLM, contribuyendo a una mejor incorporación de conocimiento visual. En tercer lugar, se introduce un paradigma de entrenamiento conjunto de pares de texto de imagen y datos de seguimiento de instrucciones optimizando grupos disjuntos de parámetros aprendizables. Esta estrategia alivia efectivamente la interferencia entre las dos tareas de alineación de texto de imagen e instrucción que sigue y logra un fuerte razonamiento multimodal con solo un conjunto de datos de texto de imagen a pequeña escala y un conjunto de datos de instrucciones. Durante la inferencia, incorporamos modelos expertos adicionales (p. Ej. Sistemas de subtítulos/OCR) en el administrador de LLAMA para mejorar aún más su capacidad de comprensión de imágenes sin incurrir en costos de capacitación. En comparación con el complemento de LLAMA original, nuestro Llama-Adapter V2 puede realizar instrucciones multimodales abiertas simplemente introduciendo parámetros de 14M sobre LLAMA. El marco recientemente diseñado también exhibe capacidades más fuertes de seguimiento de instrucciones de lenguaje e incluso sobresale en las interacciones de chat. Nuestro código y modelos están disponibles en esta URL HTTPS.
Los representantes creíbles del comportamiento humano pueden empoderar a aplicaciones interactivas que van desde entornos inmersivos hasta espacios de ensayo para la comunicación interpersonal y las herramientas de prototipos. En este artículo, introducimos agentes generativos, agentes de software computacionales que simulan un comportamiento humano creíble. Los agentes generativos se despiertan, cocinan el desayuno y se dirigen al trabajo; Los artistas pintan, mientras los autores escriben; Forman opiniones, se observan e inician conversaciones; Recordan y reflexionan sobre los días pasados mientras planean al día siguiente. Para habilitar agentes generativos, describimos una arquitectura que extiende un modelo de lenguaje grande para almacenar un registro completo de las experiencias del agente utilizando el lenguaje natural, sintetizar esos recuerdos a lo largo del tiempo en reflexiones de nivel superior y recuperarlas dinámicamente para planificar el comportamiento. Instanciamos a los agentes generativos para poblar un entorno de sandbox interactivo inspirado en los Sims, donde los usuarios finales pueden interactuar con una pequeña ciudad de veinticinco agentes que usan lenguaje natural. En una evaluación, estos agentes generativos producen comportamientos sociales individuales y emergentes creíbles: por ejemplo, comenzando con una sola noción especificada por el usuario de que un agente quiere organizar una fiesta de San Valentín, los agentes difundieron de manera autónoma las invitaciones a la fiesta durante los próximos dos días, se invitan a las fechas a los demás a las fechas a la fiesta y coordinan a la fiesta en el momento. Demostramos a través de la ablación que los componentes de nuestra arquitectura de agente, observación, planificación y reflexión, cada uno contribuye críticamente a la credibilidad del comportamiento del agente. Al fusionar modelos de idiomas grandes con agentes computacionales e interactivos, este trabajo introduce patrones arquitectónicos e de interacción para permitir simulaciones creíbles del comportamiento humano.
Los avances recientes en los agentes del Modelo de Language de la toma de decisiones (LLM) han demostrado un rendimiento impresionante en varios puntos de referencia. Sin embargo, estos enfoques de vanguardia generalmente requieren un modelo interno ajustado, ajuste del modelo externo o optimización de políticas sobre un espacio de estado definido. La implementación de estos métodos puede resultar desafiante debido a la escasez de datos de capacitación de alta calidad o la falta de espacio estatal bien definido. Además, estos agentes no poseen ciertas cualidades inherentes a los procesos de toma de decisiones humanas, específicamente la capacidad de aprender de los errores. La autorreflexión permite a los humanos resolver eficientemente nuevos problemas a través de un proceso de prueba y error. Sobre la base de investigaciones recientes, proponemos la reflexión, un enfoque que día a un agente con memoria dinámica y capacidades de autorreflexión para mejorar sus habilidades de elección de acción de razonamiento existentes y trazas de tareas. Para lograr una automatización completa, introducimos una heurística directa pero efectiva que permite al agente identificar instancias de alucinación, evitar la repetición en las secuencias de acción y, en algunos entornos, construir un mapa de memoria interna del entorno dado. Para evaluar nuestro enfoque, evaluamos la capacidad del agente para completar las tareas de toma de decisiones en entornos de Alfworld y tareas de preguntas y respuestas basadas en el conocimiento, intensivas en el conocimiento, en entornos de hotpotqa. Observamos tasas de éxito del 97% y 51%, respectivamente, y proporcionamos una discusión sobre la propiedad emergente de la autorreflexión.
Al igual que las personas, las LLM no siempre generan el mejor texto para un problema de generación determinado en su primer intento (por ejemplo, resúmenes, respuestas, explicaciones). Al igual que las personas refinan su texto, introducimos autorrefino, un marco para mejorar de manera similar las salidas iniciales de los LLM a través de la retroalimentación y el refinamiento iterativo. La idea principal es generar una salida utilizando un LLM, luego permitir que el mismo modelo proporcione retroalimentación múltiple para su propia salida; Finalmente, el mismo modelo refina su salida previamente generada dada su propia retroalimentación. A diferencia del trabajo anterior, nuestro marco de refinamiento iterativo no requiere datos de capacitación supervisados o aprendizaje de refuerzo, y funciona con un solo LLM. Experimentamos con 7 tareas diversas, que van desde la revisión de la reescritura hasta el razonamiento matemático, lo que demuestra que nuestro enfoque supera a la generación directa. En todas las tareas, las salidas generadas con auto-refina son preferidas por los humanos y mediante métricas automatizadas sobre las generadas directamente con GPT-3.5 y GPT-4, mejorando en promedio en un 20% absoluto en todas las tareas.
Resolver tareas de IA complicadas con diferentes dominios y modalidades es un paso clave hacia la inteligencia artificial avanzada. Si bien hay abundantes modelos de IA disponibles para diferentes dominios y modalidades, no pueden manejar tareas complicadas de IA. Teniendo en cuenta que los grandes modelos de idiomas (LLM) han exhibido una capacidad excepcional en la comprensión del lenguaje, la generación, la interacción y el razonamiento, abogamos por que LLMS podría actuar como un controlador para administrar los modelos de IA existentes para resolver tareas y lenguaje de IA complicados podría ser una interfaz genérica para capacitar esto. Basado en esta filosofía, presentamos a HuggingGPT, un marco que aprovecha los LLM (por ejemplo, ChatGPT) para conectar varios modelos de IA en las comunidades de aprendizaje automático (por ejemplo, abrazar la cara) para resolver tareas de IA. Específicamente, utilizamos CHATGPT para realizar la planificación de tareas al recibir una solicitud de usuario, seleccionar modelos de acuerdo con sus descripciones de funciones disponibles para abrazar la cara, ejecutar cada subtarea con el modelo de IA seleccionado y resumir la respuesta de acuerdo con los resultados de la ejecución. Al aprovechar la fuerte capacidad de lenguaje de los modelos de IA ChatGPT y abundantes para abrazar la cara, HuggingGPT es capaz de cubrir numerosas tareas de IA sofisticadas en diferentes modalidades y dominios y lograr resultados impresionantes en el lenguaje, la visión, el habla y otras tareas desafiantes, que allana una nueva manera hacia la inteligencia artificial avanzada.
Auto-GPT es una aplicación experimental de código abierto que muestra las capacidades del modelo de idioma GPT-4. Este programa, impulsado por GPT-4, Chains Together LLM "Pensamientos", para lograr autónomos cualquier objetivo que establezca. Como uno de los primeros ejemplos de GPT-4 que se ejecuta completamente autónomo, Auto-GPT empuja los límites de lo que es posible con AI.
Hay un número de rápido crecimiento de modelos de idiomas grandes (LLM) que los usuarios pueden consultar por una tarifa. Revisamos el costo asociado con la consulta de las API populares de LLM, por ejemplo, GPT-4, ChatGPT, J1-Jumbo, y encontramos que estos modelos tienen estructuras de precios heterogéneas, con tarifas que pueden diferir en dos órdenes de magnitud. En particular, usar LLM en grandes colecciones de consultas y texto puede ser costoso. Motivado por esto, describimos y discutimos tres tipos de estrategias que los usuarios pueden explotar para reducir el costo de inferencia asociado con el uso de LLM: 1) Adaptación rápida, 2) aproximación de LLM y 3) Cascada de LLM. Como ejemplo, proponemos frugalgpt, una instanciación simple pero flexible de la cascada LLM que aprende qué combinaciones de LLMS usar para diferentes consultas para reducir los costos y mejorar la precisión. Nuestros experimentos muestran que Frugalgpt puede igualar el rendimiento del mejor LLM individual (por ejemplo, GPT-4) con hasta el 98% de reducción de costos o mejorar la precisión sobre GPT-4 en un 4% con el mismo costo. Las ideas y hallazgos presentados aquí establecen una base para usar LLM de manera sostenible y eficiente.
Los modelos de idiomas grandes (LLM) han demostrado ser prometedor para probar teoremas formales utilizando asistentes de prueba como Lean. Sin embargo, los métodos existentes son difíciles de reproducir o construir, debido al código privado, los datos y los grandes requisitos de cómputo. Esto ha creado barreras sustanciales para la investigación sobre métodos de aprendizaje automático para la prueba del teorema. Este documento elimina estas barreras al introducir Leandojo: un patio de recreo Lean de código abierto que consiste en kits de herramientas, datos, modelos y puntos de referencia. Leandojo extrae datos de Lean y permite la interacción con el entorno de prueba programáticamente. Contiene anotaciones de grano fino de las premisas en las pruebas, proporcionando datos valiosos para la selección de premisas, un cuello de botella clave en la prueba del teorema. Utilizando estos datos, desarrollamos ReProver (Prover de recuperación de recuperación): el primer prover basado en LLM que se aumenta con la recuperación para seleccionar instalaciones de una vasta biblioteca de matemáticas. Es económico y solo necesita una semana de entrenamiento GPU. Nuestro Retriever aprovecha la capacidad de análisis del programa de Leandojo para identificar premisas accesibles y ejemplos negativos duros, lo que hace que la recuperación sea mucho más efectiva. Además, construimos un nuevo punto de referencia que consta de 96,962 teoremas y pruebas extraídas de la biblioteca de matemáticas de Lean. Cuenta con una división de datos desafiantes que requieren que el Prover generalice a los teoremas que dependen de las premisas novedosas que nunca se usan en la capacitación. Utilizamos este punto de referencia para la capacitación y la evaluación, y los resultados experimentales demuestran la efectividad del reprover en líneas de base no retrievales y GPT-4. Por lo tanto, proporcionamos el primer conjunto de retrocesos de teorema basados en LLM de código abierto sin ningún conjunto de datos patentados y lo lanzamos bajo una licencia MIT permisiva para facilitar más investigaciones.
El trabajo reciente ha demostrado que provocar modelos de lenguaje con representaciones similares a un código de lenguaje natural conduce a mejoras de rendimiento en tareas de razonamiento estructurado. Sin embargo, tales tareas comprenden solo un pequeño subconjunto de todas las tareas de lenguaje natural. En nuestro trabajo, buscamos responder si la promoción del código es la forma preferida de interactuar con los modelos de idiomas en general. Comparamos el código y las indicaciones de texto en tres modelos GPT populares (Davinci, Code-Davinci-002 y Text-Davinci-002) en una selección más amplia de tareas (p. Ej. Además, mostramos que el estilo de aviso de código tiene un gran efecto en el rendimiento para algunas, pero no todas las tareas, y que el ajuste de las instrucciones de texto conduce a un mejor rendimiento relativo de las indicaciones del código.
Los modelos de lenguaje grande (LLM) realizan un razonamiento complejo al generar explicaciones para sus predicciones. Sin embargo, un objetivo complementario de explicaciones es también comunicar un conocimiento útil que mejore los agentes más débiles. Por lo tanto, investigamos si los LLM también son buenos maestros para los agentes más débiles. En particular, consideramos un marco de estudiante-maestro entre dos agentes de LLM y estudiamos si, cuándo y cómo el maestro debe intervenir con explicaciones del lenguaje natural para mejorar el rendimiento del alumno. Dado que la comunicación es costosa, definimos un presupuesto de tal manera que el maestro solo comunica explicaciones para una fracción de los datos, después de lo cual el alumno debe tener un buen desempeño por sí solo. Descompuse el problema de enseñanza a lo largo de cuatro ejes: (1) Si la intervención del tiempo de prueba del maestro mejora las predicciones del alumno, (2) cuando vale la pena explicar un punto de datos, (3) cómo el maestro debe personalizar las explicaciones para enseñar mejor al alumno y (4) si las explicaciones del maestro también mejoran el rendimiento del alumno en futuros datos no explicados. Primero mostramos que el maestro LLM puede intervenir en el razonamiento de los estudiantes para mejorar su rendimiento. A continuación, proponemos un enfoque de la teoría de la mente, en el que el maestro construye dos modelos mentales de pocos disparos del estudiante. El primer modelo define una función de intervención que simula la utilidad de una intervención, lo que permite que el maestro intervenga cuando esta utilidad es la más alta y mejora el rendimiento del alumno con presupuestos más bajos. El segundo modelo permite al maestro personalizar las explicaciones para un estudiante en particular y superar a los maestros no supersonalizados. También demostramos que en las interacciones múltiples, las explicaciones del maestro generalizan y el aprendizaje de los datos explicados mejora el rendimiento del estudiante en datos inexplicables futuros. Finalmente, también verificamos que los maestros desalineados puedan reducir el rendimiento de los estudiantes a la oportunidad aleatoria al engañarlos intencionalmente.
Presentamos Kosmos-2, un modelo de lenguaje grande multimodal (MLLM), que permite nuevas capacidades de percibir las descripciones de objetos (por ejemplo, cajas delimitadoras) y texto de conexión a tierra al mundo visual. Específicamente, representamos las expresiones de referencia como enlaces en Markdown, es decir, `` [Span de texto] (cuadros delimitadores) '', donde las descripciones de los objetos son secuencias de tokens de ubicación. Junto con los corpuses multimodales, construimos datos a gran escala de pares de texto de imagen fundamentados (llamados Grit) para entrenar el modelo. Además de las capacidades existentes de MLLM (por ejemplo, percibir modalidades generales, seguir las instrucciones y realizar el aprendizaje en contexto), Kosmos-2 integra la capacidad de conexión a tierra en aplicaciones posteriores. Evaluamos Kosmos-2 en una amplia gama de tareas, incluida (i) fundamento multimodal, como la comprensión de la expresión de referencia y la base de la frase, (ii) referencia multimodal, como la generación de expresiones de referencia, (iii) tareas del idioma de percepción, y (iv) comprensión y generación del lenguaje. Este trabajo establece las bases para el desarrollo de la realización de IA y arroja luz sobre la gran convergencia del lenguaje, la percepción multimodal, la acción y el modelado mundial, que es un paso clave hacia la inteligencia general artificial. El código y los modelos previos a la pretrada están disponibles en esta URL HTTPS.
Introducimos a Palm 2, un nuevo modelo de idioma de última generación que tiene mejores capacidades multilingües y de razonamiento y es más eficiente en cómputo que su Palm predecesor. Palm 2 es un modelo basado en transformador entrenado utilizando una mezcla de objetivos. A través de evaluaciones extensas sobre el inglés y el lenguaje multilingüe, y las tareas de razonamiento, demostramos que Palm 2 ha mejorado significativamente la calidad en las tareas aguas abajo en diferentes tamaños del modelo, al tiempo que exhibe una inferencia más rápida y eficiente en comparación con la palma. Esta eficiencia mejorada permite un despliegue más amplio, al tiempo que permite que el modelo responda más rápido, para un ritmo de interacción más natural. Palm 2 demuestra capacidades de razonamiento robustas ejemplificadas por grandes mejoras sobre Palm en Big Bench y otras tareas de razonamiento. Palm 2 exhibe un rendimiento estable en un conjunto de evaluaciones de IA responsables y permite el control de tiempo de inferencia sobre la toxicidad sin gastos generales o impacto adicional en otras capacidades. En general, Palm 2 logra el rendimiento de última generación en un conjunto diverso de tareas y capacidades.
Generar el movimiento humano realista a partir de descripciones de acción dadas ha experimentado avances significativos debido al requisito emergente de los humanos digitales. Si bien los trabajos recientes han logrado resultados impresionantes en la generación de movimiento directamente a partir de descripciones de acción textual, a menudo admiten solo una modalidad única de la señal de control, lo que limita su aplicación en la industria humana digital real. Este documento presenta un generador de propósito general de movimiento (MOTMATGPT) que puede usar señales de control multimodales, por ejemplo, texto y poses de un solo marco, para generar movimientos humanos consecutivos tratando señales multimodales como tokens de entrada especiales en modelos de lenguaje grande (LLM). Específicamente, primero cuantificamos las señales de control multimodal en códigos discretos y luego las formulamos en una instrucción rápida unificada para pedirle a los LLM que generen la respuesta de movimiento. Nuestro MotionGPT demuestra un modelo de generación de movimiento humano unificado con señales de control multimodal al ajustar un mero 0.4% de los parámetros LLM. Hasta donde sabemos, Motiongpt es el primer método para generar movimiento humano mediante señales de control multimodal, que esperamos que puedan arrojar luz sobre esta nueva dirección. Los códigos se liberarán tras la aceptación.
Los modelos de lenguaje grande (LLM) han mostrado un rendimiento impresionante en el razonamiento complejo al aprovechar la cadena de pensamiento (COT) que solicitan generar cadenas de razonamiento intermedias como la justificación para inferir la respuesta. Sin embargo, los estudios de cuna existentes se han centrado en la modalidad del lenguaje. Proponemos las modalidades de lenguaje (texto) y visión (imágenes) en un marco de dos etapas que separa la generación de justificación y la inferencia de respuestas. De esta manera, la inferencia de respuestas puede aprovechar los fundamentos mejor generados que se basan en información multimodal. Con el COT multimodal, nuestro modelo inferior a mil millones de parámetros supera a la LLM de estado anterior (GPT-3.5) de estado anterior en 16 puntos porcentuales (75.17%-> 91.68% de precisión) en el punto de referencia ScienceQA e incluso supera el rendimiento humano. El código está disponible públicamente en esta URL HTTPS.
Llama 2: Fundación abierta y modelos de chat fino
UNILM: pretraben de auto-supervisado a gran escala en tareas, idiomas y modalidades
Redes neuronales escandalosamente grandes: la capa de mezcla de experiencias escasamente
GLAM: Escala eficiente de modelos de lenguaje con mezcla de expertos
Visión de escala con una mezcla escasa de expertos
Clasificación de texto de "bajo recurso": un método de clasificación sin parámetros con compresores
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction
[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation
중지
최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.
MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...
유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.
기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.
주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.
| matemáticas | machine learning | Transformador | Cara abrazada |
|---|---|---|---|
![]() | ![]() | ![]() | |
| mathematics for machine learning | Pattern Recognition and Machine Learning | Getting Started with Google BERT | Natural Language Processing with Transformers |