LLM · NLP
Text2all · all2all
Multi-modal · multitarefa
A inteligência humana prospera no conceito de sinergia cognitiva, onde a colaboração e a integração da informação entre diferentes processos cognitivos produzem resultados superiores em comparação com processos cognitivos individuais isoladamente. Embora os grandes modelos de idiomas (LLMs) tenham demonstrado desempenho promissor como agentes gerais de solução de tarefas, eles ainda lutam com tarefas que exigem conhecimento intensivo do domínio e raciocínio complexo. Neste trabalho, propomos o desempenho solo (SPP), que transforma um único LLM em um sinergista cognitivo, envolvendo-se em auto-colaboração com várias personas. Um sinergista cognitivo refere-se a um agente inteligente que colabora com várias mentes, combinando seus pontos fortes e conhecimentos individuais, para melhorar a solução de problemas e o desempenho geral em tarefas complexas. Ao identificar e simular dinamicamente diferentes personas com base em entradas de tarefas, o SPP desencadeia o potencial da sinergia cognitiva no LLMS. Descobrimos que a atribuição de várias personas de granulação fina no LLMS provoca melhores habilidades de solução de problemas em comparação com o uso de um número único ou fixo de personas. Avaliamos o SPP em três tarefas desafiadoras: escrita criativa de trivia, nomes de códigos colaborativos e quebra-cabeça da grade lógica, abrangendo tipos intensivos em conhecimento e raciocínio intensivo. Diferentemente dos trabalhos anteriores, como a cadeia de pensamento, que aumentam apenas as habilidades de raciocínio no LLMS, o SPP provoca efetivamente as habilidades de aquisição de conhecimento interno, reduz a alucinação e mantém fortes capacidades de raciocínio. Código, dados e avisos podem ser encontrados em: Este URL HTTPS.
Apresentamos o LLM-Blender, uma estrutura de conjunto projetada para atingir um desempenho consistentemente superior, alavancando os diversos pontos fortes de vários modelos de linguagem de grande fonte abertos (LLMS). Nossa estrutura consiste em dois módulos: Paranker e Genfuser, abordando a observação de que o LLMS ideal para diferentes exemplos pode variar significativamente. O Paranranker emprega um método de comparação em pares especializado para distinguir diferenças sutis entre os resultados do candidato. Ele codifica em conjunto o texto de entrada e um par de candidatos, usando codificadores de atendimento cruzado para determinar o superior. Nossos resultados demonstram que o Paranranker exibe a maior correlação com a classificação baseada em ChatGPT. Então, a Genfuser pretende mesclar os candidatos mais bem classificados, gerando uma produção aprimorada capitalizando seus pontos fortes e mitigando suas fraquezas. Para facilitar a avaliação em larga escala, introduzimos um conjunto de dados de referência, o MixInstruct, que é uma mistura de conjuntos de dados de instruções múltiplas com comparações do Oracle em pares. Nosso Blender LLM supera significativamente os LLMs individuais e os métodos de linha de base em várias métricas, estabelecendo uma lacuna de desempenho substancial.
Os grandes modelos de idiomas (LLMs) mostraram -se promissores ao provar teoremas formais usando assistentes de prova como Lean. No entanto, os métodos existentes são difíceis de reproduzir ou construir, devido a código privado, dados e grandes requisitos de computação. Isso criou barreiras substanciais à pesquisa sobre métodos de aprendizado de máquina para a prova de teorema. Este artigo remove essas barreiras, introduzindo Leanjojo: um playground Lean de código aberto que consiste em kits de ferramentas, dados, modelos e benchmarks. O LeanDojo extrai dados do Lean e permite a interação com o ambiente de prova programaticamente. Ele contém anotações de grão fino de instalações em provas, fornecendo dados valiosos para a seleção da premissa-um gargalo-chave no teorema. Usando esses dados, desenvolvemos a reprovagem (provador de recuperação com agente de recuperação): o primeiro provador baseado em LLM que é aumentado com a recuperação para selecionar instalações de uma vasta biblioteca de matemática. É barato e precisa de apenas uma semana de treinamento da GPU. Nosso Retriever aproveita a capacidade de análise de programa da Leanjojo para identificar premissas acessíveis e exemplos negativos difíceis, o que torna a recuperação muito mais eficaz. Além disso, construímos uma nova referência composta por 96.962 teoremas e provas extraídas da Biblioteca de Matemática da Lean. Possui divisão de dados desafiadores, exigindo que o provador generalize para os teoremas que dependem de novas premissas que nunca são usadas no treinamento. Utilizamos esse benchmark para treinamento e avaliação, e os resultados experimentais demonstram a eficácia da reprovagem em linhas de base não-revieval e GPT-4. Assim, fornecemos o primeiro conjunto de provadores de teorema baseado em Sprids LLM sem nenhum conjunto de dados proprietários e o lançamos sob uma licença permissiva do MIT para facilitar mais pesquisas.
Responder a consultas visuais é uma tarefa complexa que requer processamento visual e raciocínio. Os modelos de ponta a ponta, a abordagem dominante para esta tarefa, não diferenciam explicitamente entre os dois, limitando a interpretabilidade e a generalização. O aprendizado de programas modulares apresenta uma alternativa promissora, mas se mostrou desafiador devido à dificuldade de aprender os programas e os módulos simultaneamente. Introduzimos o VIPERGPT, uma estrutura que aproveita os modelos de geração de código para compor modelos de visão e linguagem em sub-rotinas para produzir um resultado para qualquer consulta. O Vipergpt utiliza uma API fornecida para acessar os módulos disponíveis e os compõe gerando código Python que é executado posteriormente. Essa abordagem simples não requer treinamento adicional e alcança resultados de última geração em várias tarefas visuais complexas.
O comprimento da sequência de escala tornou -se uma demanda crítica na era de grandes modelos de linguagem. No entanto, os métodos existentes lutam com a complexidade computacional ou a expressividade do modelo, restringindo o comprimento máximo da sequência. Neste trabalho, introduzimos Longnet, uma variante de transformador que pode escalar o comprimento da sequência para mais de 1 bilhão de tokens, sem sacrificar o desempenho em sequências mais curtas. Especificamente, propomos atenção dilatada, que expande o campo atento exponencialmente à medida que a distância cresce. O Longnet tem vantagens significativas: 1) possui uma complexidade linear de computação e uma dependência do logaritmo entre os tokens; 2) pode ser servido como um treinador distribuído para sequências extremamente longas; 3) Sua atenção dilatada é uma substituição de atenção para atenção padrão, que pode ser perfeitamente integrada à otimização baseada em transformador existente. Os resultados dos experimentos demonstram que o LongNet produz um forte desempenho nas tarefas de modelagem de longa sequência e de linguagem geral. Nosso trabalho abre novas possibilidades para modelar sequências muito longas, por exemplo, tratar um corpus inteiro ou até toda a Internet como uma sequência.
Uma grande convergência de linguagem, visão e pré -treinamento multimodal está surgindo. Neste trabalho, introduzimos um modelo de fundação multimodal de uso geral Beit-3, que atinge o desempenho de transferência de ponta nas tarefas de visão e linguagem da visão. Especificamente, avançamos na grande convergência de três aspectos: arquitetura de backbone, tarefa de pré -treinamento e modelagem. Introduzimos transformadores de várias via para modelagem de uso geral, onde a arquitetura modular permite a codificação profunda da fusão e a modalidade específica. Com base na espinha dorsal compartilhada, realizamos modelagem mascarada de "idioma" em pares de imagens (imglish), textos (inglês) e texto de imagem ("frases paralelas") de maneira unificada. Os resultados experimentais mostram que o BEIT-3 obtém desempenho de ponta na detecção de objetos (Coco), segmentação semântica (ADE20K), classificação de imagem (ImageNet), raciocínio visual (NLVR2), resposta visual de perguntas (VQAV2), legendamento da imagem (coco) e retróleo cruzado (Flickr30k).
Os grandes modelos de idiomas (LLMs) tiveram uma onda impressionante de avanços recentemente, com modelos agora se destacando em uma variedade de tarefas, como raciocínio matemático e síntese de programas. No entanto, seu potencial para usar efetivamente as ferramentas via chamadas de API permanece não cumprida. Esta é uma tarefa desafiadora, mesmo para os LLMs de última geração de hoje, como o GPT-4, em grande parte devido à sua incapacidade de gerar argumentos de entrada precisos e sua tendência a alucinar o uso errado de uma chamada de API. Lançamos Gorilla, um modelo de Llama Finetuned que ultrapassa o desempenho do GPT-4 na redação de chamadas de API. Quando combinado com um documento Retriever, o Gorilla demonstra uma forte capacidade de se adaptar às alterações do documento no tempo de teste, permitindo atualizações flexíveis do usuário ou alterações de versão. Também atenua substancialmente a questão da alucinação, comumente encontrada ao solicitar diretamente o LLMS. Para avaliar a capacidade do modelo, apresentamos o Apibench, um conjunto de dados abrangente que consiste em APIs Huggingface, Torchhub e Tensorhub. A integração bem -sucedida do sistema de recuperação com Gorilla demonstra o potencial de o LLMS usar as ferramentas com mais precisão, acompanhar a documentação frequentemente atualizada e, consequentemente, aumentar a confiabilidade e a aplicabilidade de suas saídas. O modelo e o código de gorila estão disponíveis em https://github.com/shishirpatil/gorilla.
Os grandes modelos de linguagem (LLMs) alcançaram progresso notável em várias tarefas de processamento de linguagem natural com habilidades emergentes. No entanto, eles enfrentam limitações inerentes, como uma incapacidade de acessar informações atualizadas, utilizar ferramentas externas ou executar um raciocínio matemático preciso. Neste artigo, apresentamos a Chameleon, uma estrutura de raciocínio de composição plug-and-play que aumenta o LLMS para ajudar a enfrentar esses desafios. O Chameleon sintetiza programas para compor várias ferramentas, incluindo modelos LLM, modelos de visão pronta para uso, mecanismos de pesquisa da web, funções Python e módulos baseados em regras adaptados aos interesses do usuário. Construído em cima de um LLM como planejador de linguagem natural, o Chameleon infere a sequência apropriada de ferramentas para compor e executar para gerar uma resposta final. Mostramos a adaptabilidade e a eficácia do Chameleon em duas tarefas: ScienceQa e Tabmwp. Notavelmente, o Chameleon com GPT-4 atinge uma precisão de 86,54% no ScienceQA, melhorando significativamente o melhor modelo publicado de poucos publicados em 11,37%; Usando o GPT-4 como LLM subjacente, o Chameleon alcança um aumento de 17,8% em relação ao modelo de ponta, levando a uma precisão geral de 98,78% no TABMWP. Estudos adicionais sugerem que o uso do GPT-4 como planejador exibe seleção de ferramentas mais consistente e racional e é capaz de inferir possíveis restrições, dadas as instruções, em comparação com outros LLMs como o ChatGPT.
Como transformar eficientemente os grandes modelos de linguagem (LLMS) em seguidores de instrução é recentemente uma direção popular de pesquisa, enquanto o Treining LLM para o raciocínio multimodal permanece menos explorado. Embora o recente adaptador de llama demonstre o potencial de lidar com entradas visuais com o LLMS, ele ainda não pode generalizar bem para abrir instruções visuais e atrasos atrás do GPT-4. Neste artigo, apresentamos V2 de adaptação de llama, um modelo de instrução visual com eficiência de parâmetro. Especificamente, primeiro aumentamos o adaptador de llama, desbloqueando parâmetros mais aprendidos (por exemplo, norma, viés e escala), que distribuem a capacidade de seguir as instruções em todo o modelo de lhama, além de adaptadores. Em segundo lugar, propomos uma estratégia de fusão inicial para alimentar tokens visuais apenas nas camadas iniciais do LLM, contribuindo para uma melhor incorporação de conhecimento visual. Em terceiro lugar, um paradigma de treinamento conjunto de pares de texto de imagem e dados seguintes a instruções é introduzido otimizando grupos disjuntos de parâmetros aprendidos. Essa estratégia alivia efetivamente a interferência entre as duas tarefas de alinhamento e instrução de texto de imagem e seguintes e atinge um forte raciocínio multimodal com apenas um conjunto de imagens e texto de instrução em pequena escala. Durante a inferência, incorporamos modelos especializados adicionais (por exemplo, legendas/sistemas de OCR) no adaptador llama para melhorar ainda mais sua capacidade de compreensão de imagem sem incorrer em custos de treinamento. Comparado ao adaptador de llama original, nosso V2 de adaptação de llama pode realizar instruções multimodais abertas, apenas introduzindo parâmetros de 14M em relação à llama. A estrutura recém-projetada também exibe recursos mais fortes de seguidores de instrução somente em linguagem e até se destaca nas interações de bate-papo. Nosso código e modelos estão disponíveis neste URL HTTPS.
Os proxies críveis do comportamento humano podem capacitar aplicativos interativos que variam de ambientes imersivos a espaços de ensaio para comunicação interpessoal a ferramentas de prototipagem. Neste artigo, introduzimos agentes generativos-agentes de software computacionais que simulam comportamento humano crível. Agentes generativos acordam, preparam o café da manhã e vão para o trabalho; Os artistas pintam, enquanto os autores escrevem; Eles formam opiniões, se notam e iniciam conversas; Eles se lembram e refletem sobre os dias anteriores ao planejar no dia seguinte. Para permitir agentes generativos, descrevemos uma arquitetura que estende um modelo de idioma grande para armazenar um registro completo das experiências do agente usando linguagem natural, sintetize essas memórias ao longo do tempo em reflexões de nível superior e recuperá-las dinamicamente para planejar o comportamento. Instantamos agentes generativos a preencher um ambiente interativo de caixa de areia inspirado nos Sims, onde os usuários finais podem interagir com uma pequena cidade de vinte e cinco agentes usando linguagem natural. Em uma avaliação, esses agentes generativos produzem comportamentos sociais individuais e emergentes críveis: por exemplo, começando com apenas uma única noção especificada pelo usuário de que um agente quer fazer uma festa do dia dos namorados, os agentes espalham autônomos convites para a parte para a parte. Durante os próximos dois dias, se mostram os novos, que se destacam, que se destacam à parte que se encaixam em uma parte. Demonstramos através da ablação que os componentes de nossa arquitetura de agentes-observação, planejamento e reflexão-cada um contribuem criticamente para a credibilidade do comportamento do agente. Ao fundir modelos de grandes idiomas com agentes interativos computacionais, este trabalho apresenta padrões de arquitetura e interação para permitir simulações críveis do comportamento humano.
Os recentes avanços na tomada de decisões de grandes agentes do Modelo de Idiomas (LLM) demonstraram desempenho impressionante em vários parâmetros de referência. No entanto, essas abordagens de última geração geralmente exigem o modelo interno de ajuste fino, ajuste externo ou otimização de políticas em um espaço de estado definido. A implementação desses métodos pode ser desafiadora devido à escassez de dados de treinamento de alta qualidade ou à falta de espaço de estado bem definido. Além disso, esses agentes não possuem certas qualidades inerentes aos processos de tomada de decisão humana, especificamente a capacidade de aprender com os erros. A auto-reflexão permite que os humanos resolvam com eficiência novos problemas através de um processo de tentativa e erro. Com base em pesquisas recentes, propomos a reflexão, uma abordagem que dona de um agente com recursos dinâmicos de memória e auto-reflexão para aprimorar suas habilidades existentes de raciocínio e habilidades de escolha de ação específicas de tarefas. Para obter automação completa, introduzimos uma heurística direta, mas eficaz, que permite ao agente identificar instâncias de alucinação, evitar a repetição em sequências de ação e, em alguns ambientes, construir um mapa de memória interna do ambiente fornecido. Para avaliar nossa abordagem, avaliamos a capacidade do agente de concluir as tarefas de tomada de decisão em ambientes do Alfworld e tarefas de perguntas e respostas intensivas em pesquisas e de pesquisa em ambientes de hotpotqa. Observamos taxas de sucesso de 97% e 51%, respectivamente, e fornecemos uma discussão sobre a propriedade emergente da auto-reflexão.
Como as pessoas, os LLMs nem sempre geram o melhor texto para um determinado problema de geração em sua primeira tentativa (por exemplo, resumos, respostas, explicações). Assim como as pessoas refinam seu texto, introduzimos auto-refinados, uma estrutura para melhorar de maneira semelhante os resultados iniciais do LLMS através de feedback e refinamento iterativo. A idéia principal é gerar uma saída usando um LLM e permitir que o mesmo modelo forneça um feedback de várias áreas para sua própria saída; Finalmente, o mesmo modelo refina sua saída gerada anteriormente, dado seu próprio feedback. Ao contrário do trabalho anterior, nossa estrutura de refinamento iterativa não requer dados de treinamento supervisionados ou aprendizado de reforço e trabalha com um único LLM. Experimentamos 7 tarefas diversas, desde a reescrita de revisão até o raciocínio matemático, demonstrando que nossa abordagem supera a geração direta. Em todas as tarefas, os resultados gerados com auto-refino são preferidos pelos seres humanos e por métricas automatizadas sobre aquelas geradas diretamente com o GPT-3.5 e o GPT-4, melhorando em média por 20% absolutos entre as tarefas.
Resolver tarefas complicadas de IA com diferentes domínios e modalidades é um passo essencial para a inteligência artificial avançada. Embora existam modelos de IA abundantes disponíveis para diferentes domínios e modalidades, eles não podem lidar com tarefas complicadas de IA. Considerando que os grandes modelos de linguagem (LLMs) exibiram capacidade excepcional na compreensão, geração, interação e raciocínio de idiomas, defendemos que os LLMs poderiam atuar como um controlador para gerenciar os modelos de IA existentes para resolver tarefas complicadas de IA e a linguagem pode ser uma interface genérica para capacitar isso. Com base nessa filosofia, apresentamos o HuggingGPT, uma estrutura que aproveita o LLMS (por exemplo, ChatGPT) para conectar vários modelos de IA em comunidades de aprendizado de máquina (por exemplo, abraçar o rosto) para resolver tarefas de IA. Especificamente, usamos o ChatGPT para realizar o planejamento de tarefas ao receber uma solicitação de usuário, selecione Modelos de acordo com suas descrições de funções disponíveis para abraçar o rosto, executar cada subtarefa com o modelo de IA selecionado e resumir a resposta de acordo com os resultados da execução. Ao alavancar a forte capacidade de linguagem dos modelos de ChatGPT e de IA abundantes em abraçar o rosto, o HuggingGPT é capaz de cobrir inúmeras tarefas sofisticadas de IA em diferentes modalidades e domínios e alcançar resultados impressionantes em linguagem, visão, fala e outras tarefas desafiadoras, que abrangem uma nova maneira para a inteligência artificial avançada.
O Auto-GPT é um aplicativo experimental de código aberto que mostra os recursos do modelo de idioma GPT-4. Este programa, impulsionado pelo GPT-4, as redes juntas "pensamentos", para atingir autonomamente qualquer objetivo que você definir. Como um dos primeiros exemplos de GPT-4 em execução totalmente autonomamente, o GPT automático ultrapassa os limites do que é possível com a IA.
Há um número rápido de grandes modelos de idiomas (LLMS) que os usuários podem consultar uma taxa. Analisamos o custo associado à consulta APIs populares LLM, por exemplo, GPT-4, ChatGPT, J1-Jumbo, e descobrimos que esses modelos têm estruturas de preços heterogêneas, com taxas que podem diferir em duas ordens de magnitude. Em particular, o uso de LLMs em grandes coleções de consultas e texto pode ser caro. Motivado por isso, descrevemos e discutimos três tipos de estratégias que os usuários podem explorar para reduzir o custo de inferência associado ao uso de LLMS: 1) Adaptação imediata, 2) aproximação de LLM e 3) LLM Cascade. Como exemplo, propomos frugalgpt, uma instanciação simples, mas flexível, da Cascade LLM, que aprende quais combinações do LLMS usarem para consultas diferentes, a fim de reduzir o custo e melhorar a precisão. Nossos experimentos mostram que o frugalgpt pode corresponder ao desempenho do melhor LLM individual (por exemplo, GPT-4) com redução de custos de até 98% ou melhorar a precisão do GPT-4 em 4% com o mesmo custo. As idéias e descobertas apresentadas aqui estabelecem uma base para o uso de LLMs de maneira sustentável e eficiente.
Os grandes modelos de idiomas (LLMs) mostraram -se promissores ao provar teoremas formais usando assistentes de prova como Lean. No entanto, os métodos existentes são difíceis de reproduzir ou construir, devido a código privado, dados e grandes requisitos de computação. Isso criou barreiras substanciais à pesquisa sobre métodos de aprendizado de máquina para a prova de teorema. Este artigo remove essas barreiras, introduzindo Leanjojo: um playground Lean de código aberto que consiste em kits de ferramentas, dados, modelos e benchmarks. O LeanDojo extrai dados do Lean e permite a interação com o ambiente de prova programaticamente. Ele contém anotações de grão fino de instalações em provas, fornecendo dados valiosos para a seleção da premissa-um gargalo-chave no teorema. Usando esses dados, desenvolvemos a reprovagem (provador de recuperação com agente de recuperação): o primeiro provador baseado em LLM que é aumentado com a recuperação para selecionar instalações de uma vasta biblioteca de matemática. É barato e precisa de apenas uma semana de treinamento da GPU. Nosso Retriever aproveita a capacidade de análise de programa da Leanjojo para identificar premissas acessíveis e exemplos negativos difíceis, o que torna a recuperação muito mais eficaz. Além disso, construímos uma nova referência composta por 96.962 teoremas e provas extraídas da Biblioteca de Matemática da Lean. Possui divisão de dados desafiadores, exigindo que o provador generalize para os teoremas que dependem de novas premissas que nunca são usadas no treinamento. Utilizamos esse benchmark para treinamento e avaliação, e os resultados experimentais demonstram a eficácia da reprovagem em linhas de base não-revieval e GPT-4. Assim, fornecemos o primeiro conjunto de provadores de teorema baseado em Sprids LLM sem nenhum conjunto de dados proprietários e o lançamos sob uma licença permissiva do MIT para facilitar mais pesquisas.
Trabalhos recentes mostraram que os modelos de idiomas com representações semelhantes ao código da linguagem natural leva a melhorias de desempenho nas tarefas de raciocínio estruturado. No entanto, essas tarefas compreendem apenas um pequeno subconjunto de todas as tarefas de linguagem natural. Em nosso trabalho, procuramos responder se a criação de código é ou não a maneira preferida de interagir com os modelos de idiomas em geral. Comparamos o código e os avisos de texto em três modelos GPT populares (DaVinci, Code-Davinci-002 e Text-Davinci-002) em uma seleção mais ampla de tarefas (por exemplo, controle de qualidade, sentimento, resumo) e descobrimos que, com poucas exceções, os avisos de código não superam consistentemente os pedidos de texto. Além disso, mostramos que o estilo de prompt de código tem um grande efeito no desempenho de algumas tarefas, mas não para todas as tarefas e que o ajuste fino nas instruções de texto leva a um melhor desempenho relativo dos avisos de código.
Os grandes modelos de linguagem (LLMs) realizam raciocínio complexo, gerando explicações para suas previsões. No entanto, um objetivo complementar das explicações é também comunicar conhecimento útil que melhora os agentes mais fracos. Portanto, investigamos se os LLMs também são bons professores para agentes mais fracos. Em particular, consideramos uma estrutura de estudante-professor entre dois agentes LLM e estudamos se, quando e como o professor deve intervir com explicações de linguagem natural para melhorar o desempenho do aluno. Como a comunicação é cara, definimos um orçamento de modo que o professor comunique apenas explicações para uma fração dos dados, após os quais o aluno deve ter um bom desempenho por conta própria. Decompomos o problema de ensino em quatro eixos: (1) Se a intervenção no tempo do professor melhorar as previsões dos alunos, (2) quando vale a pena explicar um ponto de dados, (3) como o professor deve personalizar explicações para melhor ensinar ao aluno e (4) se as explicações do professor também melhorarem o desempenho dos alunos em futuros dados inexplicáveis. Primeiro, mostramos que o Professor LLMS pode realmente intervir no raciocínio dos alunos para melhorar seu desempenho. Em seguida, propomos uma abordagem da teoria da mente, na qual o professor constrói dois modelos mentais de poucos anos do aluno. O primeiro modelo define uma função de intervenção que simula a utilidade de uma intervenção, permitindo que o professor intervenha quando esse utilitário é o maior e melhorar o desempenho dos alunos em orçamentos mais baixos. O segundo modelo permite que o professor personalize explicações para um aluno em particular e supere professores não -sonalizados. Também demonstramos que, em interações múltiplas, as explicações dos professores generalizam e aprendem com os dados explicados, melhoram o desempenho dos alunos em futuros dados inexplicáveis. Finalmente, também verificamos que os professores desalinhados podem diminuir o desempenho do aluno para acaso aleatoriamente, enganando -os intencionalmente.
Introduzimos o Kosmos-2, um modelo de linguagem grande multimodal (MLLM), permitindo novos recursos de perceber descrições de objetos (por exemplo, caixas delimitadoras) e texto de aterramento para o mundo visual. Especificamente, representamos expressões de referência como links em Markdown, ou seja, `` [Span de texto] (caixas delimitadoras) '', onde as descrições de objetos são seqüências de tokens de localização. Juntamente com corpora multimodal, construímos dados em larga escala de pares de texto de imagem aterrados (chamados de grão) para treinar o modelo. Além das capacidades existentes do MLLMS (por exemplo, percebendo modalidades gerais, seguindo instruções e executando o aprendizado no contexto), o KOSMOS-2 integra a capacidade de aterramento em aplicações a jusante. Avaliamos o KOSMOS-2 em uma ampla gama de tarefas, incluindo (i) aterramento multimodal, como referência à compreensão da expressão e aterramento da frase, (ii) referência multimodal, como referência à geração de expressão de expressão, (iii) tarefas de língua de percepção e (iv) compreensão e geração da linguagem. Este trabalho estabelece as bases para o desenvolvimento da IA da modalidade e lança luz sobre a grande convergência da linguagem, percepção multimodal, ação e modelagem mundial, que é um passo fundamental para a inteligência geral artificial. Os modelos de código e pré -treinamento estão disponíveis neste URL HTTPS.
Introduzimos o Palm 2, um novo modelo de idioma de última geração que possui melhores recursos multilíngues e de raciocínio e é mais eficiente em computação do que a palma do antecessor. O Palm 2 é um modelo baseado em transformador treinado usando uma mistura de objetivos. Através de extensas avaliações sobre linguagem inglesa e multilíngue e tarefas de raciocínio, demonstramos que o Palm 2 melhorou significativamente a qualidade em tarefas a jusante em diferentes tamanhos de modelos, enquanto exibia simultaneamente inferência mais rápida e eficiente em comparação com a Palm. Essa eficiência aprimorada permite a implantação mais ampla, além de permitir que o modelo responda mais rapidamente, para um ritmo mais natural de interação. A Palm 2 demonstra recursos robustos de raciocínio exemplificados por grandes melhorias sobre a Palm em grandes tarefas de bancada e outras tarefas de raciocínio. O Palm 2 exibe desempenho estável em um conjunto de avaliações responsáveis de IA e permite o controle de tempo de inferência sobre a toxicidade sem sobrecarga ou impacto adicional em outras capacidades. No geral, o Palm 2 atinge o desempenho de ponta em um conjunto diversificado de tarefas e recursos.
A geração de movimentos humanos realistas a partir de determinadas descrições de ação experimentou avanços significativos devido ao requisito emergente de humanos digitais. Embora os trabalhos recentes tenham alcançado resultados impressionantes na geração de movimentos diretamente a partir de descrições de ação textual, eles geralmente suportam apenas uma única modalidade do sinal de controle, o que limita sua aplicação na verdadeira indústria humana digital. Este artigo apresenta um gerador de uso geral de movimento (MotionGPT) que pode usar sinais de controle multimodal, por exemplo, texto e poses de quadro único, para gerar movimentos humanos consecutivos, tratando sinais multimodais como tokens de entrada especiais em grandes modelos de idiomas (LLMS). Especificamente, primeiro quantizamos sinais de controle multimodal em códigos discretos e depois os formulamos em uma instrução rápida unificada para solicitar aos LLMs que geram a resposta do movimento. Nosso MotionGPT demonstra um modelo unificado de geração de movimento humano com sinais de controle multimodal, ajustando meros 0,4% dos parâmetros LLM. Até onde sabemos, o MotionGPT é o primeiro método a gerar movimento humano por sinais de controle multimodal, que esperamos que possam esclarecer essa nova direção. Os códigos devem ser liberados após a aceitação.
Os grandes modelos de linguagem (LLMs) mostraram um desempenho impressionante sobre o raciocínio complexo, alavancando a cadeia de pensamento (COT) que solicita gerar cadeias de raciocínio intermediário como a lógica para inferir a resposta. No entanto, os estudos de COT existentes se concentraram na modalidade do idioma. Propomos Multimodal-Cot que incorpora modalidades de linguagem (texto) e visão (imagens) em uma estrutura de dois estágios que separa a geração de justificativa e responda inferência. Dessa maneira, a inferência de resposta pode aproveitar melhores justificativas geradas que são baseadas em informações multimodais. Com o Multimodal-Cot, nosso modelo com menos de 1 bilhão de parâmetros supera o LLM de última geração anterior (GPT-3.5) em 16 pontos percentuais (75,17%-> 91,68% de precisão) na referência da ScienceQA e até supera o desempenho humano. O código está disponível publicamente disponível neste URL HTTPS.
LLAMA 2: Fundação aberta e modelos de bate-papo ajustados
Unilm: pré-treinamento auto-supervisionado em larga escala entre tarefas, idiomas e modalidades
Redes neurais escandalosamente grandes: a camada de mistura de especialistas escassamente encaixada
Glam: escala eficiente de modelos de linguagem com mistura de especialistas
Visão de escala com mistura esparsa de especialistas
Classificação de texto de "baixo resistência": um método de classificação sem parâmetros com compressores
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Os modelos rápidos baseados realmente entendem o significado de seus avisos?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Os modelos rápidos baseados realmente entendem o significado de seus avisos?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction
[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation
중지
최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.
MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...
유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.
기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.
주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.
| matemática | machine learning | Transformador | Abraçando o rosto |
|---|---|---|---|
![]() | ![]() | ![]() | |
| mathematics for machine learning | Pattern Recognition and Machine Learning | Getting Started with Google BERT | Processamento de linguagem natural com transformadores |