A Meta divulgou recentemente seis resultados importantes de pesquisas em IA, cobrindo vários campos, como modelos multimodais, música gerada por texto, tecnologia de marca d'água de áudio e conjuntos de dados, demonstrando sua inovação contínua e força técnica no campo da inteligência artificial. Estes resultados de investigação não só fornecem novas possibilidades para aplicações no campo da IA, mas também fornecem uma referência valiosa para futuras direções de desenvolvimento tecnológico. Esses impressionantes resultados de pesquisa são descritos em detalhes abaixo.
Recentemente, a Meta divulgou discretamente seis resultados de pesquisas, trazendo novas aplicações e avanços tecnológicos no campo da IA. Estes incluem modelos multimodais, modelos musicais gerados por texto, tecnologia de marca d'água de áudio, conjuntos de dados e outros projetos. Vamos dar uma olhada nos resultados específicos desses estudos.
Meta Camaleão (modelo Camaleão)
Em primeiro lugar, o modelo multimodal "Chameleon" lançado pode processar texto e imagens ao mesmo tempo, suporta texto misto de entrada e saída e fornece uma nova solução para processamento de dados multimodais.
Embora a maioria dos modelos atuais de fusão em estágio avançado use aprendizagem baseada em difusão, o Meta Chameleon usa tokenização para texto e imagens. Isso permite uma abordagem mais unificada e torna os modelos mais fáceis de projetar, manter e estender.
Exemplos de vídeo: gere títulos criativos a partir de imagens ou use uma combinação de prompts de texto e imagens para criar uma cena completamente nova
A Meta agora lançará publicamente os principais componentes dos modelos Chameleon7B e 34B sob uma licença de pesquisa. Seu modelo lançado atualmente é ajustado para segurança, suporta entrada em modo misto e saída de texto simples e pode ser usado para fins de pesquisa. O responsável enfatizou que o modelo de geração de imagens Chameleon não será divulgado.
Entrada do produto: https://top.aibase.com/tool/meta-chameleon
Previsão de vários tokens
O novo método de treinamento de modelo de linguagem "Previsão Multi-Token" visa melhorar os recursos do modelo e a eficiência do treinamento. Ele treina o modelo para prever várias palavras ao mesmo tempo, melhorando a precisão da previsão do modelo.

Usando esta abordagem, os modelos de linguagem podem ser treinados para prever múltiplas palavras futuras simultaneamente, em vez do método anterior de prever uma palavra de cada vez. Isso melhora os recursos do modelo e a eficiência do treinamento, ao mesmo tempo que aumenta a velocidade. No espírito da ciência aberta responsável, modelos pré-treinados serão lançados para conclusão de código sob uma licença não comercial/somente para pesquisa.
Entrada do produto: https://top.aibase.com/tool/multi-token-prediction
Modelo musical de geração de texto "JASCO"

Embora os modelos existentes de texto para música, como MusicGen, dependam principalmente da entrada de texto para gerar música, o novo modelo do Meta, Meta-Joint Audio and Symbol Conditioning for Temporally Controlled Text-to-Music Generation (JASCO), é capaz de aceitar uma variedade de condições Entradas, como acordes ou batidas específicas, para melhorar o controle sobre a saída musical resultante. Especificamente, uma camada de gargalo de informações pode ser usada em conjunto com a imprecisão temporal para extrair informações relevantes para controles específicos. Isto permite combinar condições simbólicas e baseadas em áudio simultaneamente no mesmo modelo gerador de texto para música.
JASCO é comparável à linha de base da avaliação em termos de qualidade de geração, ao mesmo tempo que permite um controle melhor e mais flexível sobre a música gerada. As autoridades publicarão artigos de pesquisa e páginas de exemplo e, no final deste mês, o código de inferência será lançado como parte do repositório AudioCraft sob a licença do MIT, e o modelo pré-treinado será lançado sob CC-BY-NC.
Entrada do código: https://top.aibase.com/tool/audiocraft
Tecnologia de marca d'água de áudio "AudioSeal"

Esta é a primeira tecnologia de marca d'água de áudio projetada especificamente para a detecção local de fala gerada por IA, permitindo a localização precisa de segmentos gerados por IA em clipes de áudio mais longos. AudioSeal melhora as marcas d'água de áudio tradicionais, concentrando-se na detecção de conteúdo gerado por IA em vez de esteganografia.
Ao contrário dos métodos tradicionais que dependem de algoritmos de decodificação complexos, a abordagem de detecção local do AudioSeal permite uma detecção mais rápida e eficiente. Este design melhora a velocidade de detecção em 485 vezes em comparação com os métodos anteriores, tornando-o ideal para aplicações em larga escala e em tempo real. Nosso método atinge desempenho de última geração em termos de robustez e imperceptibilidade de marcas d'água de áudio.
AudioSeal é lançado sob licença comercial.
Entrada do produto: https://top.aibase.com/tool/audioseal
Conjunto de dados PRISM
Ao mesmo tempo, Meta também divulgou o conjunto de dados PRISM em cooperação com parceiros externos, que contém os dados e preferências do diálogo de 1.500 participantes em todo o mundo. É usado para melhorar modelos linguísticos em larga escala, melhorando assim a diversidade e preferência do diálogo. diversidade e benefícios sociais do modelo.

Este conjunto de dados mapeia as preferências de cada pessoa e feedback refinado em 8.011 conversas em tempo real com 21 LLMs diferentes.
Entrada do conjunto de dados: https://huggingface.co/datasets/HannahRoseKirk/prism-alignment
Indicador “DIG In”

Utilizado para avaliar diferenças geográficas em modelos de imagem de geração de texto, fornecendo mais dados de referência para melhoria do modelo. Para entender como as pessoas em diferentes regiões veem a representação geográfica de maneira diferente, a Meta conduziu um estudo de anotação em grande escala. Coletamos mais de 65.000 anotações e mais de 20 respostas de pesquisas para cada exemplo, abrangendo atratividade, similaridade, consistência e recomendações compartilhadas para melhorar a avaliação automática e humana de modelos de texto para imagem.
Entrada do código: https://top.aibase.com/tool/dig-in
O lançamento destes projetos trouxe novos avanços tecnológicos e perspectivas de aplicação para o campo da IA, e é de grande importância na promoção do desenvolvimento e aplicação da tecnologia de IA.
Em suma, os seis resultados da pesquisa de IA divulgados pela Meta desta vez demonstram sua tecnologia líder e layout voltado para o futuro em multimodalidade, geração de texto, processamento de áudio e construção de conjuntos de dados. Os avanços nestas tecnologias promoverão um maior desenvolvimento no domínio da IA e trarão mais possibilidades para aplicações futuras.