A equipe de pesquisa da Universidade de Hong Kong e Tencent lançou recentemente um revolucionário sistema de recomendação multimodal - Diffmm, que melhora significativamente a precisão de recomendações de vídeo curtas por meios técnicos inovadores. O sistema Diffmm cria uma estrutura gráfica complexa que contém informações de usuário e vídeo e usa a tecnologia de difusão e comparação de gráficos para analisar profundamente o relacionamento interativo entre usuários e vídeos, alcançando assim recomendações de conteúdo mais personalizadas e precisas.
A estrutura técnica principal do sistema Diffmm consiste em três partes: modelo multimodal de difusão de gráficos, agregação de gráficos multimodais e aprimoramento de contraste cruzado modal. O modelo multimodal de difusão de gráficos adota um modelo de probabilidade de difusão de denoising perceptivo modal, integra efetivamente os sinais coordenados entre usuários e itens com informações multimodais e resolve os problemas de impacto negativo nos sistemas de recomendação multimodais tradicionais. Além disso, através da tecnologia de otimização de difusão de gráficos do paradigma de difusão de probabilidade de gráfico e percepção modal, o Diffmm realiza geração de percepção modal e otimização de mapas de itens do usuário, melhorando ainda mais a qualidade da recomendação do sistema.

Em termos de aprimoramento de contraste entre modais, o sistema Diffmm apresenta a visão de contraste com consciência modal e métodos de aprimoramento de contraste, que podem capturar efetivamente a consistência dos modos de interação do usuário em itens diferentes, melhorando significativamente o desempenho geral do sistema de recomendação. Essa abordagem inovadora não apenas aprimora o entendimento do sistema das preferências do usuário, mas também melhora a diversidade e a precisão dos resultados recomendados.
A equipe de pesquisa elaborou em detalhes os princípios de design e os resultados experimentais do sistema Diffm no artigo. Esta pesquisa não apenas fornece um novo paradigma técnico para o campo de sistemas de recomendação multimodal, mas também fornece suporte teórico importante e orientação prática para futuras recomendações de conteúdo de plataformas de vídeo curtas.
Principais destaques:
⭐ O novo paradigma Diffmm proposto pela Universidade de Hong Kong e Tencent melhorou significativamente o desempenho dos sistemas de recomendação multimodal.
⭐ O sistema Diffmm entende profundamente o relacionamento complexo entre usuários e vídeos por meio de difusão gráfica e técnicas de aprendizado de comparação.
⭐ A introdução dos métodos de aprimoramento de contraste entre modais melhorou bastante a precisão e o desempenho geral do sistema de recomendação.