A recomendação integrada visa recomendar em conjunto itens heterogêneos no feed principal de diferentes fontes por meio de vários canais, que precisam capturar as preferências do usuário nos níveis de itens e canais. Foi amplamente utilizado em sistemas práticos por bilhões de usuários, enquanto poucos trabalhos se concentram na recomendação integrada sistematicamente.
Neste trabalho, propomos uma nova estrutura de aprendizado de reforço hierárquico para recomendação integrada (HRL-REC), que divide a recomendação integrada em duas tarefas para recomendar canais e itens sequencialmente.
O agente de baixo nível é um seletor de canal, que gera uma lista de canais personalizados. O agente de alto nível é um recomendador de item, que recomenda itens específicos de canais heterogêneos sob as restrições do canal.
O HRL-REC também foi implantado nas principais histórias do WeChat, afetando milhões de usuários.
No sistema on-line real, o HRL-REC é uma estrutura complexa de renomeamento implementada no C ++. Todos os modelos são treinados com base em uma versão profundamente personalizada do TensorFlow distribuído, suportando recursos escassos em larga escala.
Sem dados enormes e recursos de máquina, o treinamento de HRL-RE não é realista.
Portanto, o código -fonte aberto aqui implementa apenas uma versão simplificada de suas idéias principais para a referência dos pesquisadores interessados. Se houver algum erro, entre em contato comigo. Obrigado!
"Aprendizagem de reforço hierárquico para recomendação integrada" (AAAI 2020)