Интегрированная рекомендация направлена на то, чтобы совместно рекомендовать гетерогенные элементы в основном канале из разных источников по нескольким каналам, которые необходимо захватить пользовательские предпочтения как на уровнях элементов, так и на уровнях канала. Он широко использовался в практических системах миллиардами пользователей, в то время как немногие работы систематически концентрируются на интегрированной рекомендации.
В этой работе мы предлагаем новую иерархическую структуру обучения подкреплению для интегрированной рекомендации (HRL-REC), которая делит интегрированную рекомендацию на две задачи, чтобы рекомендовать каналы и элементы последовательно.
Агент низкого уровня-это селектор канала, который генерирует персонализированный список каналов. Агент высокого уровня-это рекомендатель, который рекомендует конкретные элементы из гетерогенных каналов под ограничениями канала.
HRL-REC также был развернут на Top Stories WeChat, затрагивая миллионы пользователей.
В фактической онлайн-системе HRL-REC представляет собой сложную структуру повторного рейтинга, внедренная в C ++. Все модели обучаются на основе глубоко настроенной версии распределенного тензорфлау, поддерживающего крупномасштабные редкие функции.
Без массовых данных и машинных ресурсов обучение HRL-REC не является реалистичным.
Поэтому код с открытым исходным кодом здесь только реализует упрощенную версию своих основных идей для ссылки заинтересованных исследователей. Если есть какие -либо ошибки, пожалуйста, свяжитесь со мной. Спасибо!
«Иерархическое обучение подкреплению для интегрированной рекомендации» (AAAI 2020)