HRL Rec
1.0.0
統合された推奨事項は、複数のチャネルを介してさまざまなソースからメインフィードの不均一なアイテムを共同で推奨することを目的としています。数十億人のユーザーによって実際のシステムで広く使用されていますが、体系的に統合された推奨に集中する作業はほとんどありません。
この作業では、統合された推奨事項(HRL-REC)のための新しい階層補強学習フレームワークを提案します。これは、統合された推奨事項を2つのタスクに分割して、チャネルとアイテムを順番に推奨することです。
低レベルエージェントはチャネルセレクターであり、パーソナライズされたチャネルリストを生成します。高レベルのエージェントは、チャネル制約の下で不均一なチャネルからの特定のアイテムを推奨するアイテムの推奨者です。
HRL-RECは、WeChatのトップストーリーにも展開されており、何百万人ものユーザーに影響を与えています。
実際のオンラインシステムでは、HRL-RECはC ++で実装された複雑な再ランクフレームワークです。すべてのモデルは、大規模なスパース機能をサポートする分散型TensorFlowの深くカスタマイズされたバージョンに基づいてトレーニングされています。
大規模なデータとマシンリソースがなければ、HRL-RECのトレーニングは現実的ではありません。
したがって、ここのオープンソースコードは、関心のある研究者を参照するためのコアアイデアの単純化されたバージョンのみを実装しています。エラーがある場合は、私に連絡してください。ありがとう!
「統合された推奨のための階層強化学習」(AAAI 2020)