強化学習を使ったリコメンドシステム

本資料は2020年9月15日に社内共有資料として展開していたものをWEBページ向けにリニューアルした内容になります。

■Outline

1. Background

  1. Recommendation System
  2. Reinforcement Learning
  3. Recommendation System using Reinforcement Learning

2. System Structure

  1. Part1: Input data
  2. Part2: RNN model
  3. Part3: Training
  4. Part4: Item sampling
  5. Part5: Recommending steps

■Recommendation System

Recommendation Algorithms:

[1]TONDJI, LIONEL NGOUPEYOU. “Web recommender system for job seeking and recruiting.” (2018).

■Reinforcement Learning(RL)

■Reinforcement learning for recommendation system

■Policy Gradient based Recommendation System

■System Structure

■Input data

  • Item vector:
     Example:カジュアルコンフォート。
     【春夏生地】
       メリノ ウールにポリエステルを混紡した丈夫でしわになりにくい素材です。
       48000。
     Embedding: Word2vec/Bert
  • Context data:
     Example:timing、device
  • Reward:
     Example:1.click: 5 point, 2.buy: 15 point 3.non-feedback: 0 point

■Using RNN model to get user state and policy

■Ignoring non-reward item

■Computing πθ

■Training

■data sampling

■Recommendation(1st time)

■Recommendation

■ダウンロード

強化学習を使ったリコメンドシステム.pdf