本資料は2020年9月15日に社内共有資料として展開していたものをWEBページ向けにリニューアルした内容になります。
■Outline
1. Background
- Recommendation System
- Reinforcement Learning
- Recommendation System using Reinforcement Learning
2. System Structure
- Part1: Input data
- Part2: RNN model
- Part3: Training
- Part4: Item sampling
- Part5: Recommending steps
■Recommendation System
Recommendation Algorithms:

[1]TONDJI, LIONEL NGOUPEYOU. “Web recommender system for job seeking and recruiting.” (2018).
■Reinforcement Learning(RL)

■Reinforcement learning for recommendation system

■Policy Gradient based Recommendation System

■System Structure

■Input data

- Item vector:
Example:カジュアルコンフォート。
【春夏生地】
メリノ ウールにポリエステルを混紡した丈夫でしわになりにくい素材です。
48000。
Embedding: Word2vec/Bert - Context data:
Example:timing、device - Reward:
Example:1.click: 5 point, 2.buy: 15 point 3.non-feedback: 0 point
■Using RNN model to get user state and policy

■Ignoring non-reward item

■Computing πθ

■Training


■data sampling

■Recommendation(1st time)

■Recommendation
