強化学習を使ったリコメンドシステム

2020年9月15日2022年3月8日

本資料は2020年9月15日に社内共有資料として展開していたものをWEBページ向けにリニューアルした内容になります。

■Outline

1. Background

Recommendation System
Reinforcement Learning
Recommendation System using Reinforcement Learning

2. System Structure

Part1: Input data
Part2: RNN model
Part3: Training
Part4: Item sampling
Part5: Recommending steps

■Recommendation System

Recommendation Algorithms:

[1]TONDJI, LIONEL NGOUPEYOU. “Web recommender system for job seeking and recruiting.” (2018).

■Reinforcement Learning(RL)

■Reinforcement learning for recommendation system

■Policy Gradient based Recommendation System

■System Structure

■Input data

Item vector:
　Example：カジュアルコンフォート。
　【春夏生地】
　　　メリノウールにポリエステルを混紡した丈夫でしわになりにくい素材です。
　　　48000。
　Embedding: Word2vec/Bert
Context data:
　Example：timing、device
Reward:
　Example：1.click: 5 point, 2.buy: 15 point 3.non-feedback: 0 point

■Using RNN model to get user state and policy

■Ignoring non-reward item

■Computing π_θ

■Training

■data sampling

■Recommendation(1st time)

■Recommendation

■ダウンロード

強化学習を使ったリコメンドシステム.pdf

前の記事

次の記事

剛体の姿勢推定