Total Variationを巡る数学解析 /「コスト最小化」の数学 / 2乗か1乗か

[slideshare id=230194007&doc=jeffreyfawcett-arithmer20191031-200313085130]

研究開発本部の上坂と申します。2019年に入社し、今年で3年目を迎えています。
今回は私より、ArithmerBlog第二号をお届けします。

という規則でパラメータ$θ$を更新します。
ここで、$µ$は学習率、$∇θ$は$θ$についての勾配を取ることを意味します。
更新ルールは、次のように変形してみると違った意味が見えてきます。

右辺はなんとなく「差分商」のような形をしていて、微分を想起させる形になっています。
微分方程式の数値計算法をちょっと調べると、この式は微分方程式

を、「前進Euler法」で離散化したものになっています。
こうみなした場合、学習率$µ$は、時間tの刻み幅に対応することとなります。
コスト関数$L$について、上の微分方程式で定まる$θ(t)$を、$L$の勾配流(gradient ﬂow)といいます。

上の議論から分かる通り、勾配降下法を使って学習スクリプトを走らせているとき、私達はいつの間にか勾配流の数値計算を実行していることになっていたのです。
さて、具体的なコスト関数が与えられた場合、勾配流はどう振る舞うでしょうか？
これは、機械学習における学習の振る舞いを評価するという点でも役立つ情報ではありますが、もっと広く、自然現象のモデリングなどにも関わる問題です。次の節で具体例を示しましょう。

論文の続きはこちら