2017年01月15日

「Deep Learning Javaプログラミング 深層学習の理論と実装」1



人工知能の実際のプログラミング実装も見ながら理論を勉強しようと思い購入。

Amazonのレビューでもありましたが、P42から43がだいぶ説明が省略されていますね。
深層学習以前の話なので、省略されているのでしょうが、初心者には結構つらいです。

理解したことをメモ

「パーセプトロン」で線形分離可能という前提のもと(この分離線を「直線A」とする)、
「直線A」を0基準とすると、誤差のあるデータは正数領域もしくは負数領域のどちらかに
なる。
「直線A」から負数領域のデータまでの距離は負数(wx<0)になるが、絶対値をとるため、
-1(t)を乗算している。※誤差はあくまで「直線A」からの距離の積算のため。この計算を
やりやすくするために、t={1, -1}にしている(t={1, 0}ではなく)。

また、wを調整して「誤差の合計値」が最も小さくなるところを探すことが「学習」ということになるが、
ここで使用しているのは勾配降下法である。この方法は、傾き(微分的には平均変化率ともいう)
=勾配を使用して最適化するものであるが、何の傾きかというと、X軸にw/Y軸に「誤差の合計値」と
したグラフ(曲線グラフ)の微分係数(接線の傾き)になる。この傾きをwに加減してwを最適化する
ことになる。
※曲線グラフに2次曲線(y=ax2)をイメージすると、誤差が大きいと傾きも大きく、誤差が小さくなる
と傾きが小さくなることを利用している。

p43の2.5.6がこの勾配降下法の式だけど、微分係数(接線の傾き)=xとしているのが腑に落ちない。。
E(w)をwで微分しているのだよなー Σがある式の微分かー 


posted by 台北猫々 at 16:41| Comment(0) | TrackBack(0) | 技術メモ(人工知能)
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/178410908

この記事へのトラックバック