IBIS2017 (4)

IBIS2017、三日目(2017年11月10日)の招待講演は、渡辺澄夫先生(東工大)です。これを楽しみにしていました。タイトルは「学習理論よ何処へ」。

理由ですが、ある方から教えてもらった、同先生の「ベイズ統計の理論と方法(2012)」、これが全くわからない。

http://kanouy.blog9.fc2.com/blog-entry-1843.html

こういう本を書かれる方の話を、ぜひお聴きしたいと思いました。

この講演の座長は、言わずと知れた、杉山将先生(だったと思います。間違ったらスミマセン!)でしたが、ご紹介のとき、「私も機械学習でドクターを取ったのですが、その当時、先生の本を見たら、知らない式が次々と出てきた」ということだったそうです。なので、ちょっと安心。

さて、講演です。会議の最後にも関わらず、安田講堂が満席となりました。おそらく、他の方々も、これを楽しみに来られたのではないでしょうか。内容ですが、多大な成果をあげられた人ならではの、まことに含蓄のあるお話でした。このスライドは、先生のサイトにアップされているそうです。
スポンサーサイト

IBIS2017 (3)

「第20回情報論的学習理論ワークショップ(IBIS2017)」、二日目(2017年11月9日)午前中は、「自然言語処理への機械学習の応用」。

JST・中澤敏明氏による、「ニューラル機械翻訳(NMT)の動向」が、たいへん参考になりました。NMTは、そういうものがあるとは聞いていましたが、内容については存じませんでした。

従来の手法は、統計的機械翻訳(SMT)ですが、これとNMTとの比較がまずなされました。う~ん、これを聴いてしまうと、もうNMTしかない?

Google翻訳は、氏によりますと、すべてがNMTに置き換わったそうです。最近、翻訳の品質向上が言われていますが、おそらくこのせいでしょうか。

素晴らしいご講演でしたが、惜しむらくは、GoogleとFacebookの研究紹介に終始したこと。まあ、これは止むを得ませんよね。最先端は、この二社ですからね。

IBIS2017 (2)

IBIS2017、初日(2017年11月8日)の招待講演に、Edward Albert Feigenbaum先生が登壇されました。AIでは著名な方。でも、私はよく知らなかった。カオスで有名なFeigenbaum氏とは別人?

講演後の質問で、質問者の英語が聞き取れないとのことで、日本語を介しての通訳となりました。私は聞き取れた(日本英語のほうが聞き取りやすい)。そのあとの質問者の英語は、より本格的だったのですが(少なくとも私にはそう聞こえた)、これも聞き取れなかったのにはビックリ!

午後は、国際会議採択論文の紹介。面白かったのが、NIPS2017に通った、三井住友アセットマネジメントの方のご発表。タイトルは、"Learning from Complementary Labels"。要するに、ラベル付けが面倒くさいとのことで、「このカテゴリではない」というラベルもよしとするというもの。これが、complementary labelです。「このカテゴリである」というのは、通常のラベルとして扱い、その両者を組み合わせると、性能向上する、という研究です。英語もすばらしくご堪能でした。

IBIS2017

本日(2017年11月8日)から3日間、「第20回情報論的学習理論ワークショップ(IBIS2017)」、に参加してまいります。東大・吉田講堂にて。

最終日の渡辺澄夫先生(東工大)の招待講演が楽しみです。以下は、当該サイトからの引用。

-----------------------------------------------------

学習理論よ何処へ

概要:統計的機械学習が社会や産業のありかたを変革しつつある。その実践においては、人間力・構想力・コミュニケーション力こそが大切であり、統計的機械学習に関する学問的基礎の重要性は相対的に零に収束しつつあるようにも見える。もう学習理論は必要ないのだろうか。もうすぐ数理科学や理論科学がいらない時代になるのだろうか。この講演ではこの問題について考察を行なう。

bias and variance

有名な、"bias and variance"、PRMLの3.2"The Bias-Variance Decomposition"にしっかりと書かれてあります。でも、よくわかりません。アタマ悪いのかな?

そうしたところに、以前から読んでいる、"Response Surface Methodology (2016)"、第10章に、関連の記載を見つけました。この章は、"Advanced topics in response surface methodology"というタイトルなので、高度な話題が書かれてあるところです。あ、やはり高度か、ちょっと安心。

10.1に、biasとvarianceを、具体的な事例で、数式で導出しているところがあります。抽象的な議論が苦手な私としては、これはありがたいです。これを手掛かりに、攻略します。

GOFAI

アメリカ人AI研究者Sが薦めてくれた、'LIFE 3.0 (2017)'、持ち歩いていて、時間のあるときに読んでいます。厚いので、最初からきちんと読むと終わらないので、面白そうなところの拾い読み(よくやる)。

86ページあたりから、DeepMindによるAlphaGoの説明があります。2016年、Lee Sedolとの棋譜に関して、興味深い洞察があります。

88ページに、GOFAIという単語が登場します。これは"Good Old-Fashioned AI"の略だそうです。AlphaGoは、deep learningによる直観(intuition)と、GOFAIによる論理(logic)の融合(marriage)による勝利である、と結論されています。

イラストで学ぶ機械学習 (20)

「イラストで学ぶ機械学習」、第19章は、「マルチタスク学習」です。

回帰と分類について、タスク間の類似度を考慮して、そこからパラメタ推定を行います。これまでの様々な技術を総動員しています。最終章を飾るにふさわしい?

ややこしいのが、推定するパラメタについて、タスクで展開して、一次元ベクトルにしたり、またそれを行列にまとめたりしていることです。最後は、「シルベスタ方程式」というのが登場しますが、これは初めて見たので、よくわかりませんでした。

紆余曲折ありましたが、なんとか最後まで到達!非常に読み応えのある本です。お薦めいたします。

イラストで学ぶ機械学習 (19)

「イラストで学ぶ機械学習」、第18章は、「転移学習」です。

転移学習という単語は、もちろん聞いたことはありましたが、具体的な手法は知りませんでした。なるほど、このような設定なんですね。ちょっとイメージが違いました。

さて、何とか読み進み、199ページの最初の式に来ました。ここはガウシアンの計算です。式の先頭の、

(πσ2)d/2 --- (1)

を導きたい。これは積分の中のガウシアンを平方完成してやって、余りの項を相殺するようにすればよいはず。

まず平方完成をしてみると、ガウシアンの分散は、

σ2/2 --- (2)

であることがわかりました。ガウシアンの係数は、本書168ページのとおり、

(2π)-d/2det(Σ)-1/2 --- (3)

ですから、式(3)を計算してやって、それを打ち消すのが、式(1)となればよいのです。

さて、式(3)を計算してみると、なかなか合わない...ちょっと考えてしまったのですが、おバカな私は、det(Σ)が式(2)に等しいと勘違いしてしまった。正しくは、

det(Σ) = (σ2/2)d --- (4)

です。式(4)を式(3)に代入してやると、

(πσ2)-d/2 --- (5)

となり、式(1)で相殺されることが確認できました。

イラストで学ぶ機械学習 (18)

「イラストで学ぶ機械学習」、第17章は、「半教師付き次元削減」です。

ここは、これまでやったことの総動員です。具体的には、第13章、第14章、第16章、です。難しいです。

17.1 分類問題に対する判別分析、はなんとかクリアしましたが、17.2 十分次元削減、はまいりました。いろいろ疑問はあるにせよ、ついに最後の複雑な式へ。ここに引用したくない式ですが、これはつまり、

x2 / y --- (1)

という式の微分と同じです。さらにこれを、分子と分母の積と考えます。すると積の微分が使えますから、式(1)の微分は、

2xx' / y - x2y' / y2 --- (2)

となりますが、式(2)の構造は、本書の複雑な式と同じです。

Deep Learning (9)

Ian Goodfellow , Yoshua Bengio , Aaron Courville
Deep Learning (Adaptive Computation and Machine Learning series) Hardcover – November 18, 2016.

Universal Approximation Theorem (UAT) というのが紹介されています。

これは何かというと、隠れ層一層のニューラルネットは、ノードを増やせば、どのような関数も近似できる、というものです。学習というのは、知りたい関数を精度よく近似していくということですから、ニューラルネットは、その意味では万能なわけです(ノードを増やせる限りにおいて)。

でも、ちょっとおかしくないですか?いまのニューラルネットは、層数を増やす方向に行っているわけです。UATからすれば、層数を増やす必要はないのではないでしょうか。

Deep Learning(DL)をやっているというヒトが身近にいらっしゃる方、そのヒトに、この疑問をぶつけてみてください。きちんとした回答が返ってきたら、そのヒトは、DLが解っているということです。

カイ二乗分布の謎

カイ二乗分布について、以下の本で勉強いたしました。

確率・統計 (理工系の数学入門コース 7) 単行本 – 1989/2/8 薩摩 順吉

少しクセのある本ですが、数式がきっちり載っていて、参考になります。

さて、カイ二乗分布の複雑な一般式を、数学的帰納法で導出しろと書かれているところがありますが、これを全てやるには、さまざまな数学の技法が必要です。

まず、さすがに正規分布は与えられたと仮定すると、自由度イチのカイ二乗分布を求めるには、変数変換が必要です。この場合は、Y=X2であり、Xの値ふたつがYに対応するので要注意です。

次に、自由度2の分布を求めるには、変数の和(Z=X+Y)の分布を求める必要がありますが、これは畳み込み積分です。この積分をやろうとすると、妙な形が出てきますが、これがベータ関数であることを知らなければ、どうにもなりません。

ここまできてやっと、数学的帰納法の準備が整いました。n=1のときに証明し(これはすでに求めてある)、n-1のときに正しいと仮定して、nのときを導く。たいへん手間がかかる計算だと思います。かなりの統計エキスパートでも、スクラッチで計算するのはしんどいのではないでしょうか。逆に言えば、鍛錬になる問題です。お試しあれ。

Deep Learning (8)

Ian Goodfellow , Yoshua Bengio , Aaron Courville
Deep Learning (Adaptive Computation and Machine Learning series) Hardcover – November 18, 2016.

有志を募り、勉強会は継続!

有名な、XOR問題が丁寧に解説されています。ReLUを使った隠れ層一層で、分離可能。以前のニューラル本では、ReLUはありませんでした。確かに計算すると、分離されますが、なにか不思議な感じがしますね。

イラストで学ぶ機械学習 (17)

「イラストで学ぶ機械学習」、第16章は、「半教師付き学習」です。

ラプラス行列というのが主役をはります。私の疑問は、これはどのような事情で登場したか?式が簡単になるように、この形を決めたようが気がしますが...

それはさておき、この章は要するに、「総和」と「行列」の入れ替えの練習です。何を言っているかというと、

A = a(i,j) --- (1)
B = b(i,j) --- (2)

とすると、

AB = Σ(k)a(i,k)b(k,j) --- (3)

と書けます。

C = c(i,j) --- (4)

も追加すれば、

ABC = Σ(k,l)a(i,k)b(k,l)c(l,j) --- (5)

という具合です。これが解っていれば、総和記号と行列表記は行き来できるのです。添え字が逆のもので総和を取るのであれば、転置にするなど、機転を利かせます。

このようなとき、必ず総和を取るので、じゃあ、総和記号なんでやめちゃえばよいのでは?これを言い出したのが、アインシュタイン。これは、添え字が上と下でペアで出てきたときは、暗黙の了承で総和を取る、というものです。この表記だと、極めて簡単になるのです。

でも、物理以外だとこれは全く流行っていませんね。添え字が全て下であることに起因するのでしょうが、そういう細かいことは気にせずに適用したらダメなのでしょうか?

強化学習

アメリカ人で、機械学習について研究している人と、定期的に会う機会ができました。

最近の雑談から。「reinforcement learningに興味あるか?」と訊かれたので、それはあると言うと、DeepMindの話になりました。AlphaGoが囲碁を制したのは報道されたとおりですが、そのあと彼らは、「汎用AI」へ...

では、「汎用AI」とは?AlphaGoは、いくら強いとは言え、囲碁というルールがあってこその存在です。なので、これは「専用AI」。「汎用AI」とは、自らルールを作り出していく。でも、どうやって?それが、reinforcement learning、日本語では、強化学習と言われるしくみです。

勝手にコミュニケーションを取っていくエージェントとか、彼はさまざまな先端の研究を知っていて、私のヘタな英語でも、大いに参考になります。じゃあ、AIは今後ヒトを超えるのか?そこで、ペンローズの「皇帝の新しい心」を読んだかと訊くと、彼は読んでいて、当時のAIは否定的な面が言われていて、そのようなことが影響しているのではないか、との見解。

私はいまだに、「皇帝の新しい心」には、真実が隠されていると思っていますが、それを詳しく説明するには、私の英語力を超えますから、自然に別の話題となりました。具体的には、トヨタやアップルのAIへの取り組み。

ベイズ統計の理論と方法

ベイズは多少ともかじってきて、ある程度は解ったと思っていました。

しかるに、ある方から、「ベイズ統計の理論と方法(2012)」という本を教えてもらいました。渡辺澄夫先生(東工大)による書籍です。

どれどれと見てみると、私の自信は、見事に砕けました。いきなり3ページに、「逆温度」という用語が出てきて、??

どうも、ベースが物理のようですね。はたして、著者のご出身は物理です。私がこれまで読んできた書物は、どちらかと言うと、情報系の方のものだったのです。

でも、面白そうなので、がんばって読破します!

イラストで学ぶ機械学習 (16)

「イラストで学ぶ機械学習」、第15章は、「オンライン学習」です。これまでも難しかったのが、ついに「発展的話題」に突入!

まず、15.1 受動攻撃学習。これは日本語として意味が取れるのでしょうか。原語は英語なのでしょうから、こちらを知りたい。それから、なぜ二乗ヒンジ損失を使っているのか?

15.2 適応正則化学習では、泣きたくなるような、ガウシアン同士のKLダイバージェンスの計算が登場。170ページ最初の式ですが、さすがにこれを自前で導出する気力も技量もないので、'The Matrix Cookbook'、を参照しました。'The Matrix Cookbook'の関連記事はこちら(↓)。

http://kanouy.blog9.fc2.com/blog-entry-1520.html
http://kanouy.blog9.fc2.com/blog-entry-1494.html

同書の式を導出するには、'The Matrix Cookbook'、式(380)を使えばできます。最後の項の奇妙なd(次元数)は、単位行列のトレースの結果です。

Deep Learning (7)

Ian Goodfellow , Yoshua Bengio , Aaron Courville
Deep Learning (Adaptive Computation and Machine Learning series) Hardcover – November 18, 2016.

有志を募り、勉強会をすることにしました。私は怠け者なので、こうでもしないと読まないです。言い出しっぺなので、私が最初の第2~5章を担当しました。

第2章は、Linear Algebraです。ここは基本なので、特に難しくありません。でも、最後に紹介されていたPCAの説明は、面白いです。45~49ページ。つまり、次元の圧縮・伸長をしてやることで、PCAを導こうという試み。通常の線形代数本には載っていないと思います。

でもこれ、どこかでお目にかかったな...そうです!これは、「イラストで学ぶ機械学習」、第13章のやり方です。こちらのほうが、一般的な取り扱いをしています(この扱いは、DL本ではexerciseとなっている)。やはり「イラスト...」は凄い本ですな。

CNN vs RNN

CNNが2012年、画像認識で脅威的な成果をあげ、Deep Learningが一躍注目を浴びたのは、ご存じのとおり。

そののち、動画像の認識にて、RNNという技術が生まれました。これはニューラルネットにフィードバックを入れるものです。理由はわかりますが、なんか面倒くさそうだな、と思っていました。

そうしたところに、最近、Facebook AI Researchが、言語処理の分野ではありますが、RNNを凌駕する成果を、CNNであげました。正確には、そう主張する論文を出した。

CNN対RNN、ちょっと目が離せなくなりました。個人的にはCNNのほうが、やりやすそう。

イラストで学ぶ機械学習 (15)

「イラストで学ぶ機械学習」、第14章は、「クラスタリング」です。

14.1 K平均クラスタリング、はウォーミングアップ。これはさすがにわかっているはず。

14.2 カーネルK平均クラスタリング、14.3 スペクトル・クラスタリング、難しいですが、なんとか頑張って、最後の14.4 調整パラメータの自動決定、へ。私はこの話、てっきりクラスタ数を決めるものとばかり思って読んでいました。だって、159ページのグラフの横軸はkですからね。

あれ、待てよ、クラスタ数はcでした。ではこのkとはなんぞや?これが不思議なことに、「k最近傍類似度」というのがいきなり登場。むむ、これはなんでしょう...敷居が高いです。

続きを読む

イラストで学ぶ機械学習 (14)

「イラストで学ぶ機械学習」、第13章は、「教師なし次元圧縮」です。

13.2 主成分分析、さすがにわかっていると思っていたのですが、なにやら難しいです。139ページ最初の式(なぜ式番号がないのか?)は、以下です。

Σ|TTTxi - xi|2 = -tr(TCTT) + tr(C) --- (1)

むむ、なぜこうなるのか、すぐには解らなかったのですが、最近習得した、トレース計算を試してみました。すると、

式(1) = Σ(TTTxi - xi)T(TTTxi - xi) = Σ(xiTTTT - xiT)(TTTxi - xi) = Σ(xiTTTTxi -2xiTTTTxi + xiTxi) = Σ(-xiTTTTxi + xiTxi) --- (2)

途中で、以下の条件を使いました。

TTT = I --- (3)

ここまでは、たんに展開しただけです。ここで、トレースを入れます(実数なので、トレースを入れても変わらないというワザ)。

式(2) = Σtr(-xiTTTTxi + xiTxi) = -Σ(tr(TxixiTTT)) + Σ(tr(xiTxi)) = -tr(TΣ(xixiT)TT) + tr(Σ(xixiT)) --- (4)

となり、式(4)は式(1)と同じになりました。

Deep Learning (6)

Ian Goodfellow , Yoshua Bengio , Aaron Courville
Deep Learning (Adaptive Computation and Machine Learning series) Hardcover – November 18, 2016.

amazon.comから到着いたしました!

パラパラとめくったところでは、数学的にはそれほど難しくなさそうです。活字が多い印象ですね。

イントロに、誰向けの本かが書かれてあります。それによると、1)学生、または2)機械学習を知らないソフトウェア技術者、ということです。

イラストで学ぶ機械学習 (13)

「イラストで学ぶ機械学習」、第12章は、「異常検出」です。

12.1 局所異常因子、12.2 サポートベクトル異常検出、はさっと流し、12.3 密度比に基づく異常検出にチャレンジ。

133ページまでは、すんなりわかったのですが、134ページのアルゴリズムでつまずきました。(a)は、133ページの最大化する関数をαで微分すると、こうなるので、これはよいです。でも、(b)(c)(d)がよくわかりません。

(b)(c)(d)は、133ページの制約条件を、αが満たすように計算しているはずですが、30分くらい考えてもわからないので、(b)の式を、bで内積を取ってみました。つまり、

(α + (1 - bTα)b/(bTb), b) --- (1)

すると、式(1)はイチになりました。なんだ、これは133ページの制約式を満たすように作った式ですね。

これでわかりました。(c)はαから負の要素をなくし、(d)で再度、制約式を満たすようにしているということです。

134ページの女性キャラが、可愛い顔して、とんでもないことを言っています。本書はすばらしいのですが、イラストに騙されてはいけない。

しかし、12.3の手法は面白いです。異常検出に関わることがあれば、この手法を試そうと思います。計算は簡単です。

Dirichlet Process (2)

'Dirichlet process'ですが、先日、数学にお詳しいS氏に、一時間ほどレクチャを受けました。

S氏が参考にされていたのが、以下の書籍です。

佐藤 一誠、ノンパラメトリックベイズ 点過程と統計的機械学習の数理、講談社、2016/4/20

これは、私も買おうと思っていたものです。しかるに、当時は'Gaussian process'を習得したかったのですが、それには言及されていなかったので、購入を控えました。また検討します。

ところで、クラスタ数Kを決めるときに、'Dirichlet process'を使いますが、私は、K=3とかK=5とかが、なにかの拍子に出てくるのだと思っていたのですが、それは間違いですね。無限次元において、各次元での確率が出てくるそうです。その中から、確率の大きなものを何個か選択し、その個数をもってKを決めるようですね。

Introduction to Linear Regression Analysis

下記の本、すなわち、

'Response Surface Methodology: Process and Product Optimization Using Designed Experiments (Wiley Series in Probability and Statistics) 4th Edition (2016)'

に、これでもかと引用されている本、すなわち、

'Introduction to Linear Regression Analysis (Wiley Series in Probability and Statistics) 5th Edition (2012)'

を購入しました。回帰については、これで完全に習得できます。恐らくですが、これ以上に詳しい本はないはず。やっぱり回帰は基本。勉強します。

Deep Learning (5)

ついに、Deep Learningの本格的書物が登場!

Ian Goodfellow , Yoshua Bengio , Aaron Courville
Deep Learning (Adaptive Computation and Machine Learning series) Hardcover – November 18, 2016.

別の書物を探していたら、引っかかりました。昨年の登場なんですね。

購入しようと身構えたら、まだ初刷のようです。つまり、誤植が多そう。どうしよう...
(なぜ初刷とわかったか?amazonの'Look inside'で、数字が'10 9 8 7 6 5 4 3 2 1'と並んでいたから)

いろいろと調べたら、合法的にウェブサイトでPDFが取れるようです。まずはこちらを読むようにと推奨しているreviewerもいらっしゃったので、そのようにいたします。当面はPDFを見ます。刷が重なって、誤植がなくなってきたら、購入するかもしれません。

でも、そうなったときにはもう内容が古い?

イラストで学ぶ機械学習 (12)

「イラストで学ぶ機械学習」、第10章は、「確率的分類」です。

最初は、お馴染の「ロジスティック回帰」です。ここでまず躓きました。なぜかというと、PRMLで見られる普通の定式化と少し違うからです(ような気がする)。対数尤度を最大にするということは、それに属するものしか、尤度を考えていないことになりますね。

ここで終わりと思いきや、「最小二乗確率的分類」、というのが登場しました。これは見たことがありません。なんとか数式は追いましたが、なかなか難しいです。少なくとも、自前では導出できないです。ただ、結果はよいのですが、確率が負になる可能性があることから、それをゼロ以上に切り上げたり、最後に正規化したりと、完全に応用寄りの技術ですね。

イラストで学ぶ機械学習 (11)

「イラストで学ぶ機械学習」、第9章は、「アンサンブル分類」。バギングに続き、章の最後は、ブースティングです。

紹介されているのは、アダブースト(AdaBoost)です。よく聞きますが、私はこれまで経験がありません。幸い、アルゴリズムがきちんと説明されていたので、丹念に読みました。これはかなり面白いです。要するに、

1)いま処理中の弱分類器を計算する
2)1)で計算した分類器の重みを計算する
3)各データの重みを計算する

というのを、繰り返します。最初は混乱しましたが、よくできています。

その前で紹介されていた、バギングとの比較が、同じデータセットで確認できます。掲載されている図を見ると、バギングは想定されるものですが、アダブーストのほうは、分類の境界が少し複雑です。理由の解析は難しいですね。

アダブースト、非常に興味深い手法ですが、残念ながら、並列化ができません(原理上そのはず)。対して、より簡単なバギングは、並列化が可能です。並列化のご時世、バギング有利?単純で技術的にはつまらないですが。

イラストで学ぶ機械学習 (10)

「イラストで学ぶ機械学習」、第9章は、「アンサンブル分類」です。

要は、バギングとかブースティングとか言われているものです。簡単な割には性能がよいので、広く使われているようですが、私には未開の領域。

さて、最初のバギングで躓きました。97ページの次式ですが(bは分類器の数)、

f(x) = (1/b)∑φj(x) --- (1)

これが最初、わかりませんでした。φjというのは、ある次元で閾値で切るという、単純な分類器です。これを平均化して、なんで98ページのような複雑な境界を持つ図になるのだろう、と暫し考えてしまいました。

私はおバカで、99ページのmatlabコードを見て、やっとわかりました。この図は、コンタを描いているわけです。なので、φjは、領域を+1と-1に分けるものですが、それを加えてやって、ゼロのところが境界、というわけです。コードはやはり必要?

イラストで学ぶ機械学習 (9)

「イラストで学ぶ機械学習」、第8章は、「サポートベクトル分類」です。

SVM(Support Vector Machine)は解っているつもりでした。実際のところ、8.4までは既知の内容。

しかし、「8.5 ヒンジ損失最小化学習としての解釈」から、雲行きがあやしくなりました。極めつけは、「8.6 ランプ損失を用いたロバスト学習」。ここはかなり難しいです。なんとか、式を追いました。

混乱するところは、元々は以下の定式化のところが、

min∑|vi - fθ(xi)yi| --- (1)

掲載の計算は、以下の式を解いていることです。

min[(1/2)∑wi(viyi - θTΦ(xi))2 + (λ/2)|θ|2] --- (2)

式(1)と式(2)では、yiの位置が変わっているのですが、これでよいのかどうか、すぐに解りませんでした。確かに、yi=±1という前提においては、変わってもよいみたいですが、ちょっと説明が欲しいところです。

cross-entropyの謎

Multiclass logistic regressionにおける、cross-entropyとは、PRMLによると、以下の式で書けます。

E(w1, ..., wK) = -log p(T|w1, ..., wK) = - ΣΣtnk log ynk --- (1)

PRMLでは、式(4.108)です。詳細は、PRMLをご覧ください。

これは、指数関数の<トリック>を利用したものです。つまり、

11 = 1 --- (2)
00 = 1 --- (3)

が成立するので(式(3)をよく間違える)、式(1)のように書くことができる、ということです。

一方では、式(1)自体では、0と1の間の値も入れられますね。たとえば、0.5など。こういう場合を含んでも、式(1)を使っていいんですかね...ちなみに、PRMLの当該箇所には、以下のように書かれてあります。

'This is most easily done using the 1-of-K coding scheme in which the target vector tn for a feature vector φn belonging to class Ck is a binary vector with all elements zero except for element k, which equals one.'

なので、たぶんダメ?でも、ニューラルネットのback propagationでは、これは使われます。定式化が違うんですかね...よくわからないところです。
プロフィール

加納裕(かのうゆたか)

Author:加納裕(かのうゆたか)


[略歴]
1983年3月東京工業大学工学部機械物理工学科卒業
1983年4月(株)図研入社
1987年1月同社退社
1987年2月(株)ソリッドレイ研究所を6名で設立、取締役
1994年3月同社退社
1994年4月(株)スリーディー入社
1996年10月同社取締役
1999年12月上海大学兼務教授
2002年10月同社代表取締役
2009年9月ものつくり大学非常勤講師~現在
2009年10月同社代表退任/退社
2010年1月ソフトキューブ(株)入社~現在(横浜オフィス)
2011年11月甲南大学特別講師
2011年11月関西大学特別講師
2012年11月東京理科大学特別講師
2017年4月湘南工科大学非常勤講師~現在


[業界団体・学会活動]
電気学会・第二期次世代インタラクティブディスプレイ協同研究委員会(幹事)/三次元映像のフォーラム(幹事、監査)/日本バーチャルリアリティ学会・論文委員会(委員)・力触覚の提示と計算研究会(委員)/ACM/SIGGRAPH(Professional Member)/情報処理学会(正会員、CVIM会員)/3Dコンソーシアム(賛助会員)/3DBiz研究会(個人賛助会員)/最先端表現技術利用推進協会(個人会員)/URCF(特別会員)

----------------

前職:/立体映像産業推進協議会(幹事)


[資格]
TOEIC805点
数学検定1級(数理技能)
中型・普自二免許
サッカー4級審判員

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード