FC2ブログ

Introduction to Linear Regression Analysis (4)

線形回帰でのバイブル本、すなわち、

Introduction to Linear Regression Analysis 5th Edition by Douglas C. Montgomery (Author), Elizabeth A. Peck (Author), G. Geoffrey Vining (Author)

これまでの疑問は、ベクトル

(I - H)y --- (1)

の要素の和がゼロになるというものです。Hはhat matrixで、計画行列Aで表されるものです。これが成り立つ条件は、「回帰式に切片がある場合」です。

この疑問は解けました。同書の73ページに、正規方程式の具体的な形が載っています。これの1行目を計算すればよいのです。具体的な行列の形が必要でありました。
スポンサーサイト



Introduction to Linear Regression Analysis (3)

線形回帰でのバイブル本、すなわち、

Introduction to Linear Regression Analysis 5th Edition by Douglas C. Montgomery (Author), Elizabeth A. Peck (Author), G. Geoffrey Vining (Author)

ですが、20ページの1を検証しようとしました。式で書くと、

Σei = 0 --- (1)

これがよくわかりません。なぜこうなるのか?式(1)というのは、ベクトル

(I - H)y --- (2)

の要素の和です。ここでHはhat matrixと呼ばれるもので、計画行列Aで表されます。しかし、このあとどうやってよいのかがわかりません。

もう少し読んでみると、「回帰式に切片がある場合に」という条件が付いています。すなわち、Aの第1列がすべてイチの場合です。そうなると、行列の汎用的な計算では検証できず、行列の中身を具体的にみなければなりません。

それで、Mathematicaで、具体的に式を作り、最後にSimplify[]してみました。そうすると、式(2)の要素の和は、見事にゼロとなりました。

しかし、これは証明ではないですね。証明はどうやってやるのでしょうか...

Introduction to Linear Regression Analysis (2)

線形回帰でのバイブル本、すなわち、

Introduction to Linear Regression Analysis 5th Edition by Douglas C. Montgomery (Author), Elizabeth A. Peck (Author), G. Geoffrey Vining (Author)

基本的なところが気になったので、おさらいしました。analysis of variance、のところです。25ページ。

要するに、「全変動」が、「回帰変動」と「残差変動」のふたつに分解できるというところです。式で書くと、

SST = SSR + SSRes --- (1)

です。実は、イマイチ式(1)の導出がわかりません。復習します。

The Elements of Statistical Learning (3)

機械学習のバイブルのひとつ(アマゾンのコピペ)、

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics) (英語) ハードカバー – 2009/3/1

譲ることにいたしました。本棚のキャパが超えているということと、おそらく今後もあまり読むことなないだろうと、思い切りました。

これまでは、このような洋書は売っていたのですが、今回はタダで贈呈。

Artificial Intelligence Engines (3)

知人と、読書の話をしていました。

私がたまたま、アマゾンに書評を書いているということを話し、そのリストも渡しました。するとその知人は、その中から、

Artificial Intelligence Engines: A Tutorial Introduction to the Mathematics of Deep Learning – 2019/3/28 James V Stone

に興味を示し、購入までしようとしたようです。

本書はかなりの技術書なので、まずはチラ見したほうがよいのではと、私のをお貸しすることにいたしました。

The Elements of Statistical Learning (2)

機械学習のバイブルのひとつはこの本です(アマゾンのコピペ)。

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics) (英語) ハードカバー – 2009/3/1

購入時期は古いのですが、あまり読んでいなくて(どうもフィットしない)、某所に置いてあったのですが、そこが引っ越しとなり、いったん自宅に引き取りました。分厚いのでスペースを食います。

さてどうしよう。やはり売却路線?

ディープラーニングE資格エンジニア問題集

訳あって、「ディープラーニングE資格エンジニア問題集」というのを読むことになりました。

アマゾンに書評を書きましたので、内容については、それをご覧いただきたいのですが、誤植があります。

第1章「線形代数」ですが、問5は特異値分解の問題です。解答では、

Σ = {{1, 0, 0},{0, √5, 0}} --- (1)

となっていますが、実際には、

Σ = {{√5, 0, 0},{0, 1, 0}} --- (2)

が正しいです。特異値は大きい順に並べないといけないです(解答にもそう書いてあるのだが)。

ややこしいのが、AATを計算すると(これもATAとなっており、誤植)、

AAT - {{1, 0}, {0, 5}} --- (3)

と、対角行列になり、しかも要素が小さい順に並んでしまうことです。これで混乱が生じたものと思われます。

multinoulli distribution

機械学習系日本語書籍を読んでいたところ、「マルチヌーイ分布」という単語にあたりました。

これは容易に、ベルヌイ分布の多変数版であると推測されます。しかし、このような名前が正式に付けられているのでしょうか?

気になって調べてみると、もともとは、categorical distributionと命名されていますね。それが、generalized Bernoulli distributionとか、multinoulli distributionなどと呼ばれるようになったようです。

まあ、わかるんですが、ベルヌイというのは、由緒ある人の名前ですよね。これをこのように変えてよいのだろうか。

Kevin MurphyのMachine Learning本の35ページに、Gustavo Lacerdaという人が、このように命名することを提唱したと書かれてありました。

Killing vector (4)

魚金会での教科書、

Mikio Nakahara, Geometry, Topology and Physics, 2nd edition, Institute of Physics Publishing, 2003.

7.7 Killing vector、Exercise 7.17において、余計な項が出てくるという話を書きました。すなわち、

Xλ(∂μgλν + ∂νgλμ) --- (1)

しかし、これは私の計算間違いであることがわかりました(偏微分の計算を間違った)。Mさんの計算を聞いていて、気がつきました。さすがMさんです。

EMアルゴリズム (9)

Factor Analysis (FA) について、PRMLに記載されているやりかたで勉強してみたということを書きました。

http://kanouy.blog9.fc2.com/blog-entry-2508.html

Probabilistic PCAと、Factor Analysis (FA) がともにEMアルゴリズムにより計算されるわけです。EMアルゴリズムの素晴らしい応用です。

これを調べていて気が付いたのですが、EMアルゴリズムは、非線形最小二乗法に似ていませんか?なぜかというと、後者は非線形関数を二次関数で近似し、その極値を求めます。その極値に対して二次関数の当てはめを繰り返します。

一方EMアルゴリズムでは、潜在変数の事後確率を求めます(Eステップ)。そしてそのあとで、目的関数の極値を求めます(Mステップ)。このEステップの役割が、二次関数の当てはめに似ているような気がするのですが、もちろん同じではありません。このふたつの関係をもう少し知りたいです。

Item Response Theory (3)

Item Response Theory(IRT)では定番の、

Item Response Theory for Psychologists (Multivariate Applications Series) Psychology Press; 1 edition (May 1, 2000)

を読んだので、内輪でのセミナをやったという話を書きました。

http://kanouy.blog9.fc2.com/blog-entry-2440.html

ここでは、アイテム応答曲線という、アイテム(=質問)に対し、どう反応するかという曲線をシグモイド関数で表します。そうすると、確率モデルが構築できることになり、最尤推定を用いて、パラメタが計算できることになります。

さて、それではアイテム応答曲線をどう作るかですが、いちおうやり方を考案しました。ただ、それがこの分野において正しいものかどうかがよくわかりません。というわけで、また本書を読んでみます。どこかに書かれてあるかも...

Factor Analysis (5)

Factor Analysis (FA) について、PRMLに記載されているやりかたで勉強してみました。第12章です。

まずPCAが説明されます。これはわかっているつもり。線型代数の範囲です。

そのあと、probabilistic PCAが説明されます。これはなにかというと、まず潜在変数zを考え、その分布を以下とします。

p(z) = p(z|0,I) --- (1)

観測された変数xは、zの条件付き確率密度で発生したものとします。すなわち、

p(x) = p(x|Wz+μ2I) --- (2)

対してFAは、式(1)は同じですが、式(3)で発生したものとします。

p(x) = p(x|Wz+μ,Ψ) --- (3)

Ψは対角行列です。つまり、probabilistic PCAでは、xの分散は均等としています。それに対してFAでは、xの各要素の分散は等しくありません。

心理学によるFAの説明ではPCAと比較しているものが多いのですが、確率密度的な記述がありませんでした。なのでわかったようでわからなかったのですが、上記のように数式で明記してもらえると、よくわかります。

Factor Analysis (4)

Factor Analysis (FA) についてです。基本的には心理学・社会科学系の分析手法ですが、機械学習本にも記載されていますね。たとえば、

C. M. Bishop, PRML, pp.583 - 586 (2006).
K. P. Murphy, Machine Learning, pp.383 - 389 (2012).

PCA (Principal Component Analysis) に絡んで説明されています。心理学系の分析本だと、最初にPCAを説明して、それの拡張としてFAが説明されるのですが、上記本では、Bishopのはそんな感じですが、Murphyのは順序が逆ですね。双方ともたいへん参考になる記述があります。なるほど、そういうことだったんだ。

機械翻訳

先日(2020年4月26日)、Facebookに、以下の文章をアップしました。

「先週末の混雑が話題となった湘南鎌倉エリアをパトロール中。厳戒態勢なので私のような地元ランナーくらいしかいません。このあとステイホーム。」

最近のFBの機能で、"View As"というのがあるので、それで見てみました。以前もあった機能ですが、脆弱性を突かれて一旦取りやめになったものです。満を持して復活。さて、そうすると、

"We are patrolling the shonan kamakura area, which has been talked about last weekend's congestion. There's only a local runner like me because it's on high alert. Stay home after this."

なぜか英語が出てきました。自動的に翻訳されたわけです(なぜか不明)。その英語なのですが、これには驚きました。最近の機械翻訳、特にGoogle翻訳の進歩は目覚ましく、画像認識に続くDeep Learningの勝利と思っていますが、この英語は私の英語力では文句の付けようがないですね。

FBだからGoogle翻訳ではなく、自前でやっているのでしょうが、恐ろしい。

Factor Analysis (3)

Factor Analysis (FA) について調べています。

C大P氏が、UCLAのわかりやすそうなサイトを紹介してくれました。まずPCAの紹介があります。ここまではわかります。

さて、そのあとFAです。まずここで、Principal Axis Factoring (PAF) というのが登場します。これはなにかというと、相関行列の対角成分(すべてイチ)を、ある値に置き換えて、その行列に対して固有値問題を解くのだと理解しました。

これをよしとすると、そのあとの議論はなんとなくわかりました。ローテーションもOK。

ただ、最初の、なぜ相関行列の対角成分を置き換えてよいのかがわかりません。ここは説明が省かれているところです。少し考えます。

ベイズ統計の理論と方法 (3)

衝撃的だった以下の著書、

・ベイズ統計の理論と方法 – 2012/3/1 渡辺 澄夫

から浮気して、

・代数幾何と学習理論 (知能情報科学シリーズ) – 2006/4/27 渡辺 澄夫

を購入したという話を書きましたが、こちらのほうが衝撃的でした。第2章で広中先生の「特異点解消理論」が登場。なぜこれが学習理論に出てくるのか?

というわけで、再び前著に戻りました。すると面白いことに、多少とも易しく感じました。なぜかというと、後著は完全な一般論を展開しているのですが、前著はそれをベイズに絞ったということです。

ベイズ統計の理論と方法 (2)

渡辺澄夫先生(東工大)の著書、「ベイズ統計の理論と方法(2012)」、暫し積読状態でしたが、また手に取りだしました。

最初の衝撃からは脱出して、多少は読み進められそうです。

そうしたところに、C大P氏が、代数トポロジーと機械学習を組み合わせたなにかをやりたいとの話があり、関連本を探してみたところ、

代数幾何と学習理論 (知能情報科学シリーズ) – 2006/4/27 渡辺 澄夫

に到達しました。とうわけで、こちらに浮気します。

予測にいかす統計モデリングの基本

仕事でカルマンフィルターが必要となりました。

カルマンフィルターについては、制御系の本を読んだことがあるのですが、かなりわかりづらいです。機械学習本では、PRMLに触りが書かれてあります。こちらのほうが整理されています。要するにガウシアンなので。

基本は時系列解析です。したがって、かなり前に購入した以下の本(アマゾンのコピペ)、

予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書) – 2011/4/7 樋口 知之

を読み始めました。本書は良書には違いないのですが、スタイルのせいか、私にはちょっととっつきにくいです。再チャレンジ。

AIのための数学 (7)

「AIのための数学」、全12回シリーズ、数人の方々に対して、お披露目をすることになりました。公開に向けてのシミュレーションです。

第一回ですが、これはイントロです。具体的な数学はやらないで、なぜ本講座をニューラルネットに絞ったのか、ということを説明します。

予定では90分です。ただしこれはもともと、不特定多数向けの講座として企画したものなので、90分というのは、さまざまな質疑応答も入れたものです。今回のような小人数だと、30分程度で終わってしまうかもです。そうなると、その補填として第二回も続けて行う可能性があります。第二回というのは線型代数です。

Factor Analysis (2)

Factor Analysis (FA) を引き続き調査。特にPrincipal Component Analysis (PCA) との関係についてです。

資料をいくつか読みましたが、相変わらずこのふたつの関係がわからないので、原理をよく知っているはずのPCAを用いて分析をやってみました。ようするに因子を見つけるわけですが、いろいろとやってみると、なんとなくやり方がわかってきました。

まず固有値を大きい順から並べ、それに対応する固有ベクトルをみます。相関のあるものは、まとまったあるパターンを示します。これらをうまくクラスタリングしてやれば、因子を見つけることができるというわけです。ただし、このやり方と、FAの関係がわかりません。

とりあえずの結果を、C大P氏に見せると、"Super interesting!"ということになり、この路線でもう少しやってみます。

Bayesian Data Analysis (4)

最近かなり本を処分しましたが、最後まで迷ったのがこれ。

Andrew Gelman, et. al., Bayesian Data Analysis Third Edition, CRC Press (2013).

かなり参照してきたのですが、記述が私には難しいです。難しいというか、私の読むスタイルに合わなかった?

良書であることに疑いはありません。アマゾンでの評価も高い。私も実は、評価で星5つといたしました。

かなり高値で買い取ってくれたので、使いこなせる人の手に渡ってくれることを期待します。

最小二乗法 (4)

「AIのための数学」に続く企画として、「最小二乗法」をドラフトとしてまとめました。全5回です。

第1回: 正規方程式
第2回: 多変数2次関数
第3回: 特異値分解・一般逆行列
第4回: 曲線のあてはめ
第5回: レーベンバーク・マーカート法

最初に、最小二乗法を行列とベクトルとして記述し、逆行列で一気に解けることを示します。これが基本。

そのあとは、それを支える2次関数のおさらいや、その他の知っておいたほうが便利な技法の説明をします。このあたりは好みにもよりますね。

ゴールは、非線形最小二乗法の定番、Levenberg–Marquardt法(LM法)。最小二乗法のトリにふさわしい、優れた手法です。最適化本でも、最後に載っているものです。

最小二乗法 (3)

「AIのための数学」に続く企画として、「最小二乗法」をまとめたいと、先日書きました。

導入は、最小二乗法を行列とベクトルとして記述し、これを逆行列で一気に解くということから入ります。よくある導入。

そしてゴールですが、これはLevenberg–Marquardt法(LM法)におきたいです。これは非線形最小二乗法なのですが、ベクトル関数の偏微分や一次近似の手法が必要となります。さらに、以前仕事でLM法でうまくいった経験をしました。優れた手法です。ただし、関係者以外、あまり知られていない。

最小二乗法 (2)

「AIのための数学」という資料を全12回としてまとめたので、次の企画を考えているということを、先日書きました。

そのときは、潜在変数(latent variables)の理論が候補と書いたのですが、ほかの候補としては、最小二乗法ですね。これは極めて重要です。これをまとめたい。

以下のような素晴らしい本もあります。

イラストで学ぶ 機械学習 最小二乗法による識別モデル学習を中心に (KS情報科学専門書) 2013/9/18 杉山 将

これは悪戦苦闘しながら、何度も読んだ本です。最小二乗法がキーワード。同書に乗っていない事柄も織り込みたい。

latent variables (3)

「AIのための数学」という資料を全12回としてまとめたので、次の企画を考えています。

要は、ニューラルネットではない機械学習の重要な技術、ということですが、潜在変数(latent variables)の理論が候補ですね。PRMLの後半を占めるものです。

PRMLの展開は素晴らしく、まず混合正規分布の例を出して、それをEMとして定式化します。そのあとそれを拡張するかたちで変分法にもっていく。

これはよいのですが、変分法はちょっと難しいですね。なのでこれは避けたい。ではどうするか?結局は数値計算にもっていくことになりますね。検討中。

Structural Equation Modeling

Item Response Theory (IRT) に絡んで、Structural Equation Modeling (SEM) についても、勉強する必要が生じました。

SEMの日本語訳はいろいろとあるようですが、それはよいとして、まずは以下の書籍を購入。

Principles and Practice of Structural Equation Modeling (Methodology in the Social Sciences) 2015/11/4 Rex B. Kline

モデリングの考え方はなんとなくわかりました。でも、計算方法については、専用ツールを使うということで、あまり書かれていません。心理学系の書籍はこんな感じですね。

Factor Analysis

Item Response Theory (IRT) に絡んで、Factor Analysis (FA) も調べています。

しかしこの、FAというのがよくわかりません。一見、Principal Component Analysis (PCA) に似ているのですが、PCAは、おのおのの要因から、それが混合された、いわゆる「主軸」を計算するというものです。固有値・固有ベクトルの話となり、線型代数的には完成されています。

それに対して、FAというのは、逆ですね。もともと存在するであろう「因子」の混合物として観測された値から、もともとの「因子」を計算するというものです。その計算方法はさまざまなものがあるらしく、さらにはFAの存在意義についても議論が交わされている、ということで、FAとPCAは似て非なるもののようです。

Item Response Theory (2)

Item Response Theory(IRT)ですが、以下の書籍、

Item Response Theory for Psychologists (Multivariate Applications Series) Psychology Press; 1 edition (May 1, 2000)

すべてではないですが、何となく全部めくったので、これを機会に、内輪でのセミナを企画いたしました。

私も一か月前まではなにも知らなかったので、その私が説明するのはおかしいわけですが、私のモットーは「学習する最善の策は、それを人に教えること」です。これを実践するわけです。

Item Response Theory

なぜか、Item Response Theoryをやることになりました。略して、IRT。

これは主に心理学で使われる、計測手法です。それに対して、従来の計測手法は、Classical Test Theory。略して、CCT。

以下の本を購入、勉強しております。

Item Response Theory for Psychologists (Multivariate Applications Series) Psychology Press; 1 edition (May 1, 2000)

cross-entropyの謎 (8)

2クラス分類における、cross entropyは以下の式です。

L = -t*log(y) - (1-t)*log(1-y) --- (1)

tは教師データ、yはいま計算して得られている値です。t=yのとき、Lは最小となります。

さて、ここでの注意は、y=0またはy=1のとき、式(1)は定義できません。対数はゼロをとれない。教科書によっては、注意事項として記載されています。

しかしながら、yがシグモイド関数で得られているのであれば、yは0や1はとりません。なので、式(1)はそのまま計算できることになりますね。うまくできていますが、これは偶然なのだろうか?
プロフィール

加納裕(かのうゆたか)

Author:加納裕(かのうゆたか)


[略歴]
1983年3月東京工業大学工学部機械物理工学科卒業
1983年4月(株)図研入社
1987年1月同社退社
1987年2月(株)ソリッドレイ研究所を6名で設立、取締役
1994年3月同社退社
1994年4月(株)スリーディー入社
1996年10月同社取締役
1999年12月上海大学兼務教授
2002年10月同社代表取締役
2009年9月ものつくり大学非常勤講師~2020年10月
2009年10月同社代表退任/退社
2010年1月ソフトキューブ(株)入社~現在(技術顧問)
2017年4月湘南工科大学非常勤講師~現在


[業界団体・学会活動]
電気学会・第四期次世代インタラクティブディスプレイ協同研究委員会(委員)/最先端表現技術利用推進協会・アカデミック部会(旧:三次元映像のフォーラム)(副部会長)/日本バーチャルリアリティ学会ハプティクス研究委員会(委員)/ACM(Professional Member)/情報処理学会(正会員)/3Dコンソーシアム(賛助会員)/URCF(特別会員)

---------------------

前職:立体映像産業推進協議会(幹事)/日本バーチャルリアリティ学会・論文委員会(委員)/3DBiz研究会(個人賛助会員)


[資格]
TOEIC805点
数学検定1級(数理技能)
中型・普自二免許
サッカー4級審判員

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード