cross-entropyの謎 (7)
PRMLでは、ややこしい式から、cross-entropyを導きます。4.3. Probabilistic Discriminative Models のところです。岡谷先生の「深層学習」でも、同じ道筋を踏襲。
一方、DL本では、5.5 Maximum Likelihood Estimation において、まったく異なる(と思われる)道筋が示されます。これは面白い議論ですが、この両者が同じことを言っているのかどうか、よくわからない。
もう少し考えますが、簡単な道筋のほうがいいですね。