FC2ブログ

ハフ変換

W大のO先生から、博士論文発表会のメールを頂きましたので、行ってまいりました。画像認識系の研究なので、興味があるのです。2010年2月22日。

前段で、ハフ変換の代わりに、修正RANSACを用いても、複数の直線を検出できる、という話がありました。もちろん、検出の品質に関しては、前者に一日の長があるようですが、後者に長所もありそうです。

ところで、ハフ変換というのは、これほどヒトの認識手順とかけ離れているアルゴリズムもないですね。かなり前、画像認識なんて、AIの手法を用いれば簡単、なんて思われた時代もあったと聞いていますが、いまはもちろんそのようなことはありません。ハフ変換も、純粋に計算機で処理しやすいためのアルゴリズムでしょうね(まさかこんな手順をヒトはやらない)。

しかし、やはり興味があるのは、ヒトはなぜこんなにも簡単に、複数の直線を検出できるのか、ということです。いま、視覚や脳の研究がかなりなされているので、このあたりは多少とも解明されているのでしょうか。
スポンサーサイト

バンクーバー五輪 (2)

カーリング女子の日本は、残念ながら一次リーグ敗退。前半は頑張りましたが(イギリス戦を観た!)、後半はちょっと息切れしましたか。

ところで、カーリングのショットは、どこを狙うかをどのようにして決めているのでしょう。試合を観ていると、その都度話し合って決めているようなので、まだ定石が十分に確立されていないのかも知れません(確立されていたらスミマセン)。カーリングは<氷上のチェス>と言われるそうですが、ストーンの位置は、チェスと異なり連続的に変わり得るので、最適なショットの特定は、かなり難しそうです。

そうなると、ここはコンピュータの力を借りたいところ。たとえばですが、上方からリンクをカメラで撮れば、ストーンを画像認識するのは、それほど難しくないと思われるので、それぞれの位置を取るのはできそうです。すると、ストーンの位置関係から、どのようなショットをすればよいかが、頑張れば計算可能(かな?)。ただ、ショットをするのは人間なので、あまりにも難しいショットであれば、失敗する危険が高いので、候補となるショットそれぞれに、難易度の重みづけをしてやります。ちょうど、確率論の期待値、のような感じですね。

というわけで、<コンピュータ・エイデッド・カーリング>なんていう大会ができないかな。

無限級数 (3)

無限級数は、一般には収束するものを対象としますが、発散級数、というのがあるらしく、たとえば以下のものが有名ですね。

1 + 2 + 3 + ... = - 1 / 12 --- (1)

う~ん、これはちょっと、何のことかわかりませんよね。でも心配ご無用!ラマヌジャンがまだインドにいるころ、イギリスの数学教授、ヒルという人に、このように書いて送ったところ、ヒルは、「この級数は無限大に発散します」と、常識的に正されたそうです。つまり、当時の数学教授も理解できなかった、ということ。

クラウスの「超ひも理論を疑う(2008)」(原書は"Hiding in the Mirror (2005)")を読んでいたら、超ひも理論では、式(1)が何やら使われているようで、これは単なる数学だけの話ではないようですね。超ひも理論は、現実の世界を扱う理論のはずですから、現実でも式(1)のようなことが起こるということでしょうか。

無限級数、恐るべし!

頭の体操

昨日(2010年2月22日)、都内での所用を終えて、メトロ(=首都圏の地下鉄です)に乗っていたら、ふたりの小学生が私の対面に座りました。小学生と言っても、低学年ですね。都内の電車でよく見かける、典型的な私立の小学生です。

ボーっとしていたら、ひとりの子が、なにやらクイズを出し始めました。「最初が<キ>で、最後が<ン>の動物は何でしょう?」これは簡単です。もちろん、もうひとりの子は難なく正解。このようなクイズは、たいてい交互に出すので、正解した子が出したクイズが、「最初が<チ>で、最後が<ジ>のは何でしょう?」というもの。

私は、特に会話を注意して聞いていたわけではありませんが、これを小耳に挟んで、考えて込んでしまいました。でも、わからない!私のアタマは遂に小学生以下になってしまったか、などとガッカリしていると、片方の子もわからないらしく、ちょっと安心。

時間切れということで、出題した子が正解を発表しました。「正解は、<チンパンジー>で~す!」...これ、反則じゃないですか?三文字じゃないし、終わりが延びてるでしょ...突っ込みどころ満載の出題。

でも、考えてみたら、別に単語が三文字でなくてもよいはずですし、語尾が延びる延びないは主観かも知れません。<正解>を教えられた子は、少しボーっとしていましたが、すぐに何事もなかったように、カルく話題を切り替えました。

大人の世界での問題の解き方は、問題を何かしら既知のパターンに当てはめ、それにより解集合を限定し、解きやすくする、というものです。私は子供のころから、多湖輝先生の「頭の体操」に親しみ、柔軟性を鍛えたつもりだったのですが、やはり固定概念に囚われた大人となりました。自宅に、息子がほぼ全巻揃えているので、また鍛えなおさなければ!

立体視 (5)

先日(2010年2月19日)、3Dコンソーシアム・平成22年度通常総会講演会、に行ってまいりました。バンダイナムコゲームス・ファンシアターにて。私の今の勤務先は、コンソ会員ではないのですが、私は賛助会員なのです。あるいは、立体協会員限定10名枠、というのもありましたが、これはすぐに定員となりました。

テンコ盛りの贅沢プログラムで、いろいろと書きたいことはありますが、ひとつだけ。

米Insight Media社長Chris Chinnock氏プレゼンの後、フリージャーナリスト某O氏が質問されました。氏は、3D映画<アバター>パンフの解説記事も書かれている、この分野の第一人者です。その質問というのが、「3D映画をそのまま3DTVに映すと、視差が異なるので、立体感が減少するはずだが、これにはどう対処するのか」というもの。これはまさに私が本BLOGで指摘したことです。

Chinnock氏の回答は、「実際に問題ですが、適切な対処法は、まだ確立されていないと思います」というものでした。

3D映画の人気を利用して、3DTVの普及を目指すのであれば、まさにこの問題への回答を用意する必要があります。コスト的に、まさか、3DTV用に作り直すわけにはいかないと思いますから、私の回答は以下のふたつ。

1)立体感の減少は仕方ないと諦め、そのまま使ってしまう。
2)必殺の<画像シフト>を使う。視差ゼロの面は変わるが、これは仕方ないと諦める。

1)2)どちらかが良いかは、<主観>です。論理的にどちらが正しい、ということはありません。ただ、どちらの<主観>を持つ人が多いのかは、知っておく必要があると思います。このような評価実験を、国プロでやって欲しいのですが。

WebGL

先日、前職で一緒に仕事をして、いま某S社にいるDくんと飲んでいて、WebGLの話になりました。全てのアプリがweb-basedとなるであろうと予測する私としては、WebGLの出現は当然の成り行き?

WebGLは、OpenGL ES 2.0が、ブラウザで動くという仕様です。JavaScriptから呼び出せるようですね。

Safari、Chrome、FireFox、Opera、などで動作が期待できるようですが、さて、IEはどうなるのでしょうか。

以前、Googleが、O3Dを出してきたとき、「なぜOpenGLにしないの?」などというコメントが結構ありましたが、ちゃんとそれがWebGLとして登場したわけであります。

応用数学本

3DCG/VR系の仕事に使える、応用数学本とは如何に?私のお薦めは、たとえば以下です。

1)Numerical Recipes in C 2nd edition (1992)
2)これなら分かる応用数学教室(2003)/これなら分かる最適化数学(2005)
3)Matrix Analysis and Applied Linear Algebra (2000)

1)は、ネット上でいろいろと問題が指摘されていますが(有名なのは、"Why Not Numerical Recipes?")、それを割り引いても、やはり定番/必要でしょうね。メジャーなものは、何かと批判を受けるものです。私は好きですよ。今は第三版(2007)が出ていますね(私は見ていません)。

2)は、題名通り、わかりやすい!大学でも教科書として、使われているみたいです。お薦めです。

3)は、あまり噂は聞きませんが、私は気にいってます。とはいえ、このハードカバーは重く、ペーパーバックと替えたいのだが...

このほかにもたくさんありますが、無人島で仕事をするための最小限、と言われたら、まず上記ですね。

バンクーバー五輪

バンクーバー五輪、盛り上がってますね!私は、朝と帰宅後、テレビ(NHK)を観ています。昼はネットのニュースを少し...

アルペン・男子滑降の優勝候補、スヴィンダル選手(ノルウェー)の特集を、NHKでやっていました。ストーリーもなかなかよくできていて、彼の能力の素晴らしさがわかりましたので、きっと、圧倒的な強さで金メダルなんでしょうね。

...などと思っていたら、スイスの伏兵(最年長!)が現れて、スヴィンダルは銀メダルだったようです。NHKとしては、せっかく気合を入れて特集を組んだので、優勝してほしいと思ったでしょうね。

Cloud Computing

"Cloud Computing"が何やら普通の単語と化しています。米国某大手コンピュータメーカも宣伝していますね。

ところで、Cloud Computingとは何でしょう?複雑な気象計算の中でも雲を特に計算する、ということではありません。基本的には、以前からあるクライアント・サーバ・モデルが、クライアントは圧倒的なthinとなり、サーバは、それこそ何処にあるのか分からない状態となってしまった、現代の高度に(またはランダムに?)分散された、コンピュータ・ネットワークを指していると、私は勝手に理解しています。いつものように、ちゃんとした定義は知りません。

このような言葉を最初に言い出したヒトは誰でしょうね。センスがありますね。

かなり前に、米国某大手データーベース会社創業者が、Network Computerというのを提唱したことがありました(今もしてますか?)。それに関する講演会で、氏が熱弁をふるっていたら、会場から、「誰がそんなもの買うか!」というヤジが飛んだという記事を読んで、思わず笑ってしまいました。当時はMicrosoft全盛の時代で、私も少なからずそのように思ったのですが、今は、Googleの台頭などで、完全に氏の言う状況となりました。時代を先取りしている人は、いつでもいらっしゃるということであります。

ところで、もしや、Cloud Computingを、Crowd Computingと思われている方、いらっしゃいませんか?エルとアールの違いがない、日本人的勘違いだと思いますが、なにやらこれでも意味が通じそうな気がしますね。

迷走する物理学

事務所近くの本屋さんをフラフラしていたら、クラウスという人の書いた「超ひも理論を疑う(2008)」という本が目に留まりました(原書は"Hiding in the Mirror (2005)")。超ひも理論については、推進派、ブライアン・グリーンの「エレガントな宇宙(2001)」(原書"The Elegant Universe (1999)")を以前読んで、何やらよくわからなかったのですが、本書は懐疑派によるものですね。

このあたりの事情は面白そうなので、背景を少し調べてみたら、スモーリンという人が書いた「迷走する物理学(2007)」(原書"The Trouble with Physics (2006)")の方が、より過激だそうなので、こちらをまず読んでみました。藤沢市図書館で借用。

結論としては、本書は非常に楽しめるものです。表面上は超ひも理論に対する(穏やかな語調なれどキツイ)攻撃なのですが、それ以上に、今日の理論物理学界の現状を憂いています。やはり人の集団というのは、成熟が進むと、政治になりますね。自由の国アメリカでも、それは同じみたいです。問題は、物理学ではなく、社会科学にあった?

量子論や一般相対論に対しては、以前からいろいろと不審に思っている人がいるのは知っていましたが、まさか特殊相対論についても、疑っている人がいるとは驚きました("Deformed Special Relativity"、知ってました?)。つまりは、<常識>というのはなんでも疑うべきなのでした。超ひも理論に興味のない方でも、科学技術系組織(大学/国研/民間研究機関など)で働いている人には、かなり面白いと思います。ご自身の組織に当てはめてみてはいかがでしょうか。

ところで、謝辞に、ジャロン・ラニアーの名前がありました。あのヒトですか?彼はいま何をやっているんでしょうね。

立体視 (4)

先日のBLOGで、スクリーンやモニタのサイズが変化すると、同一の立体コンテンツでは立体形状が保存されない、などと書きました。でも、実は裏ワザがあります!そう、必殺の<画像シフト>です。これを使えば、別のコンテンツを用意する必要はないかも知れません。シフトできるために、ちょっと余分に、画像を大きめに作っておくだけです。

このことは、旧BLOGにも書いたのですが(2009年3月12日付け)、適切なシフト量(無限遠点は無限遠点に移るという条件から求められる)を左右画像に与えてやると、立体形状が歪まないことが、計算上では確認できます。ただ、この計算も、とあるセミナの休憩時間にやったので、信頼性や如何に?

この場合の問題は、当然ですが、視差ゼロの面が変わることです。これって、果たして宜しいのか?評価としては、難しいところですね。私は、ちょっと問題があるような気がします。

結論としては、サイズの異なるモニタで、同じように完璧な立体を再現するには、別のコンテンツを用意しなければならない(かもしれない)、ということであります。でも、そんなに厳密にしないといけないかどうかは、別問題ですね。コストもかかりますしね。

立体視 (3)

昨日(2010年2月9日)は、異様な暖かさでしたね...

突然ですが、3D映画などの大画面立体コンテンツを、家庭用の3DTVで観た場合、どのように立体的に見えるかを計算してみました。コンテンツは改変していないとします。つまり視差調整ナシ。また、画面の大きさに応じて、観察位置が変わるとします。具体的には、水平視野角が同じという条件で、適切な仮定と思います。

結果は以下です。

1)スクリーンより飛び出ているオブジェは、立体感がより緩和されて検知される。つまり平べったくなる。
2)スクリーンより奥まっているオブジェは、これも立体感が緩和される。この緩和度合いは、飛び出ているオブジェよりも強い。

簡単に言うと、3D映画で完璧な球が検知されたとしましょう。それと同じコンテンツを3DTVで観ると、ちょっと平べったい球に見える、ということですね。しかも、奥まったところでは、より平べったい。

また、このような立体感の変化は、オブジェの大きさ自体の関数です。ちょっと複雑...よくわからない日本語ですね。

ところで、この計算は、通勤途中の電車内で急いでやったので、もしかしたら間違っているかも知れません。どなたか検算してくれないかな。

3DTV

ニュースで普通に取り上げられるようになった、3DTV。果たして流行る?私の個人的世論調査によると、「今度こそ流行るのでは?」との意見が多いです。期待もあると思いますが、3D映画の影響がやはり大きいですね。

私が3DTVで気になるのは、視差調整の問題ですね。たとえば、3D放送が続々と開始される、とのことですが、3Dの見え方は厳密に言えば(厳密に言わなくても)、観察環境(=モニタのサイズ/観察者の位置)に依存するので(ここが2Dと決定的に違うところ!)、あるサイズのモニタを想定しなければなりません。どのサイズを想定するのでしょうね。今ではみなさん大型テレビを持っていますから、40-50インチ程度?

そうは言っても、3D映画では、ひとつの3D映像に対して、かなり広い範囲の客席でみなさん楽しんでいますので、実際にはあまりうるさく言わなくてもいいのかも知れません(理論的には、最適に見える席はひとつだけ)。それに、大きなスクリーン用の3D映像を、小さなスクリーン(モニタ)で見る分には、安全側に働きますからね(逆はNGです)。

Occlusion Queries

訳あって、OpenGLのocclusion queries機能を調べていましたが、私はてっきりこの機能は、deprecatedだとばかり思っていました。なぜって、Begin/End = deprecated、との公式があったのです。Occlusion queriesのAPIは、BeginQuery/EndQuery、ですからね。これは私の勘違いで、occlusion queriesは、core profile(=正会員)であります。

Occlusion問題は、極めて重要であるにも関わらず、多少とも取り残されたものだと思います。原理的に難しいこともありますが、真剣に研究している人も少ないのではないでしょうか?レンダリング結果には直接関係ないですしね...その意味では、上記のOpenGL実装は、結構使えるものだと思います。

Occlusionと同じような状況が、shadowsでも以前あったように思いますが、shadow mapsを用いる技法が考案されてから、急速に研究が進みました。先日のSIGGRAPH Asia 2009でのコース、"Casting Shadows in Real Time"、は圧巻!本BLOGでもレポートしましたが、すごいな~と思いました(ところで、これだけが、ACM Digital Libraryに見当たらないのは何故か?)。

Occlusion問題も、もっと研究が進んでほしいですね。

文書プリント

諸事情で、私の周囲にはプリンタがなくなり、どうしようかな~と思案していました。デジタル化/ペーパーレス/電子書籍、の時代にあっても、プリントするニーズはやはりあって、プリンタがないとやはり困ります。

プリンタゲットも考えたのですが、どうも方向が違うような...そこでいろいろと調べてみると、某コンビニと某コピー機メーカがタイアップして、<文書プリント>なるサービスがあることを知りました。試しにこれを使ってプリント。

結論。非常に便利!(今のところ)問題なし!

ネット全盛の時代、クラウドなど、わが身をどんどん軽くする技術が主流となっていますね。でも、これはデジタルだけの世界に留まりません。私が衝撃を受けた、<文書プリント>サービスというのは、クライアント・サーバの実世界版ではないかしら?このときの通信回線は、我が足ですね。文書のデジタルデータを持って、某コンビニに走っていき、物理プリントを持って仕事場に駆け込むのです。さらに、回線速度を上げるためには、我が足を鍛える必要がありますから、一石二鳥(設備削減/健康増進)なのです。

平均律

たまに横浜で打ち合わせ(=飲み会)をする、某T氏と、先日も飲んでいたのですが、なぜか音楽の話になりました。T氏は何やら、複数の楽器の経験があるとか...あ、ヒミツだった!

それはよいとして、私が昔から不思議に思っているのは、<平均律>です。よく知られていることですが、平均律というのは、1オクターブを12等分したもので、したがって半音の周波数比は、21/12 = 1.059463...です。無理数ですね。

さて、そうなると、完全五度(たとえばドからソ)の周波数比は、27/12です(半音が7つなので)。この値はというと、1.498307...です。

ところが、これもよく知られていますが、本来完全五度は、周波数比が3 / 2 = 1.5であるべきです。そうでなければ、響きが美しくないのです。完全四度(たとえばドからファ)も同じように、25/12 = 1.334839...ですが、これも本来は4 / 3 = 1.333...でなければならない。つまり、簡単な自然数の比でなければならない、ということ。

この差異は微々たるもので、私を含めたほとんどの人は聴いてもわからないと思いますが、音感に優れた人には、わかるようですね。私は、この現象は、何やら自然のバグと思っているのですが、どうなんでしょう。理屈はわかりますが、上記の差異が存在する理由がわからないのです(またタワゴトになってしまった)。

OpenGLの変遷

昨日(2010年2月2日)は、某M大学・非常勤講師の第15回でした。残すところあと1回です。

そろそろクロージングなので、OpenGLの歴史について少し説明しました。つまり、1992年にOpenGL 1.0が登場して、2004年にシェーダが入ったOpenGL 2.0ができて...、という具合です。

今の最新は、OpenGL 3.2なのですが、あれ、OpenGL 2.xとOpenGL 3.xの大きな違いって、なんでしたっけ?などと話をしながら考えてしまいました。確かに、いろいろと重要な機能の追加はありますが、OpenGL 1.xとOpenGL 2.xの違いほどではない。ここでシェーダが組み込まれましたからね。これは大きな違いです。

ここで、記憶をたどりよせると、そういえば、古い機能をバッサリ切るとか、関数名も変わるとか(gl -> lp)、いろいろな改革が言われていました。ところが、なかなかそのようにはいかなくて、結局はdeprecation modelとか、profilesが導入されて決着。関数名もそのままですね。

でも、結果的には正解?さすがに関数名が変わるのは辛すぎる...

2D-to-3D conversion (2)

"2D-to-3D conversion"、すなわち<2D-3D変換>は、ノウハウに属する技術ではありますが、この分野での研究には、どのようなものがあるのでしょうか。この分野、とは、単眼からの3D復元、ということです。

HartleyとZissermanによる、"Multiple View Geometry in Computer Vision 2nd edition (2004)"は、画像復元分野での定番教科書ですが、この中に、"PART I: Camera Geometry and Single View Geometry"という章があります。

この章は、三つの節で構成されていて、最初のふたつは、camera matrixに関する説明ですね。最後の節が、単眼からの3D復元、に関する話題提供です。

この、"More Single View Geometry"と題された節ですが、本書はgeometryが主題ですので、vanishing pointsやvanishing linesに関する手掛かりを扱っています。幾何学的な復元の手掛かりは、これくらいですからね。ほかには、shape from shadingという、よく知られたテクがありますが、本書ではこれについては触れていません。主題の範囲外ということですね。

2D-to-3D conversion

先日届いた、"3D Movie Making: Stereoscopic Digital Cinema from Script to Screen (2009)"をパラパラと見ていると、"Synthetic 3D: 2D-to-3D conversions"という章がありました。pp.143-149。

日本語では、<2D-3D変換>と言われ、いわゆる<ノウハウ>に属する技術です。なぜって、論理的には不可能ですからね。情報量が増えますから。でも、ヒトは、かなりのレベルで、一枚の写真から、三次元形状を推定できるのも事実。ですから、論理的には不可能であるとは言え、どの程度まで品質を引き上げられるかは、誠に興味のあるところです。

今、3DTVが脚光を浴びています。ハードウェアの品質はかなりのものになったようですので、問題は、良質の3Dコンテンツ供給ですね。もっとも、3D映画「アバター」のように、始めから3Dで撮れればよいのですが、2Dしか利用できないものは、強引にでも3Dに変換するしかないのです。この技術に対する、現状の私の理解は、

1) オフラインでは、かなりの品質が得られるが、多大な時間と人手がかかる
2) リアルタイムでは、かなり強い前提(=かなり簡便な計算の利用)を設けなければ、計算コスト的に不可能

ちなみに、上記本では、<2D-3D変換>へのコメントのひとつとしては、

"2D-to-3D conversion is a labor-intensive process that can't really be automated"

とあります。正統な意見でありますが、この壁にチャレンジされている多くの方もいらっしゃいます。今後、どのような展開となりますでしょうか?
プロフィール

加納裕(かのうゆたか)

Author:加納裕(かのうゆたか)


[略歴]
1983年3月東京工業大学工学部機械物理工学科卒業
1983年4月(株)図研入社
1987年1月同社退社
1987年2月(株)ソリッドレイ研究所を6名で設立、取締役
1994年3月同社退社
1994年4月(株)スリーディー入社
1996年10月同社取締役
1999年12月上海大学兼務教授
2002年10月同社代表取締役
2009年9月ものつくり大学非常勤講師~現在
2009年10月同社代表退任/退社
2010年1月ソフトキューブ(株)入社~現在(技術顧問)
2017年4月湘南工科大学非常勤講師~現在


[業界団体・学会活動]
電気学会・第三期次世代インタラクティブディスプレイ協同研究委員会(幹事)/最先端表現技術利用推進協会・アカデミック部会(旧:三次元映像のフォーラム)(副部会長)/日本バーチャルリアリティ学会ハプティクス研究委員会(委員)/ACM・SIGGRAPH(Professional Member)/情報処理学会(正会員、CVIM会員)/3Dコンソーシアム(賛助会員)/3DBiz研究会(個人賛助会員)/URCF(特別会員)

----------------

前職:立体映像産業推進協議会(幹事)/日本バーチャルリアリティ学会・論文委員会(委員)


[資格]
TOEIC805点
数学検定1級(数理技能)
中型・普自二免許
サッカー4級審判員

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード