FC2ブログ

CVIM (4)

本日(2014年1月23日)は、情報処理学会CVIM研究会に行ってまいります。場所は、大阪大学・豊中キャンパスです。昨年の日本VR学会大会は、最初はもしやここで予定されていたのではないでしょうか(結局はうめきたになった)。

今年度から、正式に研究会に入会しました。今回で二回めなので、これで元が取れました。3月は東大なので、これも行くつもりです。さすがに、昨年の9月と11月は、鳥取と福岡で、遠すぎました。

明日24日は、楽しみなチュートリアルがあります。

Goal-line technology

Goal-line technologyとは、サッカーの試合でゴールかどうかを判定するシステムです。システムの仕組みはよく知らないのですが、ビジョンセンサを使っていると思われます。

ブラジルの優勝で幕を閉じた、先日のコンフェデ杯では、goal-line technologyが使われました。実際にこれに関する映像が流れたのは、私の知る限り、三位決定戦のイタリア-ウルグアイ戦です。イタリアの最初の得点で、誰がゴールしたのかを決定するために使われました。フリーキックがキーパに当たり、そのまま入ったのかどうか、ということです。ただ、この例は目視でも明らかにフリーキックはゴールラインを割っていなかったので、使う必要性はあまり感じませんでした。更には、結果的にゴールとなったのは明らかでしたからね。誰が入れても大した問題ではありません。

Goal-line technologyのCG映像で面白かったのが、ゴールライン上の白いボールがズームされると、周囲のゴールネットが写り込んでいたこと。これは楽しいです。このような演出は全く不要ではありますが、何やら臨場感がありました。

たぶん2014年ワールド杯での本格採用のため、コンフェデ杯で試用したのでしょうが、いちおう成功ということですね。

Goal-line technology導入の是非はさておき、サッカーの審判というのは、非人間的な作業を課せられます。審判をやった人であれば同意してくれるでしょうが、ボールがゴールラインを割ったかどうかというのは、ギリギリのところでは、副審は判定不可能です。ゴールから遥か離れたタッチライン周辺にいるわけですし、上から見て少しでもゴールラインにボールがかかっていたら、ゴールではないわけですからね。そんな神業的判定ができるわけがありません。2010年南アフリカワールド杯での、対ドイツ戦、ランパードの「幻の同点ゴール」についても、副審は直前までオフサイドラインをキープしていたでしょうから、ゴールライン上にいればまだしも、そうではないので、正しい判定はできなかったのでした。

SSII2013チュートリアル (2)

先日(2013年6月12日)のSSII2013チュートリアルは、例年通りの満足な内容でした。会場は満席。お薦めです。

プログラムを再掲しますと、以下のとおりでした。

TS1: 実世界認識のための転移学習の基礎と応用
9:30~11:00 講師:長谷川 修(東京工業大学)

TS2: Random Forestsの基礎と最新動向 ~大量データ時代に適した機械学習手法~
11:15~12:45 講師:波部 斉(近畿大学)

TS3: 多視点画像からの3次元復元 ~基本原理から大規模復元まで~
14:00~15:30 講師:奥富 正敏(東京工業大学)、鳥居 秋彦(東京工業大学)

TS4: テンプレートマッチングの魅力 ~物体検出・位置決めの定番技術~
15:45~17:15 講師:橋本 学(中京大学)

--------------------------------------------------

以下、まことに僭越ですが、コメントします。

TS1は、最も期待していたものです。転移学習の意義はよくわかりました。また、長谷川先生の実装であるSOINNについてもわかりました。でも、その両者のギャップがなかなか埋まらず。もっといろいろと知る必要がありそうです。

TS2のRandom Forestsは、キーワードを聞いたことがあるのみでした。私の蔵書"The Elements of Statistical Learning (2009)"に一章が割かれているということで、読んでみることにします(読んでいないことがバレた)。波部先生には、個別に質問をさせていただきましたが、非常に丁寧にご対応いただきました。

TS3の内容は、私が最も把握しているものだと思います。もう、5-point algorithmはあたりまえのようですね。

TS4は、正直申しまして、事前には内容的にはあまり興味ないと思っていたのですが、ご講演を聴いて驚きました。これまでこんなにわかりやすい講演を聴いたことは、ほとんどありません。橋本先生は、淡々と話を進められたのですが、これには聴き入りました。周囲を見渡すと、私と同じ感覚を持たれた方が多かったみたいです。これぞ講演のお手本!お陰さまで、テンプレートマッチングの現状がよくわかりました。

SSII2013チュートリアル

本日(2013年6月12日)は、SSII(画像センシングシンポジウム)チュートリアルです。私が楽しみにしているイベントのひとつ。参加費は安くないですが、それだけの価値はあります。いつも会場は満席。

プログラムは以下のとおりです。

TS 1: 実世界認識のための転移学習の基礎と応用
9:30~11:00 講師:長谷川 修(東京工業大学)

TS 2: Random Forestsの基礎と最新動向 ~大量データ時代に適した機械学習手法~
11:15~12:45 講師:波部 斉(近畿大学)

TS 3: 多視点画像からの3次元復元 ~基本原理から大規模復元まで~
14:00~15:30 講師:奥富 正敏(東京工業大学)、鳥居 秋彦(東京工業大学)

TS 4: テンプレートマッチングの魅力 ~物体検出・位置決めの定番技術~
15:45~17:15 講師:橋本 学(中京大学)

CVIM (3)

本日(2013年5月30日)は、情報処理学会CVIM研究会に行ってまいります。場所は、東京農工大学・小金井キャンパス。こちらは何度か訪問しています。

今年度から、正式に研究会に入会しました。これまではその都度参加費を払っていたのですが、年に二回行けば元が取れるので、そのようにいたしました。充実した研究会だと思います。仕事にも有益ですし。

CVIM終了後は、法政大・小池さん(元日立)の新研究室にお邪魔する予定です。JRを挟んで逆側です。

金谷健一先生最終講義 (2)

先日(2013年3月1日)、岡山大・金谷健一先生の最終講義を聴講いたしました。岡山駅で下りたのは、たぶん初めてです。無縁の地。

"Overviews of Optimization Techniques for Geometric Estimation"という、18ページの英語の資料を元に、2時間講演されました。本資料は、当該サイトからダウンロードできます。講義も英語でした。

内容は難しく、私などがコメントする立場にありませんが、講義の最後に、数学に対する先生のコメントがありましたので、それを紹介いたします。

金谷先生の教科書(たとえば「これなら分かる応用数学教室」など)を読んだ人はご存じでしょうが、工学(=数学を使う立場)には数学特有の厳密さは不要、というのが先生の考えです。先生の論文などを拝見すると、難しそうな数式がたくさん出てくるので、普通の人はかなり数学的だと感じるでしょうが、先生に言わせると、これは数学ではない、とのことでした。

実際、数学者といろいろやりとりをされてきたようですが、先生のご研究は、数学者のコミュニティには受け入れられていないのだそうです。理由ですが、たとえば、ある数式を展開するような場合、工学の場合は適当に項を打ち切って、近似するのが普通ですが、数学的には、なぜこれらの項を無視できるのかを、具体的な不等式などで定量的に証明しなければならない、とのことでした。

数学的にはそうなのでしょうが、工学的にはそれはあまりにも手間ですし、しかも難しいのでできそうもない、とのことでした。このような厳密さが、工学的にはまるで役に立たないという、面白い例も挙げてくださったのですが、私には正確に書くことができないので、残念ながら割愛させていただきます。

Photo3D (2)

プロジェクション・マッピング(PM)、流行ってます!

先日(2013年2月22日)、デジハリさん主催の、PM関連セミナに参加しましたが、100名くらいの参加で、盛況でした(応募は160名だったらしいです)。参加者は、若い人が多かったですね。身なりを見ると、クリエータ的感じです。みなさん、PMを制作したいのだと思います。

ところで、PMをやる場合、事前に映像投影対象のジオメトリを取得しておく必要があります。これは、建物の図面から3Dデータをおこしたり、現調でスキャナにより計測したりするのですが、いずれにせよ面倒くさいし、おカネもかかりそう。

ここからは宣伝ですが、当社にPhoto3Dという製品があります。これは、一枚の写真から、三次元復元を行うというものです。単眼における限られた三次元情報から、頑張って復元をするもので、原理はステレオではありません。

というわけで、PMをやりたいけれど、ジオメトリをどう取ってよいかわからない方、ぜひPhoto3Dをご検討くださいませ(以上、宣伝おしまい!)。

金谷健一先生最終講義

本日はお休みをいただいています。何をするかというと、岡山大・金谷健一先生の最終講義を聴講するためです。

最初に金谷先生のことを知ったのは、何かの学会誌(たぶん情報処理学会誌)の書評で、先生の、

"Geometric Computation for Machine Vision (1993)"

が絶賛されているのを読んだときでした。興味を持ち、すぐさま購入、かなりきちんと読みました(難しいところは飛ばした)。その後、他の洋書2冊、即ち、

"Statistical Optimization for Geometric Computation: Theory and Practice (1996)"
"Group-Theoretical Methods in Image Understanding (1990)"

も購入しました。日本にも凄い先生がいるもんだなと思いました。

そうしたところに、1999年群馬大を訪問する機会があり(当時は群馬大にいらした)、先生のゼミに参加いたしました。ゼミ終了後、持参した上記洋書3冊にサインを頼みました。先生は、「サインしちゃったら、古本屋に売りづらいんだよね」などとぶつぶつ言いながら、表紙の裏に英語でサインしてくれました。

上記3冊はどちらかというと、研究書の色彩が強いですが、実務で役立ったのは、以下の2冊。

「これなら分かる応用数学教室(2003)」
「これなら分かる最適化数学(2005)」

ご年齢的にも教育の必要性を痛感された時期だったのだと思います。ちなみに、これらは素晴らしい教科書です。事あるごとに人に薦めています。

このような経験をした私としては、岡山は少し遠いですが、最終講義を楽しみにしていました。では、行ってまいります。

Google driverless car

FBフレンドのカリフォルニア州在住カナダ人Rが、「いま目の前をGoogle無人カーが通った!」とFacebookにアップしてきました。

私はすかさず、「えっ、公道で?」と訊きました。日本だとあり得ないですよね。

然るに、どうも公道を走っていたようですね。Rによると、最近カリフォルニア州では、合法となったそうです。Wikipediaで調べてみると、確かにそのようなことが書かれてありました。

このあたりは賛否両論あるのでしょうが、このような(=無人カーが公道を走れる)機会があると、技術革新が進むことは間違いありません。日本の公道で、無人カーが走るのを見ることは、近々ありますでしょうか。

車関係者の話によると、日本でも1990年代には、無人走行の技術がかなり確立されていたようですね。然るに、PL法が登場し、そこから技術開発の目的は、別の方向に舵が切られたのでした。

もちろん人の安全に配慮するのは当然です。ただ一方では、人の運転により、多くの人が亡くなっています。運転が不得手な人には、無人カー導入の道があってよいのかも知れません。

CVIM (2)

本日(2013年1月23日)は、情報処理学会CVIM研究会(PRMU/MVE/SIG-MRと連催)に行ってまいります。場所は、京都大学・百周年時計台記念館、です。

お目当て(のひとつ)は、やっぱりCVIMチュートリアル、「ディープラーニング」です。私は現状、本トピックは全くの無知であります。

コンピュータビジョン最先端ガイド (3)

「コンピュータビジョン最先端ガイド」の新刊が出たというアナウンスを、アドコムメディア社長の油井さんがFacebookにアップしていたので、ビジュアルメディアExpo会場(パシフィコ横浜)で購入しました。早くも五冊目です。

これまでのは2,000円でしたが、今回は1,500円です。なぜ?ちょっとページ数が少ないからだと思います。

さて、内容ですが、<-CVIMチュートリアルシリーズ->は定評がありますので、クオリティは高いです。私はこれだけを聴きに、CVIMに参加することもあります。

新刊の特筆すべきところは、三つの章が全て、「三次元形状復元手法」関連の解説であることです。既刊のものは、一章一章がテーマとして独立しており、いわば雑多なものを一冊にまとめたという印象がありましたが(これはこれでよいです)、今回のものは統一性があります。三つとはそれぞれ、「フォトメトリックステレオ」「多視点ステレオ」「構造化光によるアクティブ計測」です。

というわけで、三次元形状の復元でお悩みの方には、必携の一冊です!

Local Binary Pattern (LBP)

先日(2012年12月3日)のCVIMチュートリアルは、東工大・長谷川修先生による、"Local Binary Pattern (LBP)"の解説でした。私はこの技術について聞くのは初めてです。

最も簡単なLBPは、ある画素の近傍8画素について、その画素との差を取り、正であれば1を、ゼロまたは負であれば0を割り当てます。こうすると、8近傍は8ビットの二進数で表されます。つまり、0-255の範囲の数値が、ある画素のIDとみなせます。これを画像全体で計算してやり、そのヒストグラムを取ると、その画像の統計量となります。これが基本形。

あとは応用として、回転不変性を考えたり、多重解像度を考えたり、輝度の増減に対応させたり、二値ではなく多値を考えたり、などと拡張していきます。

感想としては、拡張していくといろいろとややこしくなりますが、基本形については非常に分かりやすく、簡単に適用可能ですね。簡単なのは良いことです。実務にも使えそうな予感。

それにしても、LBP(の基本形)は極めて単純なのですが、最初に考えた人は、なぜこれがイケると思ったのでしょうね。いろいろと試行錯誤してみたのでしょうか。それとも、奥深い理論がある?

そのLBPですが、1994年に、Matti Pietikäinenという方が提案されたそうです。長谷川先生のチュートリアルは、この方のCVPR2011でのチュートリアル資料に基づいています。本資料はネットで取得可能です。

CVIM

本日(2012年12月3日)は、情報処理学会・GCAD/CVIM合同研究会に行ってまいります。それぞれ、第149回と第184回です。場所は横浜国立大。

お目当ては、東工大・長谷川修先生によるCVIMチュートリアル、「Local Binary Pattern とその周辺」です。

CVIMはなんだかんだと、結構参加しています。ちゃんと研究会登録しようかな...

Sobel operator

突然ですが、某所である学生さん(Kくん)の研究を聴いていました。

画像処理関連なのですが、Sobelオペレータを用いて、エッジを取る処理がでてきます。Sobelはよく使われるので、私は一応名前は知っていますが、カーネルの具体的数値まで覚えているわけではありません。というわけで、ここぞとばかり調べました。私は調べるときは、それが登場したときすぐに調べます。でないと、忘れますからね。

カーネルの形は、ネットを見るとたくさんでてきますから省略します。面白い記述と思ったのが、Wikipediaの"Sobel operator"の項目。ひととおりの説明のあと、

"...Since the Sobel kernels can be decomposed as the products of an averaging and a differentiation kernel, they compute the gradient with smoothing. For example, Gx can be written as"

[1, 2, 1]T[-1, 0, 1] --- (1)

[1, 2, 1]がaveraging kernel、[-1, 0, 1]がdifferentiation kernel、ですね。なかなか面白いと思いました。他のカーネルもこのように分解できるのだろうか?

8-point algorithm

"8-point algorithm"というのを、当社大阪Tくんが使っているので、それについて書きましょう。

注意ですが、本BLOGは、門外漢がでしゃばって、専門外のことを(間違いも含めて)適当に書くのがひとつの趣向なので、お間違えのなきよう!

さて、8-point algorithmですが、これは画像を使った三次元復元のための技術で、ふたつのカメラ間の位置関係を求めるものです。カメラ間の位置関係とは、一番目のカメラを基準座標としたときの、二番目のカメラの相対的な位置姿勢(pose)情報です。これは6自由度ですが、原理上絶対的なスケールはわからないので、位置情報は2自由度です。だから、合計5自由度。これをエンコードしたのが、基本行列(essential matrix)Eです。これに更に、カメラの焦点距離を含んだのが基礎行列(fundamental matrix)Fで、これは7自由度(5+2)です。

8-point algorithmというのは、2つの画像間で、8点の対応が取れれば、そこからFEが求まりますよ、というものです。やり方としては、epipolar拘束式というのを解くのですが、これは特異値分解により、初期解が求まります(ちなみにこのやり方は、さまざまなところで応用が利きます)。然るに、FEには制約があるので(ランクが2)、その制約を満たすように、解を更新してやります。このあたりは、さまざまな解法があるみたいです。Hartley & Zissermanの本や、岡山大・金谷先生の論文などをご覧ください。

さて、Wikipediaの"eight-point algorithm"の項目には、最後に"Using fewer than eight points"と題して、以下の記述があります。

Each point pair contributes with one constraining equation on the element in E. Since E has five degrees of freedom it should therefore be sufficient with only five point pairs to determine E. Though possible from a theoretical point of view, the practical implementation of this is not straightforward and have to rely on solving various non-linear equations.

ということですが、最近、5-point algorithmというのが現れたみたいです。私はこれの存在を、PTAM論文によって知りました。先日、C大学の某先生を訪問したおり、いまは5-piont algorithmのほうが良く使われているのでは、とのことでした。

コンピュータビジョン最先端ガイド (2)

先日のSSII2012(2012年6月6-8日)で、受付に「コンピュータビジョン最先端ガイド」が積まれていました。全4巻。

私は既に第1-3巻を持っていて、適宜参照しています。SSII2012でも、<バンドル調整><ICP(Iterative Closest Point)><パーティクルフィルタ>などの用語が頻発しましたが、これらはきちんと載っています。なかなかポイントをついた編集と感心します。

ところで第4巻ですが、これには、光の物理法則に起因する話題が集められています。個人的には、<コンピュテーショナルフォトグラフィ>に興味があり、最近話題の、ライトフィールドカメラなどは、これの応用ですね。ほかには、<符号化撮像>も、なにやら面白そうです。

というわけで、第4巻もSSII2012会場にて購入いたしました。

SSII2012チュートリアル (2)

SSII2012チュートリアル(2012年6月6日)、聴いてきました!

6時間半もあったので、かなり疲れました。でも、ちょっと賢くなったカモ。以下、いいかげんな感想です。

1)次世代の局所特徴量 ~高速かつメモリ消費量の少ない特徴量記述~ 講師:安倍 満(デンソーアイティーラボラトリ)

画像の特徴量について、1999年SIFT以降の発展を、<高速化>と<省メモリ化>というふたつの観点から追った、優れたサーベイでした。それにしても、よくいろいろとアイデアを思いつくものです。やはり、新しいことを考える場合には、相応の数学/情報工学の知識は必要ですね。しかし、斬新なものはだいたい外国の人が考えるのが悔しいところです。FAST(corner detector)は面白そうです。PTAMではFAST-10を使ったようですが、このご講演では、FAST-9とFAST-12が登場。FAST-9のほうが性能がよいというのが不思議。

2)幾何学的推定のための最適化手法 ~最小化を越えて~ 講師:金谷 健一(岡山大学)

金谷先生のご講演は何度も拝聴しており、著書もかなり読みましたが(蔵書を数えたら7冊もあった!3冊はサイン入り)、内容はやはり難しいです。しかし、構成が明確で、大局は掴めました(と思いたい)。

3)2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 講師:玉木 徹(広島大学) 、林 昌希(慶應義塾大学)

これは私のレベルに、たぶんもっとも合っていたのでしょう。よくわかりました。内容もかなり仕事に近いもので、親近感大いにあり!

4)動的計画法のすすめ ~簡単・安定・多用途な最適化法~ 講師:内田 誠一(九州大学)

初めてご講演を聴きました。講師の先生は、Dynamic Programming(DP)がご専門だそうですが、ひとつのツール(先生はDPを<包丁>と呼んだ)をここまで使いこなせると、これは快感でしょうね。まさに、そのような感じがひしひしと伝わってくる、ユーモアを交えた、素晴らしいご講演でした。私はDPは、大学3年次に、ロボットで著名な広瀬茂男先生の講義で習いました(単位取った!)。仕事では特に明示的に使った記憶はありません。と、書いてから思い出しました。以下のようなのを出してました。

- S. Forstmann, Y. Kanou, J. Ohya, S. Thuering, A. Schmitt, "Real Time Stereo By Using Dynamic Programming", IEEE Computer Vision and Pattern Recognition Workshop (CVPRW '04), June, 2004.
- S. Forstmann、加納、大谷、S. Thuering、A. Schmitt、 "動的計画法による実時間ステレオ"、信学技報、PRMU2003-168 HIP2003-74.

DPはやはり面白いですね。また勉強してみようかな。ところで、いま流行りのBelief Propagation(BP)は、先生に言わせれば、DPと本質的に同じだそうです。ですよね、そう思ってたんだ!(ウソ)

SSII2012チュートリアル

本日(2012年6月6日)は、SSII(画像センシングシンポジウム)チュートリアルです。年間を通じて、楽しみにしているイベントのひとつです。内容のクオリティが高いのです。場所がパシフィコ横浜なのもグッドです。私の事務所から徒歩圏内!

プログラムは以下のとおりです。

TS 1: センシング基礎技術 6日(水) 9:30~12:45
9:30~11:00 (90分)
 次世代の局所特徴量 ~高速かつメモリ消費量の少ない特徴量記述~ 講師:安倍 満(デンソーアイティーラボラトリ)
11:15~12:45 (90分)
 幾何学的推定のための最適化手法 ~最小化を越えて~ 講師:金谷 健一(岡山大学)

TS 2: 時系列画像処理技術 6日(水) 13:45~17:30
13:45~15:45 (120分)
 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 講師:玉木 徹(広島大学) 、林 昌希(慶應義塾大学)
16:00~17:30 (90分)
 動的計画法のすすめ ~簡単・安定・多用途な最適化法~ 講師:内田 誠一(九州大学)

2D-to-3D conversion (6)

このGW中、「タイタンの逆襲(Wrath of the Titans, 2012)」を観てきました。もちろん3Dです。私は3Dでやっている映画は、必ず3Dで観るのです。

前作の、「タイタンの戦い(Clash of the Titans, 2010)」は、2D-3D変換が、えらく評判悪かったですね。悪い2D-3D変換の代名詞みたいになってしまいました。私はこれも観ましたが、そこまでひどくはなかった気がしますけど(2010年5月13日付BLOGをご覧ください)。

さて、「タイタンの逆襲」ですが、これは思いのほか楽しめました。ストーリーは単純ですが、戦いのシーンはなかなかだと思いました(でも、クロノスはあっけなくやられた。時間切れ?)。3Dについては、これも前作同様変換ですが、かなり改善されていたという印象です(というか、前作もそんなにひどいとは思っていないが)。映画の内容とは裏腹に、派手さのない、穏やかな感じの3Dでしたね。

参考にと、ネットで見られる数々の評(英語のもの)を見てみると、ストーリーには見るものはないが、3Dは前作よりも断然よい、との論調ですね。特に高尚さを期待せず、2D-3D変換の現状や、戦いのCGシーンを堪能されたい方にはお薦めします。

いまや、殆ど飛び出さない3D映画。これは、時代が成熟したと見るべきでしょうか。

DTAM (3)

早速、貴重なコメントをいただき、気を良くしている私...

ところで、DTAMについては、初期フェーズでもわからないところがあります。何せ、シロウトなので。

輝度の誤差Cr(u, d)は、以下の式で計算します。

Cr(u, d) = (1 / |I (r)|)Σ|ρr(Im, u, d)| --- (1)

論文では式(2)です。

ここでの私の疑問ですが、たくさんの画像を使うときの、各画像に対応するカメラ位置姿勢情報がいると思うのですが、その求め方が記載されていません(それともいらないのかな?)

PTAMでは、最初はステレオで、5 point algorithmにより、一番目のカメラからの、二番目のカメラ相対位置姿勢を求めています(スケールはある前提を設けて決める)。PTAM特有の、点群から線がびろ~っと伸びる操作ですね。然るに、これに対応するDTAMの初期フェーズがいまいちよくわかりません。

こりゃ~困りましたね。ははは...しかし、これらDTAMに関する一連の記事は、論文をお読みになってない方には、全くつまらないですね。失礼いたしました。

DTAM (2)

さて、DTAM論文ですが、以下の式までは、なんとなくわかりました。

Eξ = ∫Ω{ g(u)|∇ξ(u)|ε + λC(u,ξ(u)) }du --- (1)

論文では、式(6)です。記号の意味は、長くなるのでいちいち説明しませんが(論文をお読みください)、簡単にいえば、第一項は、デプスは滑らかに変化させますが、輝度が不連続のときは、デプスも不連続でいいですよ、ということです、オクルージョンがあると、このような状況が発生しますからね。第二項は、異なる視点からの輝度差が最小となるようなデプスを選ぶ、ということです。これは要するに、ステレオマッチングです。

問題は、エネルギEξが最小となるような、関数ξ(u)を求める、という、いわゆる変分法のような定式化です。これを解くのですが、もちろん、旧来の物理数学のような解き方ではありません。

ところが、やっぱりというか、この解き方がわかりません。私の知らないテクがいろいろと使われていて("duality principles"とか、"Legendre-Fenchel transform"とか)、調べることが多そう~具体的には、"2.2.3 Solution"からです。その前に、なぜ式(7)が必要なのかも不明...ご教示よろしく!

DTAM

カメラで撮った動画から、三次元形状を復元したいという要望は、以前からありました。これまで、いろいろな技術開発がなされてきましたが、当社にも最近、関連の依頼が増えてきて、まともに取り組む必要がでてきました。

既にあるやり方は、さまざまな計算から得られる画像特徴点を元に、ポリゴンを復元していく、というものです。うまくいく場合もあると思いますが、一般論として、画像特徴点というのは、これらからポリゴンを形成していくのに適したものとは限りません。よくある問題としては、特徴点が取れないような、のっぺりとした領域はどうするの?という問題。

ちなみに、画像系の方の三次元復元、というのは、点の復元で終わることが多いですよね。でも、現実には、ポリゴンまで復元しないといけません。

このあたりで悩んでいたところ、"DTAM"というのを見つけました。これは、ICCV2011で発表されたものですね。何故かオーラルではなく、ポスターです。査読者が重要性を間違えた?その後、YouTubeなどで広く知れ渡るところとなりました。

これはかなり凄いです。全てのピクセルで復元するので、これらからポリゴン形成は簡単にできそうですね。レーザ計測で取得できる点群のようなデータが得られそう。

早速論文をゲットして(ネットで取れます)、読んでみたのですが、これは正直言って、難しいです。さて、どこが難しいか?これもシリーズものとしようかな?コメントで教えてもらえるかも知れませんからね。ちなみに、正確な論文名は以下の通りです。ゲットして、私の初歩的な質問にお備えください!

R. A. Newcombe, S. J. Lovegrove, A. J. Davison, "DTAM: Dense Tracking and Mapping in Real-Time", ICCV2011.

ヒトの視覚認識

ヒトが視覚を使って、如何に外界を認識しているかについて、いまではどれくらい分かっているのでしょうか。

かなり昔、ニューラルネットが出てきたとき、これはヒトの脳を模倣するものだと言われました。でも、いまは必ずしもそうではないですね。計算機向けの手法が、独自に発展してきた感があります。そしてそれが、相応の成功を収めました。

でも、画像認識をかじっていると、どうしてもこのこと(=ヒトが視覚で外界を認識するやり方)がアタマを離れません...

例えば、二次元上の点群から直線を認識するやり方。いまの画像認識では、いわゆる<ハフ変換>が使われます。これは、非常に計算機向けのアルゴリズムですが、ヒトがこのようなことをやっているはずがありません。では、ヒトはどうやって?

もっと簡単に、ひとつの直線を表わすような点列があったとしましょう。この場合は、最小二乗法で直線を当てはめるのが普通でしょうね。でも、ヒトは最小二乗法を使っているのでしょうか?実験として、与えられた点列に対して、ヒトがどのような直線を当てはめるか、ということをやると面白いかも知れません。この結果と、最小二乗法による結果が、どの程度合うのでしょうか。かなり合いそうな気はしますが。

あ、またまたタワゴトを書いてしまった。

Multiple View Geometry in Computer Vision

最近仕事で、画像処理系、特に3D復元系の話が増えてきました!

お客さんとの打ち合わせ前に、ちょっとおさらい。もちろん、"Multiple View Geometry in Computer Vision 2nd edition (2004)"です。定番&バイブルであります。

でも、これは既に、出版後10年を経過しようとしていますね。そろそろ、アップデートの必要はないのでしょうか?

Klein氏によるPTAMの2007年論文をパラパラと見ていたら、"5-point algorithm"というのに眼がとまりました。PTAMでは初期化フェーズで、最初の3Dマップを作るのですが、これに"5-point algorithm"を使っている、とのことでした。然るに、"8-point algorithm"というのはよく聞きますが、"5-point algorithm"というのは、私にはもしや初めて?

気になって、"5-point algorithm"の出所を調べてみたら、2004年に効率的な計算手法が開発されたそうです。"Multiple View Geometry..."には、"5-point algorithm"は載っていませんが、出版後に発表された手法だからですね。PTAM論文で引用しているものも、2006年のでした。

"5-point algorithm"は、基礎行列F(fundamental matirx)の特殊ケースである、基本行列E(essential matrix)を計算するためのものですが、行列Eの自由度(=5)を勘案して、より少ない対応点で計算できるのが長所みたいですね。その他にも、便利なことがあるようです。詳しくは、情報処理学会研究報告「多視点3次元復元の研究動向」(Vol.2011-CVIM-176 No.1)をご覧ください。

というわけで、"Multiple View Geometry..."出版の後も、いろいろと進展があるみたいです(当たり前か)。だから、そろそろアップデート?

PTAM

PTAMというのは、Parallel Tracking And Mappingの略で、ARに従事されている方であれば、よくご存じと思います。開発は、当時Oxford大学のGeorg Klein氏です。私は、奈良で開催された、ISMAR 2007で初めてこの技術を知りました。このときは、ドイツの某AR企業の方々(長身美女ぞろい!)と会うことが主目的で、実はKlein氏の発表は聞き逃してしまった。これがbest paperをとり、一躍脚光を浴びたわけです。

そのあと、PTAMのことは忘れていたのですが、最近の某展示会で、画像が専門のフランス人技術者と知り合う機会がありました。彼はなんでも、PTAMの商用利用権を持っていて、そのデモをしてくれました。お、まさに、Klein氏のデモのようなヤツですね。カッコいい!

さて、Klein氏ですが、2009年からMicrosoft(シアトル)にいるそうで、PTAMの更新もあまりされていないみたいです。関連BLOGがあるそうなので、いまの状況を知るべくsubscribeしてみました。

Kinect

Kinect、はやってますね~

先日の第16回バーチャルリアリティ学会大会(2011年9月20-22日、公立はこだて未来大学)では、Kinectの専門セッションが設けられました。6件のご発表がありました。

先週の国際ロボット展(2011年11月9-12日、東京ビッグサイト)で、当社はステレオビジョンを用いたシステムを展示しましたが、何人かのお客さんから、Kinectが使えないのか、というご質問をいただきました。Kinectはなんといっても、安いのが魅力です。ここでたまたま知り合いになった、フランス人のビジョン専門家も、Kinectに関するアイデアがあるようです。

今週の立体協ワークショップ(2011年11月18日、大阪センター)では、甲南大・田村祐一先生に、Kinect関連の講演をお願いしました。勉強させてもらいます。

2D-to-3D conversion (5)

先日(2011年9月29日)、立体協見学ツアーで、赤坂の某社を訪問しました。最近映画で、いわゆる2D-3D変換を業務とされているところです。

社内に専用の立体映像試写室があります。これはすごい!さて、4つほど作品を観賞しましたが、これは堪能いたしました。2D-3D変換も、品質が高くなったものです。ちなみに、こちらでは全て人手で作業をされているとのことでした。

品質については、やはり専用の立体カメラで撮ったものにはかなわない、という意見が大勢でしょうが、2D-3D変換で、ひとつはっきりしている利点があります。それは、上下のズレが全くないようにできること。これって、結構大きいような気がします。

某社担当の方によると、今後の3D映画は、専用の立体カメラ撮影と、通常のカメラ撮影で2D-3D変換を施したもの、との両刀使いになるのでは、とのことでした。私も、いまの情勢を考えると、そんな感じになると思います。

Log-Polar変換

先日の電気学会大会(富山大学、2011年9月7-9日)にて、<Log-Polar変換>に関する研究がありました。そういえば、以前もどこかで聞いたような...

<Log-Polar変換>とは、画像変換の一種です。画像を複素平面とみなし、それのlogをとると、スケールと回転が分離できるのです。それそれの変化が、各軸の平行移動と捉えられるので、スケールと回転に強いということですね。

数式で表すと、複素平面上の点は、

z = re --- (1)

と極形式で書けます。式(1)のlogをとると、

log(z) = log(r) + iθ --- (2)

となって、スケールは実軸のみに関係し、回転は虚軸のみに対応する、というわけです。複素数の応用ですが、なかなか面白いですね。これを拡張して、アフィン変換や射影変換にも適用できるような研究もあるみたいです。

VISION

装いも新たに(とはいえ旧版は知らない)、David Marrの"VISION (2010)"が届きました!何ともかっこいい装丁です。本BLOGはテキストだけと決めているので、画像は掲載しませんが(気になる方はご購入ください)。

あとがきとして、Tomaso Poggioが5ページ程度、"Marr's Vision and Computational Neuroscience"と題して書いています。Poggioは著名な脳研究者で、Marrの生前の共同研究者です。

Marrの有名な三つの理解のレベルというのは、

- the hardware
- the algorithms
- the computations

ですが、Poggioは、最上層に、

- learning

を付け加えることを提案しています。「もっとも、Marrが賛成するかどうかはわからないけれど」などとも書いています。このような粋な文章を書きたいものです。

コンピュータビジョン最先端ガイド

先日のSSII2011(2011年6月8-10日)にて、「コンピュータビジョン最先端ガイド」が積まれていました。

副題に<-CVIMチュートリアルシリーズ->とあるように、情報処理学会CVIM研究会でのチュートリアルを再編集したものです。私はナマで半分くらいは聴いていて、いずれも素晴らしい解説でした。ただ、そのときの資料があるので、これまで書籍としては購入していませんでした。このときも購入は手控え。結構買っているひとがいましたね。

さて、SSII2011の資料を持って大阪に出向き、当社で画像処理系プロジェクトを多くこなしているSさんに渡したときに、「コンピュータビジョン最先端ガイド」も薦めたのですが、ひとに薦めておいて、自分が持っていないのもアレなので、そのあと既刊の三冊を購入しました。綺麗にまとまっていて、画像処理の基本技術を習得した人向け、という感じですね。大学教養程度の数学は必要と思います。
プロフィール

加納裕(かのうゆたか)

Author:加納裕(かのうゆたか)


[略歴]
1983年3月東京工業大学工学部機械物理工学科卒業
1983年4月(株)図研入社
1987年1月同社退社
1987年2月(株)ソリッドレイ研究所を6名で設立、取締役
1994年3月同社退社
1994年4月(株)スリーディー入社
1996年10月同社取締役
1999年12月上海大学兼務教授
2002年10月同社代表取締役
2009年9月ものつくり大学非常勤講師~現在
2009年10月同社代表退任/退社
2010年1月ソフトキューブ(株)入社~現在(技術顧問)
2017年4月湘南工科大学非常勤講師~現在


[業界団体・学会活動]
電気学会・第四期次世代インタラクティブディスプレイ協同研究委員会(委員)/最先端表現技術利用推進協会・アカデミック部会(旧:三次元映像のフォーラム)(副部会長)/日本バーチャルリアリティ学会ハプティクス研究委員会(委員)/ACM(Professional Member)/情報処理学会(正会員)/3Dコンソーシアム(賛助会員)/URCF(特別会員)

---------------------

前職:立体映像産業推進協議会(幹事)/日本バーチャルリアリティ学会・論文委員会(委員)/3DBiz研究会(個人賛助会員)


[資格]
TOEIC805点
数学検定1級(数理技能)
中型・普自二免許
サッカー4級審判員

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード