SYMBOLIC VISUAL LEARNING
Chapter5 Learning Organization Hierarchies of Large Model-Bases for Fast
Recognition
担当 園田展人
2000年10月16日
1 はじめに
レンジデータ[1]におけるCAD物体のための、モデルをベースにした完全な視覚システムを実現するにあたって、スピードと正確さが認識における2つの必要不可欠な要素となる。これらのファクタはモデルライブラリとシーンクラッター(scene clutter)の増加に伴い極めて重要になってくる。モデルベースの視覚における従来の研究では、認識時間がモデルベースのサイズあるいはシーンクラッターを無視するようなアルゴリズムが設計されていた。[2,4,5,6,7,8,9,10,12,13,21]
モデルを表現するためのポイントベースの特徴を用いたシステム[4,6,9,12,13]は、通常、物体認識のために概念をインデックス化する。オフラインのモデルをコンパイルするプロセスにおいて、インデックスは点(point)のグループから計算され、これらはアドレスとして探索テーブル(look-up table)に使われる。探索テーブルとは、モデルのアイデンティティや点のグループが記憶されている場所である。認識にはシーンポイントのグループからの同様のアドレスからの計算が伴い、その後、これらのロケーションに配置されたモデルの決定が行われる。このアプローチは、いわゆる「幾何学的ハッシュ法」という名で良く知られるようになった。
より高レベルのプリミティブ(primitives)を使ったシステム(例えば面(surface)、立体(volume)など)は、従来グラフという形で、モデルとシーン物体の両方を表現する。[2,7,8,10]これらのグラフの中のノードは、プリミティブを表し、リンクはそれらの関係性を表す。認識においては、シーングラフのノード間の写像関数と各モデルグラフのノードが確定される。このプロセスは計算機的に複雑(computationally expensive)なので、モデルベース全体に渡ってそれを繰り返すのは、実用的ではない。明らかにより高速のハッシュ法のコンセプトをグラフ理論モデルに拡張することには疑問が残るが、[8,10]に記述されたシステムはこの方向への確固たる努力の結果である。
従来はnon-graph theoretic methodは大型ライブラリにおいて、スピードパフォーマンスが高いのだが、 我々はグラフ理論的アプローチgraph theoretic approachを開発し続けることを選んだ。この主な理由はグラフ理論的手法(graph theoretic method)では空間的推論(spatial
reasoning)に知能(intelligence)を注入することが可能となり、それによってより魅力的になるからだ。これはつまり表現がより完成され、認識のみのために最適化されていないということだ。graph theoreticモデルを取り入れたシステムは、欠損したあるいは閉塞したパーツについてより自然に推論することができ、またこの研究が提供しているように物体の部分認識をより広域のappearance class の例として許可することができる。
大型ライブラリでも実行可能なグラフ理論的手法を作るためには、我々は[15,16]におけるモデルベースの階層組織化を提案する。また、クラスタリングの考え方を使っているのは我々が初めてではない。例えば[19]を参照せよ。セクション2では、我々のアプローチについて簡潔に述べる。観測されたデータはPSDとして表される。そして対象モデルはRPSDとして表される。これらは属性グラフ(attributed graph)の形を一般化したものである。組織化されたモデルベースの構造はオフラインで学習されるものだが、認識中に効率的に使うことが可能である。ここでは唯一の指数関数的(最悪な場合)構造(あるいはグラフ)の照合プロセス(matching process)は組織化された木の根におけるシーンPSDとRPSDの間に存在する。残された作業は手間のかからない一連の線形テストに単純化される。 我々は100個のCAD物体のモデルベースの結果をここに表示する。
モデルベースの視覚システムはまた、一からモデルベースを再設計することなく、新しいモデルを受け入れることができなければならない。すでに組織化された階層の中で、新しいモデルRPSDのサイトを学習するためには、我々は[15,16]に記述された認識戦略を拡張する。[14]における我々の研究は最初にこのアプローチを紹介し、ここではセクション3において述べる。
[15,16]で述べた認識戦略上の本質的な問題の1つはシーンPSDと根RPSDの間の指数関数的照合プロセスが特にPSDプリミティブ数の高いクラッターシーンにおいて計算が複雑になりうることだ。セクション4ではこの照合時間を大幅に減少させる幾何学的ハッシュ法戦略を紹介する。既存のグラフ理論的モデル用のハッシュ法スキームと比較して(つまり[8])ここで述べた戦略は[12]の古典的な幾何学的ハッシュ法スキームに一歩近づいている。我々は以前行った実験を通じて、高速認識におけるこのスキームの持つ可能性を実演する。
2 高速認識のための組織化したモデルベース
2・1 構造記述
シーン内で観測された物体はPSDによって、そのモデルはRPSDによって表現される。パラメトリックな構造記述を使用する際の考え方はBoyerとKak[3]の論文に従う。それらはまた、[20]の初期の構造記述と、不正確な照合に関する論文をもとに作られた。
2・1・1 PSDとは
PSDとは対ののことである。
はプリミティブの集合を表し、
は
分のパラメータ的N項関係(N-ary relations)の集合を表す。例えば3次元の多面体の場合、平面がプリミティブの集合を構成する。集合
はこれらの面の幾何学的関係をキャプチャーする。
プリミティブは属性の数によって特徴づけられ、それぞれが仮定された値を持っている。従って、
各プリミティブは直積集合(product set)、
の中で定義される。ここでAは属性の集合、Vは値の集合を表す。例えば先に検討した多面体の場合、表面積(surface area)はプリミティブの属性の1つである。
関係の集合はプリミティブ間の相互関係を表す。それぞれの関係は3つの部分から成り立つ:ネーム、そのネームによって識別される相互関係を持つタプルの集合、そしてその関係に参加する各タプルの測定を提供するために、タプル上に呼び出されるパラメータ機能。従って
という名の関係の場合
の場合、
ここでは
番目の関係の名を表し、
はその関係を持つ
項タプルの集合である。ある特定のタプルの要素はそのタプルの構成要素(constituents)と呼ばれることもある。
という用語は
の各タプルに適用されるパラメータ機能を表す。この機能はどんな種類の値でも、数字、記号あるいは論理、スカラーあるいはベクターでもリターンすることができる。例の多面体の場合は、隣接性adjacencyが
番目に名づけられた関係性かもしれない。どんな2つの隣接した平面同士も、
の要素ペアを構成する。パラメータ機能は2つの表面法線 (surface normal) 間の角度の数値を求める。
2・1・2 RPSDとは
RPSDを呼び出すにあたり、ある単一物体のノイズフリー表現ですらランダム要素を含むことに留意しておこう。モデルはノイズ、視点、articulationおよびintraclass
variationが発するランダム性をキャプチャーしなければならない。
PSDを定義した時、RPSDはPSDで、ここでG=(P,R)、Pとはランダム・プリミティブの集合、集合Rはランダム・パラメータ関係の集合である。
ランダム・プリミティブ:その構造体の中のプリミティブ特性は、属性の集合によって特徴づけられる。ここでそれぞれの値は離散ランダム変数である。ある結果生じる所定のPSDの場合、プリミティブはシーンに全く存在しないかもしれない(つまり取り除かれているということ)。[23]に従い、我々はこの不確定性を、プリミティブと関連した「ゼロの可能性」(probability of nullity)としてモデル化する。ここで
はゼロあるいはダミーのプリミティブを表すために使われる。
ランダムパラメータ関係:ランダム・プリミティブ・セット分のN項パラメータ関係では、各タプルのパラメータ値が離散ランダム変数になる。また、各タプルにはゼロの可能性が結び付けられている。もちろんこれはタプルの全てのプリミティブがあることを仮定した場合だ。
ランダム表現(RPSD)は、演繹的な世界の知識に対応し、一方決定主義的形態(PSD)はある特定の観察を表現している。Wongと
Ghahraman[22]はランダム属性グラフを扱い、エントロピーの計算およびある所定の結果出力の可能性について詳細に示した。この分析結果をPSDとRPSDにまで拡張するために、我々はプリミティブの属性値が独立したものであると仮定する。例えばプリミティブの色はその長さから独立したものである。また、プリミティブ同士は互いに独立したものであると仮定されている。そして我々は、ある所定の関係内のタプルと関連づけられたパラメータ値は、その関係内の他のタプル、あるいは他の関係内のタプルに割り当てられた値からも独立していると仮定する。これらの仮定の相対的真実性は、正しいシステム設計次第である。
2・1・3 PSD Outcome Probability
2・1・4 RPSDエントロピー
2・2 2つのRPSDの比較
RPSDのモデルベースを階層的に組織化するためには、それらの間に定義される非類似測定(dissimilarity measure)が必要である。一般に、この測定においてより近いモデルRPSD同士は一緒にグループ化される。以下にマージRPSDのコンセプトを紹介する。これらはRPSD−RPSD非類似測定の計算における重要なステップである。RPSDはまた組織木において非終端頂点(nonterminal nodes)を表すためにマージ(マージ)される。2つのモデルRPSDをマージした結果、両方のモデルを一緒に表す(それらの統合)。その結果representative RPSDができる。以下に定義されたRPSD−RPSD非類似測定は、このマージの考え方をもとにしている。
2・2・1 2つのRPSDのマージ
マージRPSDを定義するために、我々はマージ属性グラフの考え方を著しく拡張する[23]。ライブラリのの2つのモデルにそれぞれ対応するRPSDを
とする。それらはマージされ、その結果マージされたモデル
にそれぞれRPSD
が生じる。マージRPSDを構築する過程は2つのステージに分けることができる。最初に
と
との間のマッピングを計算し、その結果最小値
が生じる。RPSD−RPSDの非類似性は以下に定義される。アルゴリズムの詳細は[18]を参照。次に、マージされたRPSD
は、プリミティブが0である可能性と、マージされたRPSDのタプルとそれを表現するランダム変数の分布とともに計算し、この写像関数(mapping function)より得られる。
2・2・2 RPSD−RPSDの非類似性
2・3 RPSDのモデルベースを組織し、使う
2・4 実験結果
ここで我々は、100個の3−DCAD物体のモデルベースを考える。この多面体の(物体)の集合は、単純なピラミッド形から、椅子やテーブルなど複雑なモデルにわたる。我々は最初に、「面積」と「形状」のプリミティブなものとして、平面(planar surface)を用い、属性として「ホールカウンタ」を用いて、各物体の構造的表現をそのCADモデルから構築した。呼び出された(2重の)パラメトリック関係で唯一名前がついているものは「角度」である。そのパラメータ関数は2つの結合した表面の間の角度を測る。つまり隣り合った表面だけがタプル集合の関係性を形成する。これらの実験において、モデルベースにおけるRPSDに関連した可能性情報は合成されたもので、実験目的のためだけのものである。つまり厳密な調査に基づいていない。 この理由により、(80%周辺の)認識率は特別意味を持たない。同様に全てのモデルは同程度の確率があると推定される。
物体の完全な3−D記述は、認識のためにシステムに提示されると仮定する。従って全てのプリミティブと関係タプルがnullになる可能性は0である。しかし実際のアプリケーションにおいて、物体のの記述だけしかなく、RPSDモデルは視点を変化させながらランダム性をキャプチャーすべきである。我々は、このことを現在進行中の研究で検討している。面積と角度は均一に10のレベルに量子化される。RPSDの構築において面積と角度の値は「離散ガウス分布」としてモデル化されている。これにはCAD値の平均とランダム値が伴う。形に関しては、表面の境界の回転機能と3〜7面体の規則的なポリゴンのそれとの間の距離を計算する。面に最も近いレギュラーなポリゴンはPSDにおいて上記の測定距離に基づき属性の形状を表す。(RPSDにおいて)これらの量をランダム変数としてモデル化するために、これらの構造の逆数は足し合わせて1つの値にして確率値として使われた。「ホールカウント」は面の穴の数を記録する。この属性に関するランダム性は仮定されていない。
先に述べたように、同種のモデルベースを構造的に組織化する時、スピードアップの比率は理論上のそれに近似する。従って、これらの実験において我々はモデルを3つのクラスにグループ分けした。モデルは15以上、10〜14、1〜9のプリミティブでそれぞれ28,37,35モデルであった。これは構造的な同種性に関するシンプルな実験的概念に対応する。我々は公式を用いてグループにおける各々のRPSDのペアをそのように非類似的にクラスタリングした後、それぞれのグループを別々に組織化した。図5・2は3番目のサブモデルベースための組織化された木の部分を表している。この時点で最適性を査定することは不可能だが、モデルレンダリングから見て、クラスタリングが合理的であることは一目瞭然である。予想されたように、階層が上がっていくにつれ、クラスタの「ゆるさ」の測定値が増加した。
認識において最初の段階は観測されたPSDにおいてプリミティブ数に従い正確なサブモデルベースを選択することである。先に議論したように、その後認識がなされる。図5・3は4つの異なる物体の非構造化されたケースと組織化による、認識によるスピードアップを比較したものを示している。テストにおける小さなモデルベース(5〜20の物体)はプリミティブカウントと同様、構造的にも比較的同種である。一方、大きいものはより多様化している。モデル3のプロットではこのレンジで得られたスピードアップ比率は実際、理論上予測されたものよりも大きい。モデル2とモデル3のプロットにおける減少傾向は、プリミティブ数が小さい物体を取り入れた結果である。これらのプリミティブは、組織化されたモデルベースに対して実行しなければならない大型(かつ増加し続ける)根の照合(root match)が簡単にできる。理論上予測されたより総スピードアップが少ないのはこのためである。最後に35モデル以上のモデルベースのグラフが正の傾斜になっているのは、完全なモデルベースをプリミティブ数で前もってソートした結果である。
3 Incremental Model-base Updating
モデルベースを組織化するプロセスは、オフライン接続で行われる。しかしながら、それは不可能なほど計算量が多い。なぜなら、
l
のRPSD−RPSD照合プロセスが存在し、各々がRPSDプリミティブの数において最悪の場合、指数関数的になる。
l
階層化されたクラスタリングプロセスのそれぞれの層は、NP完全性(NPcomplete clique-finding
process) を含む。
l
各々の層の(cluster representatives)はいくつかの子RPSDをマージして形作られる。マージによって、RPSDプリミティブの数が指数関数的に複雑になる。
新しいモデルRPSDがライブラリに加えられるとき、サイズがライブラリのための、複雑で完全に組織化されたプロセスの繰り返しは避けた方が良い。さらに、
モデルライブラリを組織化する際になされた仕事は破棄されてしまう。従って、既存の階層の中で新しいモデルの位置を学習するのが良い。
3・1 新しいモデルの位置の学習
新しいRPSDモデルを階層の中に配置するためには、まずライブラリの中に既に存在するモデルの中でそれにもっとも類似したもの[2]を探す。これはシーンPSDに最も近いモデルRPSDを見つけるという認識のプロセスと同一のものである。我々は単に同一の探索プロセスを呼び出すが、木を行き来する際にRPSD−RPSD非類似測定値を使う。この方法は更新されたモデルライブラリを一から組織化するよりも著しく早い。
いったん最も近い既存のモデルを明らかにした後は、組織化された木に新しいモデルを正確に配置しなければならない。図5・4はモデルが9つのRPSDによる既存のモデルベースに加えられる例を示す。
番目のレベル(
)の場合、各クラスタのモデルのペアは非類似値
(
)の範囲内にある。これは上記のクラスタリングのアルゴリズムによって実行可能である。
が
に最も似ていると仮定した場合、それをインストールする方法は5通りある。もし
と
の非類似性が
より小さければ、図中に示したように2つの選択肢が存在する。今、我々はケース2を選択しているが、ケース1か2のどちらかを自動的に選択するという戦略の決定を検討中である。もしも非類似性値のうち(
と
)の1つが
より大きく、
は
それぞれに関して、
の非類似性値の範囲内であるとすると、その時はケース3が選択される。他のケースの場合はそれに続く。
いったん新しいモデルの正確な位置が推測されると、木の各レベルにおけるクラスター(representation)RPSDが、変更される。図5・4のケース3の場合、CとD(そしてそれ以降)における新しい(cluster representation)は再計算される。しかしこれは木探索の副産物なので、この時点で特に労力を費やす必要はない。各クラスタにある「ノード・ポインタ・リストnode pointer list」も、これに従って修正される。これによってモデルベースに必要な変更が完了する。
インクリメンタル(漸増)モデルクラスタアルゴリズムは、モデルが階層に加えられる順番によって影響を受けると我々は考える。ただしまだ実験を通してこの感度を測定していない。我々が新しいモデルサイトのみについて決定を下しているという点に注意して欲しい。木の
残りの構造はそのまま保持される。例えば図5・4においてケース1を選択したとしよう。モデルと
を除いた他の全てのモデルとの間の非類似値が
より大きく
より小さい、ということは大いに可能だ。理想的な解は、クラスタ
を現在の位置から取り除き、それをDの下に置くことである。木の構造におけるそのような調整をしておけば、将来この問題に取り組む際に役立つに違いない。
組織化されたライブラリの質を測定するたに、我々は組織化された階層中の各レベルにおいてinter-,intra-,2つのクラスタモデルの非類似値を考える。ある特定のレベルにおいては、クラスタ間の非類似測定値は、そのレベルの異なる2つのクラスタに属する2つのモデルの非類似値平均である。同様に、クラスタ間の非類似値
は、特定のレベルにおける同じクラスタに属する2つのモデル間の非類似値の平均を評価する。そのレベルのメリット数(the figure of merit)は、
. (16)
で表される。
この測定値が低いものは、良いクラスタリングを意味する。この比率は根において定義されず、その葉において0である。ところで、通常階層が上がるに従いは単調増加するものではない。
3・2 実験結果
これらの実験は、先に述べたように大きさで分割し、100個CAD物体のモデルベースで行った。パーティションはそれぞれ、28、37、35モデルを有した。
第一のパーティションは、セクション2で述べたクラスタ理論に従い、はじめに直接組織化された。次の26モデルはアトランダムに選ばれ、ここでもクラスタ理論に従い再び組織化された。集合からの残った2つのモデルは、上で述べたサイト学習(site-learning)のアルゴリズムを使い、加えられた。表5・1(a)はこのサブライブラリに対応する3つの異なるメリット数を示している。木1において、我々はの値と28モデルの直接組織化されたライブラリの各レベルの非類似閾値(dissimilarity thresholds)を示す。木2は28の集合から選ばれた26モデルの直接組織化された木に対応している。一方、木3は2つの残ったモデルが挿入された後の、修正された木2に対応している。我々は、全てのレベル(最後を除く)の
の平均として、全体の質の測定値を定義することができる。木1と3のこれらの値は、それぞれ0.43と0.41である。それゆえこの(不完全な)メリット数によると、木3の全体の質は木1のそれより若干良いものであるといえる。
我々はサブライブラリ2と3の実験を繰り返した。結果はそれぞれ表5.1(b)と(c)の通り。サブライブラリ2において木2は33個のモデルを含む。木3において、我々は残りの4つをこのグループから挿入した。4つのモデルを入することは、レベル2と3における値を減らすことになるが木2と3の全体の測定値はそれぞれ0.37と0.38である。これはクラスタの質が若干下降したことを意味している。木1は直接組織化された37モデルの集合に対応している。その全体の質(0.39)は、木3のそれより若干低いだけだ。
サブライブラリ3の結果も同様の解釈を行うことができる。ここで、木2は35の集合からアトランダムに選択された19のモデルの直接組織化されたモデルベースに対応している。木3残った16の挿入から生じる。木1は直接組織化された35のモデル集合である。木2と3を比較した時、各レベルにおいてが増加していく。これは大量のモデルを加えるとクラスタが「ゆるく」なることを示す。木1と3の全体の値はそれぞれ0・33と0・37である。木3はモデルの約45%を漸増的に加算することによって作られたため、それが木1より良いものになるとは期待できない。しかしながら全体的な質の下降は重要でないし、これは非常に希望の持てるものである。
4 組織化されたモデル・ベースにおける幾何学的ハッシュ法の使用
2・3で論じた物体認識戦略上では、シーンPSDと根RPSD間の指数関数的照合が障害となる。クラッタシーンの場合、観察PSDのプリミティブ数が高くなり、このために認識プロセスが計算機的な面で複雑になる。従って我々は、高速照合モデルベース組織と併用して使うことのできる幾何学的ハッシュ法を提案する。ここではまずモデルベース内の全ての各CADモデルRPSDにハッシュ配列を構築する。こうすると、組織木の各「葉」にそれぞれCADモデルRPSDとハッシュ配列が関連づけられることになる。木の中間ノードにあるRPSDに対応するハッシュ・テーブルは、そのすぐ下のハッシュ・テーブル同士をマージさせることによって形成される。このマージプロセスは木の根の方までずっと続いていく。
認識中は、根RPSDに対応するハッシュ配列によって、シーンプリミティブと根RPSDプリミティブ間のいくつかの写像関数の仮説を立てることができる。次に、これらの仮説化された写像関数のそれぞれは、先に定義したシーンPSD−根RPSDの非類似値を計算することによって確証される。非類似値が最少となるものが残される。次に、2・3で論じた木探索
を行なう。図5・5は5つのRPSDにおける仮説モデルベースの認識過程を表している。ここでシーンPSDはRPSD2を最も近い照合とした。
4・1 CADモデルRPSD用のハッシュ配列の構築
図5・6における状況を考えてみよう。ここでのプリミティブ゙は平面である。面1、2、3が基礎面(basis surface)の集合を形成し、面4・5が追加の決定面(決定面)だと仮定しよう。決定面の幾何学的構造は、決定面の表面法線の
(scalar triple product)と、どれか2つの基礎面を計算することによってキャプチャーすることができる。この2つの基礎面を選ぶ方法は3通りある。ひとつの決定面につき計算されるこれらのtriple
product 値は幾何学的ハッシュ法でインデックスとして使用することができる。
識別法を改善し、かつRPSDのフレームワークを残すために、我々は基礎プリミティブ triple (basis primitive triple)に 関して第4のプリミティブの幾何学的構造を表現する、quarternary
namedで、秩序ある関係を行使する。検討される3つの面タイプ(平面、円錐形、球形)につき、基礎タイプの選択法が27通りあり、決定面の選択法が3通りあるため、81種のquarternaryな関係が可能である。このような関係の名前のひとつが、”BASIS:VOTER
GEOMETRYPLANAR-PLANAR-PLANAR-PLANAR:PLANAR”(B:VG-PPP:P)である[3]。この関係を構成するタプルは()である。ここで各
は平面のプリミティブ、(
)は基礎(basis),そして
は候補プリミティブである。パラメータ・ベクター(
)はタプルの幾何学的構造を表現するが、ここで
Relation
Identifier,
,
,
,
は基礎(
)について候補プリミティブ
の幾何学的構造をキャプチャーしている点に注目して欲しい。これに対して、
は基礎basisそのものの幾何学的構造をキャプチャーしている。この例においては、同等関係(relation
identifier) は“B:VG−PPP:P”である。ベクター(
)はハッシュ配列をインデックス化するために使われる。適切な位置でModel IDとbasis triple の入力をする。また、候補プリミティブのアイデンティティ(Model
ID,triple)とともに (
)の位置に配置する。後に分かることだが、いったんシーンbasis triple に対するモデル(basis) triple
を仮説化すれば、照合されていないシーンの表面とモデルの表面を識別するのがはるかに容易になる。
今度は、計算されたハッシュ配列中の位置に、basis surface tripleに関して決定面の物理的な位置が組み込まれていない点に注目して欲しい。例えば図5・6においては
に並行しているため、それらはハッシュ配列内の同じ位置でtriple(
)のための入力をそれぞれ作り出す。従って、このような多義性を解決するために決定面の新たな位置情報を記憶する必要がある。ここでは、triple
内の最初の表面から決定面(平面あるいは円錐形) の最大距離と最少距離を選択する。従って配列内のある特定のロケーションへの入力は:
となる。ここで、
はこのロケーションでtriple を決定するモデルプリミティブ(決定面)で、
はtriple内の最初のプリミティブ゙から
の最大・最少距離、などなど。このリスト{V....}はvoting primitive list と呼ばれる。
決定面
が円錐形で(basis triple が全て平面の場合)、のnormal とのinner productが正になるように円錐の軸の方向を選択することができる。この場合のインデックス化は先に述べた平面決定面s
の場合と似ている。決定面 が球形のpatch の場合、
とはbasis 表面
(……) から(このパッチの所属する)球形の中心までの距離のことである。先の2つのケースとは異なり、位置(β…)において決定面
の位置情報をエントリーすることはしない。何故ならそれはすでに
においてキャプチャーされているからである。プリミティブの4タプルs (triple に加えて決定面)に関してはあと78通り可能だ。これらのケース全てを扱うための一貫した方法を明らかにしたが、(単調な)詳細は省略する。
4・2 ハッシュ配列をマージする
根RPSD用のハッシュ配列を構築するためには、階層を創りながら全てのモデルRPSDのハッシュテーブルをマージする。組織木内のノードのRPSDの場合、その子ノードchild node のハッシュテーブルをマージする。ここではと
という2つのモデルのハッシュ配列をマージし、マージの結果できたモデル
のための配列を創ることを論じる。
我々は、と
の対応するハッシュ配列の同じ位置内にあるエントリーを組合わせることによって、マージ・モデル
の配列の特定の位置内のエントリーを得ることができるこれらのエントリー内のそれぞれのプリミティブアイデンティティは、
内の対応するプリミティブアイデンティティに合わせて修正される。いったんこれが完了すると、同じtriple に対して2つの別々のエントリーが存在することもありうる。これらは一つのエントリーにとって代わられ、これら2つのエントリーに属するvoting
primitiveリストたちは、各voting primitive がリスト内に一度づつしか現れないように組合せられる。voting primitives と関連したlocational
constraintsは(それがもし存在する場合だが)、子プリミティブの対応するconstraints から計算される。図5・7には、モデル
と
のハッシュ配列におけるある特定の位置でマージするエントリーの例が示してある。
4・3 シーンPSD根RSPD照合を確立する
シーンPSDからprimitive basis triple が選択される。我々の目的は、このシーンtriple にうまく照合する根basis
triple を見つけることである。孤立した物体認識の場合はどんな表面triple でも使える。乱雑なシーンの場合、tripleの表面同士は同じ物体に属していなければならない。しかしこのような選択を演繹的に確証するのは無理である。一つの実際的な解決法として、数多くの表面triple
を検討し、良いモデルtriple 照合が得られたものだけを検討する、という方法がある。ハッシュ法という枠組は「乱雑」clutter
問題をうまく解決してくれると我々は考える。また我々は、「乱雑性(clutter)」内で「良質な」表面triple を選択するという課題を現在研究中である。
照合を仮説化する
シーンPSDの中からsurface triple を選択し、シーンに残存する各surfaces については、根RPSDのハッシュ配列内の位置を計算し、それに続くものと同じ方法論を使って配列を創る。voting
scene の表面がこのbasis triple に関連したvoting model surfaces のうち少なくとも一つのlocational
constraint を満たせば、この位置に存在するbasis triple はvote を受ける。シーンbasis triple に含まれていなかった全てのシーンプリミティブ゙がvote
した後、vote を集計する。例えば以上のvote を受けたmodel triple はscene triple のための照合とみなされ、仮説を形成することになる。
照合を確認verifyする
次に、全ての仮設化されたシーンTriple RPSD照合は評価される。それぞれの仮説について、照合されていないシーンプリミティブと根RPSDの照合されていないシーンプリミティブの間の写像関数を見つけなければならない。ハッシュ配列はこの目的のために有効に使うことができる。ある照合されていないシーンプリミティブにおいて、ハッシュ配列内でアクセスすべき位置は先に述べたvoting
法で確定される、つまりscene basis triple との幾何学的関係性を割り出すことによって(確定される)。仮説化されたmodel base
triple はこの位置に存在していなければならない、さもなくばこの照合されていないscene surfaceはマップした結果ゼロになる。ハッシュ配列のこの位置においては、仮説化された根RPSDbasis
tripleと関連する各voting 根RPSD表面は同じシーン表面と照合する可能性を持っている。
シーン表面の総数をとしよう。シーンbasis triple に含まれない
個の照合されていない各シーンプリミティブにつき、あらゆる可能なモデル表面のリストが確定される。照合されていないI番目のシーンプリミティブについてmlI個の可能性があるとしよう。こうして
個の照合を受けていないpossibilityについては、シーンプリミティブとモデルプリミティブの間に[式]個の可能な写像関数を生成することができる。その後、全て(そして唯一)の一対一の写像関数は、
[15,16]で論じたPSD−根RPSD非類似性測量値を使って再評価される。最も低い非類似値を持つ写像関数が選ばれる。この(最少の)非類似値は、そのscene
tripleを根root model triple に照合するための「コスト」と定義される。
全てのtriple 照合仮説のうちで、コスト機能の最も低いものが残される。また、この確認プロセスは、scene triple に含まれていないシーンプリミティブとRPSDtriple
に含まれていないRPSDプリミティブ同士を対にする写像関数を提供してくれる点に注意して欲しい。
4・4 実験的ハッシュ結果
前回のようにパーティションされた、同一100物体のモデルベースをここで考えてみよう。我々は、35モデルという最初のパーティションにおけるハッシュ戦略を実行した。ここでは0と100の間で均一に量子化される。オフラインの予備処理においては、配列内の過密を減らすために、normal がscalar
triple product of zeroを生成するtripleは無視する。我々は個々のCADモデルの配列から始め、組織からされたモデル・ベースの根RPSDに対応するハッシュ配列HA1を創った。ハッシュ法と組織化された階層とハッシュ法のみを使った場合の認識の有効性を比較するために、我々は第二のハッシュ配列HA2を作った。ここでエントリーはライブラリの全てのモデルに対する(model,
triple)ペアである。これは基本的に、同じモデル集合に対する根RPSD配列あるいは「normal」幾何学的ハッシュ法のマージされていないバージョンである。
HA1内の異なるsurface triples の数はちょうど834で、HA2の7416と比較すると90%近くの減少が見られる。このCADモデルの集合は多数の表面が直角で交差しているため、HA2内のロケーションは非常に過密になる。この過密問題はHA1においては軽減される。ハッシュ配列内の各ロケーションで類似したtriple同士がマージするからである。マージされたハッシュ配列は、「規則的regularな」ハッシュ配列よりも分散し、かつ均一に占められている。どちらの属性もスピードと正確さという面からはかなり好ましいものである。
4・4・1仮説生成テスト
我々は図5・8に示したようにサブ・モデルベースの4種の物体の2・5D表現を生成した。これらは、我々が仮説生成テストを行った4つのシーンである。従って各シーンには一つの物体があり、そのポーズはモデル物体のそれと異なる。しかしながらモデルとシーン物体の間のscale factor はunity である。
表5・2は、あるscene tripleの集合においてHA1,HA1によって生成された仮説の数で、source image とsurface
identifiers の3-タプルによって識別されたものだ。最初の行にはその幾何学的構造のみを基準に適性を得たmodel triples の数がある。つまり、ここでは同じβ5、β6、β7、β8値を持つ全てのmodel
triples を選び、”voting” surfaces の効果を無視した。次の3行は、それぞれ1,2、3個以上のvote を受けたmodel triple
の数を表す。ここで、決定面s が確認のために仮説の数を呼び込む力を持っていることは明らかである。
5・2
HA1、HA2を4つの異なるイメージで使いながら選択されたscene triples 用に生成された仮説の数。最初の行は、その幾何学的構造のみを基準に適性を得たmodel triples の数を示す。次の3行は、それぞれ1,2、3個以上のvote
を受けたmodel triple の数を示す。
図5・8のイメージ1の場合、最初に検討されるscene triple は(0 1 4)である。HA1を使って204個のmodel triples がtriples の幾何学的構造のみを基準に選ばれた。ここで論じられたvoting
method では出発点の時、数字が145まで減少する。
の時、数字はさらに5まで減少する。HA2を使用している対応数は1740、1079と5である。この理由は、triple (0
1 4)における表面が互いに垂直で、(0と4に対して垂直の)決定面3ではHA2の過密なロケーションがアクセスされるからである。マ―ジすることによって過密問題が減少されるので、HA1を使ったvote
数 vt=1はかなり低い。表面2のnormal はわずかに傾斜しているため、HA1とHA2のハッシュテーブルの分布の低い領域に打ち込まれkey into、これらの数字は表面3のエフェクトeffect
に支配される。
次にイメージ1のbasis triple基底トリプル (2 3 4)を検討する。この場合、テストされるべき仮説の数はどの配列の場合も同じである(そして低い)。ここでもその理由は、表面2の傾斜した線のせいで決定面
1と2が強制的にHA1とHA2の分布の少ない場所に打ち込まれるからである。
イメージ2の場合、(HA2という観点から見て)「友好的な」傾斜表面がないため、scene triple(0 1 4)あるいは(1 2 4)においても、ある基準において生成された仮説の数はHA1を使った場合よりもHA2を使った場合の方がはるかに大きい。この理由もまた、scene
triple がハッシュ配列の過密地帯に打ち込まれるからで、この問題はHA1よりもHA2の方が顕著だ。この例によってもまた、マージされたハッシュ配列の利点が明白になる。表の残りの結果も同様に解釈することができる。
4・4・2 PSD根RPSD照合時間の比較
ハッシュ法を使用する主な目的は、認識中のシーンPSD根RPSD照合時間を減少させることである。ここに示した実験結果は、ハイブリッド法の有効性を示すものだ。全ての作業はHP9000/715 33MhzRISCベースのシステムで、Cで実施された。図5・8の4つのイメージについては、2・3で示したアルゴリズムを使ったPSD根RPSD照合は、それぞれ94.3、99.46、160.69と49.85s(秒?)かかった。また表5.3では、source
image によって識別されたscene triples 集合用に配列HA1と3 タプル-surface identifierを使い、PSD根RPSD照合時間を示す。ここではvoting
出発点vtがそれぞれ1,2,3の時の構造的根照合structural root matchと比較した場合の照合時間とスピードアップをリストする[4]。当然、スピードアップはvoting出発点ともに増加するが、これはvtの増加に伴う仮説数の減少の結果である。一般には、表5.2の(HA1での)仮説数とこれらの時間上の結果を簡単に結びつけることができる。より多くの仮説があればより高い確認すべき仕事verification
loadが出てきて、ハッシュ時間も長くなる。
我々はまた、structural およびハイブリッドのmatching schemes の両方において、正しいモデルおよび4シーンのそれぞれにおける正しいポーズが識別されることを確認した。どのmatching
schemeが正確さにおいて優れているのか、(統計的に)判断するためには、幅広いデータにおいてもっと多くのテストを行う必要がある。この時点では、幾何学的ハッシュ法スキームはプリミティブにおいてより多くの幾何学的なrelational
constraints を強要するため、ハイブリッド法の方がよいパフォーマンスをするであろうと我々は推測する。
5 結論
我々は最初に、組織化した大型モデルベースを組織化するための情報理論のクラスタリングスキーム(information theoretic
clustering scheme)を提案し、一連の計算機的に複雑な構造的照合プロセスをそのような照合1つで置き換えるという風に、組織化された階層が認識中にいかに効果的に使われるかを示した。次に、我々は(incremental model-base
updating scheme)開発した。その中で、新しいモデルは組織化されたツリーにおいて、その位置を学習する。最後に我々は、認識時間をさらに短縮するために、いかにしてハッシュ法のコンセプトが階層化クラスタリングスキームとともに使われうるかを議論した。我々はまた、このハイブリッドスキームが典型的 ”all-at-once(一度に全部)”的 なハッシュテーブルの構築技術よりも、認識中に生じる仮説の数の削減という点において、効果的であるということに関しても言及している。この方法はハイブリッドアプローチに残っている最小木探索(the minimal tree search)を有に補ってくれる。
上記に述べたモデルベースの組織化と物体認識のアルゴリズムは、距離画像からCAD物体を認識するように目的づけられている。我々の実験結果は、人工的に生じる画像を元にしていたが、現在のアルゴリズムの改良によって、今後現実のシーンに適したものに変えられていくだろうと考えている。例えば、リアルな距離画像が与えられたとき、表面の推定においてエラーが発見されたら、ある3つのプラナーサーフェスについて、(たったひとつではなく)インデックスの集合を計算し、ハッシュテーブルの対応するロケーションにvoteを出す。我々は現在このような方向で、研究を進めている。
[16]における我々の研究では、モデルベースが構造において十分似通っているとき、階層化されたクラスタリングは高いスピードアップの値を導く。この状態は非常に大型のモデルベース(何千もの物体)に対しては保証できないので、図5・9に示したように全体の形状と大きさの情報を使ってモデルベースを分離しその後各々のパーティションを階層的に組織化することは不可避となる。この方向性での我々の予備研究については[17]を参照。その論文ではRPSDから計算された全体の特徴に基づく分割手法を示している。2層組織のもとで、(incremental model base
updating)アルゴリズムは、新しいRPSDのための最良のパーティションが最初に選ばれ、その後適切な階層でそのサイトを学習するという風に改良可能である。ハッシュ法のコンセプトはまた、図5・9のアーキテクチャに拡張されることもできる。各々のパーティションについて、我々はここで議論したような(root-representative)RPSDのためのマージされたハッシュテーブルを作り出す。結果として生じるハッシュテーブルの集合は、認識のために並列に用いられるだろう。我々はこれらのツールが、非常に大型のモデルベースを用いたリアルかつ乱雑なシーンにおいて、効果的な認識を行うことができると考える。