理想的なハッシュテーブルでは、1つの領域は1つのデータしか含んでいない (purity)。しかし、一般にそういったパーティショニングは不可能であるため、 可能な限りモデルの LFS の格納数が少なくなるようなパーティショニング方 法を考えなければいけない。
ここで領域の purity をエントロピーによって表現する。ある領域のエントロ ピーは、全ての LFS の生起確率分布がその領域で重なりあっている時に最大 になる。最小(0)になるのは、領域が1つの LFS しか含んでいないときで ある。
はモデルの LFS の数で、
は領域
に落ちたサンプル点が
に属する確率であ
り、ベイズの定理より下のように表される。
は、全ての LFS の分布から1つサンプルを取った時に、
それが領域
に落ちる確率である。
は、
の分布からランダ
ムに1つのサンプルを取った時に、それが領域
に落ちる確率
である。
は
が画像中で観察される確
率を示す前もって与えられる値で、下のように表現される。
は、モデル
を様々な視点から見た時に、
が観測される確率である。
は、モデル
が
画像中で観測される確率である。これらに関して前もって知識が与えられてい
なければ、
となる(
は全ての LFSs の数)。
は、トレーニング時に次のように計算さ
れる。
は全ての属性からなるベクトルで、
は
に対応
する生起確率分布、
は属性
軸上での生起確率分布である。
属性は互いに相関の無いもの(2次以下)を選んでいるため、
は各属性毎の確率分布の積で表すこと
ができる。
そして、次の が最小になるようにハッシュテーブルを構築する。
これでテーブル同士を比較する指標を手にいれたが、次に最適なテーブルを探
索する手法を見つける必要がある。brute force による全探索を行う方法もあ
るが、ここでは属性 が
個に量子化されるとし、この属性軸
上では最大
個の領域に分割されるとする。すると、全属性値空間で
構築しうる領域分割のし方の総数は下のように表される。
は最も大きい
と同じオーダーである。これから、直接的な探索
の計算量が、属性数と量子数の積の指数のオーダーであることが分かる。
これは明らかに望ましくないため、MULTI-HASH では決定木を使ってハッシュ テーブルを構築する。しかし、最適の基準が分類誤りを最小にしかつ必要なテ ストの数を最小(木の深さを最小)にすることである場合、最適な2分決定木 を得る問題は NP-hard であることが分かっており、ここでは最適ではないが 良い決定木を生成するヒューリスティックなアルゴリズムを使用する。