ホーム > ライブラリー > マーケティング・アナリティクス > データマイニング・ヒッチハイクガイド > 第14回:決定木(2)

マーケターのための
データマイニング・ヒッチハイクガイド

エントロピー(C4.5)

エントロピーという言葉は元々、物理学において用いられていた言葉であり、一般には熱や物質の拡散を表す指標として用いられているものです。一方で情報科学分野では、情報「量」を測るための重要概念としてエントロピーが定義付けられています。ここで説明するのは後者となりますが、両者間に学問的な共通性はないようです(単なる筆者の無学かもしれませんが)。エントロピーとジニ係数で大きく違う点は、必ずしも分岐が 2つに限らないという点です。この例では、各変数が 2値しかとらないため、分岐は 2 と変わりませんが、変数のとる値が例えば 3つや 5つになるとき、それを加味して適切な分岐を作成してくれることになります。一方でこのような分岐の場合、構造は複雑になり、横に広がることになります。

エントロピーの大きな流れはジニ係数で紹介したプロセスと同じですが、ここでジニ係数の代わりに用いられる指標は情報量と呼ばれる指標です。例えば、コインの表裏のような 1/2 の確率で発生する事象において、コインを投げた結果がわかるとき、その情報量は 1 と表現されます。また、52枚のトランプからハートを引く確率は 1/4(=13/52)ですが、この場合の情報量は 2 となります。また、コインが表裏のいずれかになる確率は 1(=2/2)ですが、この場合の情報量は 0 となります。ここで確率として表現したことは、得られる結果によって減少する不確実さを意味します。そしてこの 2つの間には、上記のような関係が存在し、この情報量の差が分類における判断基準となります。そして、情報量と減少する不確実さ(=確率)の関係は、対数(log)で説明されます(情報量 = -log2 確率)。

図37. 確率と情報量の関係

確率が 0 に漸近するにつれて、情報量は無限に大きな値(∞)をとりますが、対数関数のグラフなので 0 へは行き着きません。

以下の図38 では、ジニ係数と同じデータセット(図35)を利用した場合の情報量を算出し、さらにジニ係数の計算同様、加重平均(平均情報量、これをエントロピーと呼びます)を算出しています。また、分岐に用いる判断としては、分岐前のノードと、分岐後のノードの情報量の差(情報利得: Information Gain)をとり、この値の大きい分類を採用しています。ジニ係数と比較した場合、ノード #0 のジニ係数が 0.5 に限りなく近い値を算出していたのに対して、情報量では 1 に限りなく近い(確率でいうところの 0.5 に近い)値を算出しているのがお分かりいただけると思います。

情報量は、-(発生確率)*log2(発生確率) -(非発生確率)*log2(非発生確率)で算出されます。ノード#0 における計算では、-(5/11)*log2(5/11) -(6/11)*log2(6/11) = 0.994 となります。

図38. エントロピーによる計算過程

ルールの構築

計算過程は、これ以上の分岐が出来なくなるまで続けることが可能ですが、ある一定の分岐回数や、ジニ係数/情報量等に対するトラップを設定して、トラップを下回った段階で計算を終了させることも可能です。また、ルール構築においてもこのトラップを利用します。仮に情報量に対してトラップを設定し、トラップを 0.8 であるとすると、上述した図38 では、ノード #1 の R(借家)は分岐が 0.8 を下回り(0.722)、分岐が終了します。従って、その下で構築されるはずのノード #2 の R-F と R-M は計算されません。一方でノード #1 の O(持家)に関しては分岐が続けられ、これがノード #2 の O-F と O-M になります。O-F に関しては完全な純粋に近い形で分岐が終了します(0.000...)。一方で O-M に関しては相変わらず不純なまま(1.000)ですが、もはや他には分岐に利用できる変数は存在しないため、これで完了です。以上の結果を用いた場合、構築されるルールは以下の図39 のようになります。O-M における購入有/無の比率は 2:2 であり、確率的には 0.5 あるのですが、ここでは「購入無し」と判定されます。O-F との比較で判断がなされるからです。

図39. 構築されたルール

以上のデータから判断するに、「持家-女性顧客の方が住宅ローンを購入する(可能性が高い)」という、若干不思議なルールが導き出されますが、最初に用意したデータセットが意図的に作成したものであるため、直感的理解とは合致しなくとも構いません。持家の女性が 2名しかおらず、この 2名がたまたま住宅ローンを購入した結果は極めて純度の高いものであり、決定木はこの結果を高く評価しています。また、確率上では持家顧客の購入確率が 4/6 であり、借家顧客の非購入確率は 4/5 となっており、住居区分を最初に分岐としたという判断も納得がいくものです。

ページの先頭に戻る