ホーム > 情報ライブラリー > マーケティング・アナリティクス > データマイニング・ヒッチハイクガイド > 第12回:因子分析(後編)(2)
ここまでで因子負荷量から得られた因子得点が以下の図25 となります。一方で因子得点は、得られた因子負荷量を元に、元々のデータセットと分散/共分散行列に対して逆算を仕掛けていくことによって導かれます。仕組みについては割愛しますが、以下のそれぞれを行列と見立て、行列演算を用いて算出されます。
(データセット)* {(分散/共分散行列の逆行列)*(因子負荷行列)} = 因子得点(の行列)
ここで、最終的に得られたデータとしての因子負荷量と、因子得点を利用して、グラフを作成します。それぞれの顧客(各データサンプル)と、それぞれのミュージシャン(各変数)は、いずれも2つの因子に影響を受けており、縦横の両軸に因子をとって散布図を作成した場合、その影響の度合いによって偏って配置されます。ここからは、人間が因子の意味を判断し、その因子に何かしら名前を付けることになります。
得られたグラフから判断するに、これら顧客の購入数量の背後に存在する因子は、以下の 2つが想定されます。
因子1 -横軸: 音楽的傾向がメロウであるか、ソリッドであるか
ビートルズ、スティービーワンダーは美しいメロディラインが特徴の曲を多く書いており、比較的メロウな音像の印象があります。一方でローリングストーンズは、激しいリズム&ブルースが中心であり、比較的硬質で低音を強調した演奏がその特質となっています。横の軸がもたらしている尺度は、このように彼らの紡ぎだす音の構造に起因していると考えられます。
因子2 -縦軸: 黒人音楽の要素
マイナスが大きければこの要素が強いと想定されます。ローリングストーンズのメンバーは白人ですが、リズム & ブルース、ソウルミュージックのような米国 1950-60年代の黒人音楽に強く傾倒した音楽を演奏しており、ビートルズよりもこの傾向が強いと言えます。また、スティービーワンダーはモータウンレコードの花形であり、黒人音楽の歴史において重要な位置づけを持つ巨人の 1人であり、また言うまでもなく彼の音楽は黒人音楽そのものです。ビートルズと正反対の値をとっていることからも、縦軸 0 のラインがエボニーとアイボリーを音楽的に分けているとみなすことができますが、一方でこの軸が意味している因子の強さは、因子1 に比べて大きくありません。顧客が感じる音楽的な近しさは、音楽的なバックグラウンドでもなく、同じスウィンギン・ロンドンのムーブメントから生まれ出たという歴史的一致でもなく、メロディの美しさを重視するか、反復的なリズムのもたらす興奮を重視するかに依存していることが見て取れます。またプロットされた各顧客を見た場合、彼/彼女の好みも見えてきます。例えば顧客 #102、#103、そして #104 に対するリコメンデーションを考える場合、秀逸なメロディメイカーが創る作品がその候補となることでしょう。
元々この分析に利用したデータセット(標準化されたもの:図20)において、顧客 #101 の x1 に対する変数は、-1.43 でした。この値は因子得点と因子負荷量、そして独自因子(誤差)によって以下のように算出されます。また、-1.43 と得られた -1.41855 の差分が独自因子ということになります。
-1.43 = 因子得点(顧客#101、因子1) * 因子負荷量(x1、因子1) + 因子得点(顧客#101、因子2) * 因子負荷量(x1、因子2) + 独自因子
= (-1.2335) * (0.8652) + (0.7086) * (-0.4957) + 独自因子
= -1.41855... + 独自因子
主成分分析の目的は、与えられたデータセットを全て用いて、その変数群を合成して代表できる変数を作成することでした。これに対して、因子分析では独自因子が存在していることを前提に、この要素を省いた形で背後に存在する、原因となっている因子を発見することが目的となります。因子分析の結果は「変数の背後に存在する原因」であり、主成分分析の結果は「変数から導き出された結果」であるというアプローチの違いがあります。また独自因子という誤差を想定するのか、それともそこにあるデータを全て利用するのかという違いが存在します。
一方で、固有値/固有ベクトルを利用して因子、もしくは主成分を導き出すテクニックは共通しており、手法としての近似性、同一部分があるのも事実です。
(2007年11月5日掲載)