ホーム > ライブラリー > Teradata Insight > データマイニング・ヒッチハイクガイド > 第16回:アソシエーション分析(後編)

マーケターのための
データマイニング・ヒッチハイクガイド

山本 泰史
マーケティング統括部
マーケティング部 スペシャリスト

第16回:アソシエーション分析(後編)

前回の連載で、アソシエーション分析の概要についてご紹介しました。前回に引き続きアソシエーション分析を取りあげ、この分析手法の適用例について考察します。

ルールの評価

確信度と改善度は、アソシエーション分析で得られたルールを考察する上で、2つの視点を与えてくれます。確信度は、純粋な発生確率を理解することを可能にしてくれますが、本質的な結びつきが強いルールであるかは説明していません。改善度を合わせて利用することによって、そのルールが本質的な関連性を意味しているかどうかを見分けることが可能となります。一方で、改善度だけを見た場合にもそのルールの本質的な関連性を見誤る可能性があります。改善度 100 のルールが存在したとしましょう。改善度の基準値は 1 ですから、一見かなりの結びつきの強さを思わせる値です。しかしながらこれを分解したところ、[確信度] = 0.000001、[結論部の支持度] = 0.00000001 であり、この 2つの値を利用して改善度を算出したことによって [改善度] = 100 が得られたとしたら、このルールは有意と言えるでしょうか。現実の例にあてはめれば、「3年に 1度売れるか売れないかの結論部商品がたまたま売れた。そのとき一緒に購入されたのが条件部商品だった」といったところです。このルールは信頼に足るものでしょうか。それとも偶然の産物でしょうか。

得られたルールを正しく評価するためには、このような偶然と思われるルールを足切りし、正しいルールを適用する他ありません。あるアイテムの発生頻度があまりに多すぎる場合と、あまりに少なすぎる場合に露見してしまう改善度の弱点を回避し、適切にルールを発見する必要があります。例えば改善度 < 1.0 を無視すると共に、結論部アイテムの発生総数 > 100 などのような形で絞り込むことによって、本来求めたいルールを見出すことが可能となります。ただし、上述の絞り込み条件は分析ケースごとに微調整を加える必要があります。多くのケースにおいて改善度 = 1.x は凡庸なものであり、膨大に存在します。この場合改善度のハードルを上げて(例えば改善度 > 10.0)ルールを識別することが必要になりますし、結論部アイテムの発生総数は、バスケット数全体とのバランスや、安定した結果が得られる絶対値(例えば 10 以上等)を考慮して決定し、足切りをしなければなりません。そして現実にはさらに既知のルールや、説明不能なルールも排除(無視)することによって、本来発見したかった未知のルールにたどり着くことになります(もちろん欲しいルールが見つからないケースもあります)。

一方で別な観点として、無条件に足切りしてはいけない場合もあります。もし、実施したいと思っているマーケティング活動のテーマが、「スーパーニッチなコンビネーション」やそのコンビネーションを生成させた「スーパーニッチなセグメント」の発見にあり、当該セグメントが自社のビジネスにおいて収益採算に見合うのであれば、偶然と思われる中にあるルールこそ探しているものです。例えばオンライン CD 販売サイトの場合、売場スペースは無限にあり、1枚の CD を追加で陳列するコストは限りなく低く済みます。メジャーセグメントを理解するコストも、スーパーニッチセグメントを理解するコストもさしたる差はありません。そしてこれらの顧客における 1人あたりの収益貢献度は、それぞれのセグメントが購入する CD の販売パフォーマンスと正比例の関係にありません。逆にスーパーニッチの方のほうがヘビーリスナーかもしれませんし、街の CDショップに陳列してない CD を探す顧客という意味においては、欲求の度合いが高い顧客かもしれません。街の CDショップが新譜やメジャーなミュージシャンの作品に重心を置く理由は売場の販売効率です。しかしながら、そのような販売効率の足かせが存在しないビジネス形態であれば、どちらのセグメントも等しく考えることが可能になります。そのとき、改善度の持つ指標特性がまさに「それを指し示してくれる道標(みちしるべ)」になるのです。

指標の変化を捉える

ルールに関する指標は、異なるデータに対してアソシエーション分析を行なえば、当然ながら結果が変化します。従って、どのように母集団を定義するかが重要になります。また、異なるデータに対してこの分析手法を実施することによって、得られる変化を積極的に活用することも 1つの適用方法です。以下は、アソシエーション分析を適用して得られた結果から「真っ赤な、大き目の革製トートバック」に対するルールだけをピックアップしたものです。しかしながら対象となるデータセットは 2つに分けています。左側は 4月から 9月の「春夏」データ、そして右側は 10月から 3月の「秋冬」データです。「真っ赤な、大き目の革製トートバック」を肩にかけた人を頭に思い浮かべて頂きたいのですが、かなりインパクトのある商品であり、一緒に着用する洋服、特にその色合いにはかなり気を使うはずです。シックに抑える顧客かもしれませんし、もしくは正反対の、余程バサラな色彩感覚を持ち合わせている顧客かもしれません。そこで、ここでは結論部の商品を「色」でグルーピングしています。

図43.2つのデータから得られた指標の比較

結果を見ると、購入はモノトーンと茶系の色に集中していることが伺えます。しかしながら春夏と秋冬では、色合いの濃さに違いが見られるようです。また、改善度を見ると黒、グレーはどちらを見ても高い値にあり、本来の結びつきが強いのは、この 2色であることが想定されます。もっとも、今我々は、「真っ赤な、大き目の革製トートバック」を基準に物事を把握しようとしていますが、この商品を購入した顧客心理としては「普段から購入する商品はどうしてもモノトーンが多い。だからアクセントをつけるために真っ赤なバッグが必要!」だったのかもしれません。

そしてもう 1つ着目すべき点は、支持度合いです。このバッグの購入顧客の組み合わせ購入の支持度合いは春夏と秋冬で倍の違いを示しています。そしてこの結果は確信度にも表れています。元々色を基準にしているため、確信度そのものはおしなべて高い値です。しかしながらこれらの顧客は、より秋冬物の方に食指が動くことが見て取れます。これが正しいとすれば、これらの顧客に対して検討すべき次の商品オファー、案内クリエイティブに用いる商品イメージ写真、重点的に案内をするタイミング等はより明確になるはずです。

この例は、あくまで分かりやすい結果が得られるように作成したデータですが、複数のデータに対してアソシエーション分析を適用することによって得られる変化は、この例以外にも更なる理解を我々に与えてくれます。例えば関連購買を誘発するような陳列をする前と後にデータを分ければ、その効果を見ることが出来ます。店舗 A と店舗 B のデータに分ければ、商圏毎の顧客嗜好の違いが映し出されるかもしれません。もしくは単純な店舗運営や陳列の巧拙がそこに表出するかも知れません。例えば「パスタ」と「パスタソース」、「ワイン」と「チーズ」といったルールは、驚くようなルールではありません。別段データマイニングを利用しなくとも思いつくルールです。普通に考えれば強い結びつきが得られるはずですが、実際は陳列やチラシの訴求方法に差があれば、この値には差が出ます。これはつまり、その店舗の来店客あたりの買上点数に差が出ることを意味し、そしてそれはそのままその店舗の販売力を意味します。昨今のように人口が伸び悩み、オーバーストア化していくとき、「顧客が 1回来店してくれること」の価値は今まで以上に希少になってきます。この数少ないチャンスに「もう 1品」買って頂けるかどうかは、非常に重要なテーマであるはずです。そして、アソシエーション分析に限らずデータマイニングのテーマは、必ずしも「センセーショナルで、突飛な」ルールを発見することではありません。得られたルールを用いて日常業務を、顧客へのアプローチを改善することにあるのです。

アイテム化に関する考察

ここまで「膝丈のロングニットカーディガン」や「真っ赤な、大き目の革製トートバック」といった、いかにもという商品をアイテムの例として用意しましたが、アイテムは、「何らかの事象が発生したこと」として捉えることが可能です。ここではその例を幾つか見ていきます。

複数の商品を集約する - どのようなルールを導き出したいのかにもよりますが、いわゆる単一の商品に限る必要はありません。特定ブランドのシャンプーに関するルールを導き出したい場合もあれば、シャンプーというカテゴリーそのものに対するルールを導き出したい場合もあると思います。必要なレベルに商品を集約することによって、このような作業を行なうことが可能です。また条件部アイテムと結論部アイテムのレベルが異なっても構いません。例えばネイビーブルーの紳士スーツ(ブランド、サイズ、スタイルは問わないため、集約)に対して関連性が強い商品を単品(例: ポールスチュアートのドレスシャツ、白地にピンストライプの青)で導き出すことが可能です。

複数商品のコンビネーション - また、商品 A と商品 B を一緒に購入したという条件に対するルールを導き出すことも可能です。ここまでで説明してきた例では、簡略化のため条件部アイテム、結論部アイテムともに 1つの商品を想定してきましたが、それぞれが複数の商品の組み合わせでも構いません。また商品 A を購入したが商品 B を購入しないという条件に対するルールを導き出すことも可能です。つまりは、あるコンビネーションを 1つのアイテムとして捉えることによって、それを条件部(あるいは結論部)にまとめいれることが可能となります。例を挙げると、IF 豚挽き肉 AND 絹ごし豆腐 THEN テンメンジャン (IF A and B THEN C)、IF 豚挽き肉 AND NOT ナス THEN 絹ごし豆腐(IF A and not B THEN C)といったところでしょうか。もともとアソシエーション分析の意味は、複数事象のコンビネーションが発生する頻度の強さ、弱さを理解することにあり、これを顧客マーケティングの観点で捉えた場合、顧客の背後に存在する生活の有様を捉えることにあります。単一の事象そのものは、言わば点です。しかしながら複数の事象をつなげることにより、線になり、面となります。豚挽き肉の購入、絹ごし豆腐の購入、テンメンジャンの購入はそれぞれ点ですが、それぞれをつなげることにより、夕食のテーブルに並ぶ麻婆豆腐が「面」として浮かび上がってくることになります。その意味においてこのような商品ではないアイテムをアイテム化し、ルールに組み入れることができれば、顧客の背後に存在する生活を記述するのにより適したルールが構築可能となります。

商品ではないアイテム - アイテムには商品以外の事象を含めることが可能です。例えば、女性が購入(顧客のデモグラフィック属性)、海岸沿いの店舗で購入(購買チャネル)、夏の暑い日に(購入タイミング)、商品紹介ページを閲覧、コールセンターからなされたアウトバウンドコール(コンタクトチャネル)、...このような事象と商品を組み合わせることによって、ルールが記述する条件部、結論部に幅が生まれることになります。

時系列化されたアイテム - ある銀行が、結婚(口座名義変更)、子供の成長(教育/進学ローン)、マイホーム購入(住宅ローン)といった生活ステージイベントの全てに関われるとしたとき、マイホーム購入はどのような順番で表れる確率が高いでしょうか。また、それは年収や口座預金額のような変数で分けた場合に違いが表れるでしょうか。このようにそれぞれのイベントにはシーケンスが存在する場合があります。

アソシエーション分析において、条件部、もしくは結論部内に存在する複数のアイテムには、順序を設定することが可能です。例えば個人の普通預金口座を考え、結論部に口座「閉」設を置くとしましょう。つまり離反済みの顧客を含めて分析の対象とするのです。このデータに対してそれぞれの口座操作をアイテム化し、どのような順番の発生頻度が高いかを見ることは、離反の兆候を見る上で有意義であることでしょう。またこの兆候が見られる顧客には早急に何らかの手当てをする必要があります。例えば IF 1. [3ヶ月の預入無し]、2. [自動引き落とし終了(電気 or 水道 or ガス)]、3. [残高照会]、4. [預金残高の 95% 以上引出] THEN [口座閉設] となるかもしれません。このような順序は、あらゆる業界における顧客の時系列行動に当てはめることが出来ます。

またオンラインストアのバスケットであれば、バスケットに投入された商品の順番も情報として蓄積されるため、単一バスケット内の順序も検討のテーマになります。来店を牽引した商品はおそらく最初にバスケットに含まれることでしょうし、来店してから購入することに決めた商品はバスケットに後から含まれることになるでしょう。オンラインストアが商品をプッシュする際に、ホームページやメールマガジン、そしてバナー広告等、サイトの外側でプッシュするべき商品と、サイト内でリコメンデーション等を駆使してプッシュすべき商品を理解することに活用することも出来るかもしれません。一方で物理店舗のように、精算時の会計登録順と、バスケットへの商品投入順が一致しない場合にはこれを考慮できませんが、例えば百貨店において、最初に購入したブランドショップ、その次に購入したブランドショップといった形で考慮することは可能です。百貨店で買物をする際の精算はそのショップ毎に行なわれるため、一度来店して複数のショップで購入すれば、レシートは複数枚になります。レシートに付与されたタイムスタンプからシーケンスを得て、各ブランドを商品(アイテム)と考えれば、来店の動機となったと想定される最初に立ち寄った牽引ブランドを理解することも可能となりますし、その後の買い廻りパターンも理解できるようになります。

ページの先頭に戻る