ホーム > ライブラリー > マーケティング・アナリティクス > データマイニング・ヒッチハイクガイド > 第15回:アソシエーション分析(前編)

マーケターのための
データマイニング・ヒッチハイクガイド

山本 泰史
マーケティング統括部
マーケティング部 スペシャリスト

第15回:アソシエーション分析(前編)

アソシエーション分析は、マーケットバスケット分析とも呼ばれ、小売店の買い物カゴに一緒に放りこまれた商品の組み合わせを理解することから名前がつきました。しかしながら同じ考え方を利用すれば、クレジットカードの利用場所、通信や金融サービスの各商品間の購買相関にも適用することが可能な手法であり、購買にこだわらずに顧客の行動イベント(例えば Webサイトの商品閲覧)とその他の行動イベント(商品購入)の相関を導き出すことを可能とする分析手法です。アウトプットとしては決定木同様 IF THEN形式のルールを析出しますが、決定木と異なる点は、それぞれのルールが独立していて、またこのルールに対して幾つかの指標を提供し、この指標に基づいてルールを評価することが可能となっている点です。また、このルールは組み合わせの数だけ存在するため、非常にコンピューター資源を多用する手法でもあります。

アソシエーション分析にて用いられるデータセットは、図40 のようなイメージになります。小売店の買い物カゴになぞらえるのであれば、このデータの元となるのはレシート明細データです。ここで [商品番号] として捉えられている変数は、「アイテム」と呼ばれ、発生事象を意味します。従って必ずしも購買という発生事象にとらわれる必要はなく、ATM端末の操作や、Webサイトへのアクセス、はたまた 30歳代といった事象もアイテムとして捉えられます。例えば、ある百貨店で何を購入したかではなく、どのテナントで購入したかという事象もここに含めることが可能です。

図40.データセット

続いて、[バスケット番号] として捉えている変数部分は「コンビネーション」を意味します。同じバスケットに放り込まれた、つまり同じレシートに記載された右側の商品番号は、同じコンビネーションであると解釈されます。#1001 のバスケットに商品 #19332、#19345、#19233 が含まれていたということを示しています。同じような概念で、ある顧客をグルーピングすることも可能です。この場合は、ある顧客の顧客番号がバスケット番号の代わりに用意され、単一顧客の発生事象、つまりアイテムが左端のデータとして用意されなければなりません。上述の百貨店テナントの例であれば、顧客 + 日付で変数を作成すれば、ある 1日の単一顧客行動を括ることが可能となります。

最後に、[購入順] として用意されている変数は、「シーケンス」として捉えられます。この変数を用意するかどうかはオプションです。追って詳しい説明を加えますが、このデータを利用することによって発生事象を時系列順で理解することが可能となります。上述の百貨店テナントの例であれば、顧客が店内各テナントで買物をした順番をデータセットに取り込むことが可能であることを意味しています。

このデータセットは、今までの分析手法で利用しているものと若干異なります。今までに利用してきた分析手法でのデータセットは、左端に顧客もしくはそれに準ずる対象をリストアップし、それに対する各変数を右側に追加する形態でした。つまり左端の変数で全てのデータサンプルを一意に識別でき、左端の変数値は常に 1回しか発生しませんでした。2回発生することは許容されていなかったのです。これに対してアソシエーション分析では、発生事象そのものが分析の対象となるため、図40 の例における商品番号は何度も重複して表出することになります。そしてこの重複発生度合いを理解することがアソシエーション分析の分析テーマとなるのです。

構築されるルール

アソシエーション分析において構築されるルールは、IF THEN形式で示されます。IF A THEN B で、「もし A が発生したら B が発生する」というルールを言い表しているのですが、ここで A と B に該当するのが、アイテム部分に相当するデータです。上述の図40 では、商品番号に該当します。アソシエーション分析は、全ての商品番号の組み合わせを吟味します。仮に商品番号が、#19332、#19345、#19233 の 3値しか存在しなかったとした場合、検討するルールは以下のようになります。

IF #19332, THEN #19345
IF #19345, THEN #19233
IF #19233, THEN #19332

ここで、IF部分にて指定されるアイテムを「条件部アイテム」と、そして THEN部分にて指定されるアイテムを「結論部アイテム」と呼ぶことが出来ます。ちなみにシーケンスを考慮する場合は、この 3つのルールのそれぞれ条件部と結論部を入れ替えたルールを異なって扱います。シーケンスを考慮しない場合は、どちらが先に発生した事象かを問わず、「一緒に発生した事象」として両方を扱います。

算出の実施

商品番号 #19332 では味気ないため、この商品は「膝丈のロングニットカーディガン」としましょう。合わせてデータの発生源をどこかの百貨店、もしくはアパレルショップの婦人服売場とします。また、1回の来店で洋服を 10着、20着と購入する顧客はそうざらにはいないので、図40 のバスケット番号に相当する変数に「顧客番号」を利用します。これによって 1回の買物における購買パターンではなく、それぞれの顧客のコーディネイトパターンを理解しようと試みます。また、購入シーケンスに関してはここでは無視する(利用しない)こととします。「膝丈のロングニットカーディガン」ということは、膝のあたりまでニット地に包まれることになり、コーディネイトという観点からは、ボトムにどのような衣類を合わせるかが品揃えや接客販売上関心の高いテーマになるかと思います。端的な質問にするならば「うちのお店に来店するお客様は、"膝丈のロングニットカーディガン"にどんな衣類をコーディネイトしていらっしゃるのだろうか?」です。当然ながら、ほとんどの顧客のクローゼットはその店舗で購入された衣類で占有されたものではありません。また、全ての商品が「膝丈のロングニットカーディガン」と組み合わせるために購入された商品でもありません。従ってその完全な姿を得ることは難しいのですが、それでも何らかのヒントは得られるかもしれません。

このテーマに対する解を得るため、データセットを用意してアソシエーション分析を実施した結果が以下の図41 になります。おそらく婦人衣料の売場には膨大な商品が陳列され、販売されているはずですが、便宜的に 5つの商品に関するルールのみを記述しています。また、各商品は単品ではなく、ある程度集約された商品分類でアイテム化しています。つまり「デニムパンツ」は、ブランドA もブランドB も、異なるサイズやカラーも同じ商品として扱っています。当然ながら単品レベルで実施したければそれも可能ですが、ここでは傾向を見たいため、このようにします。

図41.アウトプット

仮に 5つの商品に関するルールを考えた場合、条件部と結論部には 4+3+2+1 = 10通りの組み合わせに相当するルールが表出することになります。アソシエーション分析ではこの全ての組み合わせを検討し、それぞれに対してご覧の 3つの指標値を算出付与します。そして、これらの指標値の算出に用いたのが、図40 のデータを全て吟味し、数え上げて得られた次のようなデータです(図42)。

図42.計算処理

[顧客総数] は、コンビネーションの単位となった顧客の数を意味します。そして [条件部総数] は、条件部に記述されている商品を購入した顧客の総数であり、[結論部総数] も同様です。ルール合致総数は、顧客の中で条件部に記述された商品と、結論部に記述された商品を両方購入した顧客の数を表します。そしてさらにこの計算処理結果を利用して、図41 の最終アウトプットを算出しています。

得られた指標値の見方

図41 で得られた指標値は、図42 の結果を利用して以下のように算出されます。

支持度(Support) : [ルール合致総数] / [顧客総数]にて求められます。全体の母集団の中で、このルールがどの程度発生しているか、つまり支持されているかを意味します。例えば図41、1番上の行を考えた場合、全 10,000名の顧客のうち、300名の顧客が「ロングニットカーディガン」と「デニムパンツ」という組み合わせを支持したということを告げています。この指標は 0 から 1 の値をとり、この値が高ければ高いほど、ここで示されたルールの発生頻度が高く、「よくあること」であるということになります。尚、ここでは分子に [ルール合致総数] を利用していますが、分子を代えることによって、[条件部総数] に対する支持度、[結論部総数] に対する支持度を理解することも可能です。これらの値は一般に「購買率」とも呼ばれます。

確信度(Confidence、信頼性とも) : [ルール合致総数] / [条件部総数]にて求められます。条件部アイテムの発生頻度に対して、条件部アイテムと結論部アイテムの組み合わせが発生した回数の割合を示します。図41 の 1番上のルールを考えた場合、「ロングニットカーディガン」を購入した顧客は 1,000名、その顧客の内「デニムパンツ」も購入した顧客は 300名いたことを意味します。これを分母、分子に置いて計算されたのが 0.3 という確信度です。これは他の確信度と比較すると、相対的に高い組み合わせであることが見て取れ、多くの顧客にとっての「フェイバリット・コーディネイト」であることが想定されます。IF THEN で記述されたルールが、どの程度の確信度を持っているかを意味しており、条件部アイテムが発生した場合、どの程度の確率で結論部アイテムが表出するかを表しています。一般に併買率、関連購買率と呼ばれる指標は、この値のことを意味します。この指標は 0 から 1 の値をとり、この値が高ければ高いほど、このルールで示された 2つのアイテム間に強い関連性が存在することを意味しています。

改善度(Lift) : [確信度] / ([結論部総数] / [顧客総数])で求められます。言い換えれば、[確信度] / [結論部に関する支持度]であり、分子にこのルールの確信度、分母に結論部の支持度を置くことによって、ルールの確信度を評価しています。支持度とは、その事象が「よくあること」、つまりありふれた事象であるかないかを表した指標であると説明しました。もし結論部がありふれた事象であれば、条件部との組み合わせに関してもこの事象の「ありふれた」度合いを考慮して、確信度を小さく見積もる必要があります。図41 の一番上の行では、改善度は 1.0 となっています。これは、確信度 = 0.3 を分子に、結論部総数/顧客総数 = 3,000 / 10,000 = 0.3 を分母に置いて算出されています。結果、分母、分子共に 0.3 となり、0.3 / 0.3 = 1 となります。これは、得られた確信度は、条件部との組み合わせにおいても正しく作用しており、結論部そのものが保持している支持度を基準にした場合と等しいということを意味しています。改善度はいかような値をもとりえますが、改善度の基準値は 1.0 になります。1.0 より高ければ、条件部との組み合わせでは確信度が改善されたことを意味し、逆に 1.0 より低ければ、条件部との組み合わせによって、確信度がマイナスの方向に改善されたことを意味しています。つまり、条件部との組み合わせによって確信度がどれだけスパイクしたかを表しているのが、改善度ということになります。ルールに対して示された確信度は、支持度を基準値として高い、低いという判断がなされるということです。

「ロングニットカーディガン」と「デニムパンツ」、そして「ロングニットカーディガン」と「タイトパンツ」の組み合わせを比較してみましょう。いずれも確信度は 0.3 です。つまり確率的には等しいように思えます。しかしながら改善度を見ると、前者が 1.0、後者が 2.0 となっています。理由は、結論部に記された「デニムパンツ」と「タイトパンツ」の総数に表れています。前者が 3,000、後者が 1,500 です。これは単純に母集団 10,000名のうち、3,000名が「デニムパンツ」を購入、1,500名が「タイトパンツ」を購入したことを意味します。これは「デニムパンツ」がよりメジャーな商品であることを意味し、相対的に「タイトパンツ」がマイナーな(より購入発生頻度が低い)商品であることを意味します。ここから考えると、メジャーな商品とマイナーな商品が同じ確信度を表出させているのだから、マイナーな商品が含まれた組み合わせをより高く評価すべきであるというのは納得がいくものです。ここからは消費者心理に対する類推ですが、「デニムパンツ」の方がより汎用的にコーディネイトされる商品であるため、確信度は高いが、改善度はそれほどでもないのだろうと判断が成り立ちます。言うなれば「無難な、大衆受けする」商品なのです。また、「ロングニットカーディガン」と「デニムパンツ」、そして「ロングニットカーディガン」と「タイトパンツ」では、後者の方が強い結びつきであると言えます。

このような例はスーパーマーケットの特売商品や、売れ筋の商品を想像していただければ分かりやすいはずです。このような商品はどのバスケットにも含まれる割合が高く、本質的な商品間の結びつきというよりも販売の仕方や商品そのものが持つ販売力が支持度を向上させています。ほとんどは条件部アイテムの影響に頼らなくても販売できた商品であるということが、改善度によって示されるのです。

次回は、このアソシエーション分析の適用例について考察します。

ページの先頭に戻る