ホーム > ライブラリー > Teradata Insight > HAL9000への漸近線 > 第3回: ADWコンセプト: 能動的なデータウェアハウス

HAL9000への漸近線
- データウェアハウスを顧客管理プロセスに適用する

山本 泰史
マーケティング統括部
マーケティング部 スペシャリスト

第3回: ADWコンセプト: 能動的なデータウェアハウス

前回は、HAL9000 から抽出した 6つの要件のうち、最初の 1つである「包括的なデータセットを集め、保管する」を、Teradata 及び EDWコンセプトが充足することを解説しました。続いて、残りの 5つの要件である、「定型的な情報提供」、「非定型的な問い合わせ」、「モデリング/スコアリング」、「自動連携」、「イベントトリガー」という観点から対比を試みます。図3 は、Teradata が掲げる ADW : Active Data Warehouse の全体観です。一番上のレイヤーに存在する、5つの機能セット(知識の析出と活用の支援)は、多少ワーディングが異なりますが前述の 5つの要件に対応します(定型的な情報提供→レポーティング、非定型的な問い合わせ→非定型分析、自動連携→業務系システムへの連携)。ここでは、これらの分析機能をどのように支援していくかについて触れていきます。

機能セット間の関係性

それぞれの機能セットについては連載の第1回で前述したため、割愛しますが、ここではまず各機能セット間の関係性、そしてこれらが単一のプラットフォーム(Teradata)に統合されなければならない理由について説明します。

1.「レポーティング」対「非定型分析」
定型的なレポーティングと非定型分析は、利用者がデータを活用していく意味において相互補完の関係にあります。ルーティン、もしくは日常業務の一環として定期的にデータを確認することが必要なケースは多いかと思います。このようなニーズであれば、見るべき情報の形式(レポートフォーマット)を規定しておき、ボタン 1つで閲覧できればこのプロセスを簡略化できます。さらに関連指標を一覧できるダッシュボードであればさらに視認性が高まることでしょう。しかしながらこのようなデータ活用の目的は結果の確認であり、既に起こった過去についてのレポートです。ここから学び、将来に活かすためには原因を追究しなければなりません。また突発的な状況を確認するためにも、非定型分析は必要となります。自分の見たい切り口で指標と属性を選択し、問い合わせを実施することによってさらに必要なデータにアクセスし、原因が何であるかを判断することが可能となります。原因が何であるかを掴めれば、少なくとも同じミスをしなくなり、将来の業務に役立てることが可能となります。このような形で定型レポーティングが支援できない分野を非定型分析が支援できます。一方で非定型分析から得られた新たなデータの見方(レポートフォーマット)は、定型化して継続的に確認していく方が良い場合もあるかもしれません。このようなケースを鑑みた場合、定型レポーティングと非定型分析が同居する環境を用意することによって、相互補完が容易となります。

2.「モデリング/スコアリング」対「レポーティング/非定型分析」
モデリング/スコアリングの機能セットでは、スコアがアウトプットされます。例えば顧客毎の離反確率や将来想定収益等は、スコアリングによって得られる指標の典型例です。このデータを直接的にキャンペーン管理ツールで利用し、マーケティングキャンペーンの精度を高めることも可能ですが、これらのデータをデータウェアハウスに蓄積し、レポーティングや非定型分析の指標として利用できれば、レポーティング内容の充実を図ることが出来ます。また、スコアリング結果は、大きく分類スコア、予測スコア(発生確率スコア)に分けられます。分類スコアはデータの見晴らしを良くするのに役立てることが可能であり、予測スコアは未来について記述したデータです。例えば過去から現在に至る販売トレンドだけでなく、その将来にわたるトレンドも見通すことができるレポートであれば、レポートがもたらす価値は増大し、実施すべきこと(この例であれば在庫補充や価格調整など)が明確になります。つまりモデリング/スコアリングは、レポーティング/非定型分析を強化することが出来るのです。

3.「モデリング/スコアリング」対「業務システムへの連携/イベントトリガー」
モデリング/スコアリングの結果は、レポーティング/非定型分析という形で人間の目に入れるだけでなく、そのスコアを利用して、他の業務系システムに対する何かしらの行動を指示することも、単一のデータではなく、複数のデータを組み合わせた結果「こりゃ大変だ!」と判断し、関連する利用者にアラート通知させることも可能です。例えば離反確率がスコアとして析出され、その結果をコールセンターに伝える、もしくはマーケティング担当者に伝えるということを考えます。離反確率は素データではなく、スコアとして算出されるデータです。それは単純なデータのアップデートではなく、例えば「この一ヶ月間全くご来店いただけていない」といった「データが発生していないこと」が離反確率を高めている要素かもしれません。また、この離反確率が 0.x 以上になった顧客の情報は自動的にコールセンターシステムに廻し、フォローアップの電話をかけさせることも考えられますし、0.x 以上になった顧客の数が先月の平均を上回った場合には、その数をマーケティング担当者に通知することも考えられます。このように、構築したモデルを SQL化し、データウェアハウス上に実装することによって、入ってきた比較的鮮度の高いデータと、長期間にわたる履歴のデータを全て用いたスコアリングが可能となります。また、スコアアウト後のルールも事前定義しておくことによって、他のシステムへの自動的な実行指示も例外通知も、より複雑かつ洗練された形で実行できるようになります。

4.「イベントトリガー」対「レポーティング」
イベントトリガーを実施して利用者に異常値や例外事象の発生を通知する場合、それはどのような形式になるでしょうか。利用者はおそらく、関連する情報も合わせて把握したいと考えることでしょう。またその例外事象の種類によって関連する情報の意味合いも変わってくることでしょう。例えばある商品の売上が異常にスパイクした場合、各店の在庫状況を通知して欲しいかもしれません。在庫レベルが一定以下になったことを通知してきたときには、発注済の商品数がどの程度か、物流センターから各店に引当可能な在庫はどの程度存在するか知りたいかもしれません。イベントトリガーにレポーティング機能を括りつけ、合わせて提供することによって、単に異常を通知する機能から、その異常に基づいて、とるべき行動を包括的に支援してくれる機能へと化けさせることが可能となるのです。

これらの理由から、それぞれの機能セットが統合されたデータ環境下に存在することのメリットが見えてきます。また反対に、このような機能セットがそれぞれ別々のデータ環境下に存在することを考えた場合、それぞれのデータ環境は重複したデータを保持しなければなりません。これはデータ移動の処理を複雑にし、またデータの一元性を損なってしまうことになります。

ADW 実現のためのテクノロジー

包括的なデータ環境を用意し、その環境下で 5つの機能要件を満たすには、幾つかの前提条件が存在します。これに対応する Teradata の機能を以降で簡単にご紹介します。これは図3 における真ん中のレイヤー(分析/活用環境の支援)に相当します。

1.データの抽出/変換/ロードと継続フィード
Teradata では、並列処理のパフォーマンスを最大限に活かしてデータローディングをこなすユーティリティが提供されます。また継続フィードと呼ばれる、少量のデータをリアルタイムに近い形で Teradata に注入していくためのユーティリティも用意されています。これにより、パフォーマンス要件と時間的な要件を考慮したデータの蓄積が可能となります。業務システムへの連携やイベントトリガーだけでなく、レポーティングや非定型分析、リアルタイムでのスコアリングを行なう際にも、このようなデータローディング能力が不可欠です。

2.ストアドプロシージャー、キューテーブル
この機能は主にイベントトリガー、そして他の処理への自動連携を実現するために利用されます。テーブルもしくはデータの変化を検知し、後続するルールを実行する機能です。

3.サービス指向アーキテクチャ
例えば OLTPシステムや基幹業務システム、チャネル系システム等、他のシステムと連携する際にはサービス指向アーキテクチャの考え方にフィットする形でシステム連携が可能です。

4.混合ワークロード支援
前述している 5つの機能セットは、それぞれが同時に実行される可能性があります。例えば 1,000名の利用者がレポーティングを利用し、50名の利用者が非定型分析を実行し、その裏ではデータが毎数分おきにロードされ、ロードされたデータを中心にイベント検知のロジックが 150本流れ、検知されたイベントや自動化ロジックに基づいて他の利用者や他のシステムに対して通知や実行指示が配信される... このような環境が混合ワークロードの環境です。ある意味では HAL9000 よりも遥かに忙しい環境であると言えるでしょう。Teradata はこのような環境を支援するために、動的にそれぞれのワークロードに対して優先順位付けを行い、コンピューター資源の割当を実施する機能を提供しています。これによって、業務上の重要度や時間帯等に基づいた利用者へのサービスが可能となります。ただし、もちろんこれは限られた資源を最大限有効に活用するための施策であり、本来求めるパフォーマンスキャパシティが現状より大きい場合には、単に Teradataシステムを拡張することによって対処することが可能です。そしてその際、データモデルには一切変更を加える必要がありません。これはチューンナップやサービス制限のような無理をするよりも、よほど確実な投資と言えます。

5.戦術クエリーサポート
Teradataデータベースには充実した索引(インデックス)機能が装備されており、複雑なジョイン処理を含む検索のみならず、単純で少量のデータを見に行くような質問(これを戦術クエリーと呼んでいます)に対しても高いパフォーマンスを提供することが可能です。したがって専門的な分析をする利用者だけではなく、営業やフィールドサービス担当者、店舗や支店、場合によっては取引パートナーや顧客など、広範な利用者層をカバーすることが可能です。

6.二重化/レプリケーション
前述してきた 5つの機能セットを同時に実行し、利用者や他のシステムに対するサービスを提供していくとき、Teradata の重要性は益々増加していきます。二重化/レプリケーション機能により、Teradata の可用度を増加させ、業務継続を強化することが可能となります。

以上、包括的かつ単一のデータ環境の下で 5つの機能セットを用意してサービスを行なうメリット、そしてそれを支援するテクノロジー 6点について説明しました。HAL9000 のフレンドリーさ、そして自我の存在を意識し、自己防衛をも実行できる能力には遥かに及びませんが、企業という木星探査船を委ねるのに充分なテクノロジーとして Teradata を認識頂き、それを実現するためのマシンコンセプトとして EDW/ADW が適切であるとご理解頂ければ幸いです。

続いて、次回以降、この EDW/ADW のコンセプトに対して、顧客管理という具体的なビジネスプロセスを例にとり、適用を考察していきます。

ページの先頭に戻る