ホーム > 情報ライブラリー > Teradata コラム > Insider's Warehouse 「アクティブ・データウェアハウスに至る5段階の進化」(1)
by Stephen Brobst & Joe
Rarey
データウェアハウジングの利用形態は、進化の過程を辿っていきます。最大の成功を収めたデータウェアハウス導入事例では、ビジネス価値が繰り返し、かつ継続的に提供されています。
進化の段階を踏むごとに、提供される情報のビジネス価値が増大し、より効果的な意思決定の支援が図られます。最近では、データウェアハウジングの進化が新たな頂点に達しつつあり、企業全体に及んでいます。さらに、従来の垣根を越え、パートナーや顧客にまで及ぶ意思決定支援体制が展開されています。
初期のデータウェアハウジングは、もっぱら企業内の “象牙の塔” にいるナレッジワーカーへの戦略的意思決定能力の提供にフォーカスしていました。データウェアハウスのエンドユーザーは、今までマーケティング、経営企画、財務といった部門でした。情報の活用がこれらエンドユーザーの意思決定能力を劇的に高めました。しかし、優れた経営企画の立案は今日の熾烈な競争に勝ち抜くために必要な要素の一つにすぎません。いくら立派な戦略を立案しても、成功裏に終わらなければ無意味です。
先進的なデータウェアハウスでは、ビジネス戦略の立案に加え、その実践方法も改善します。
データウェアハウスのアーキテクチャに対するサービスレベルの要求もますます多様化しています。ここでは、企業における意思決定支援の進化の過程で見られる 5段階のデータウェアハウジングの利用形態について解説します。
企業内の一元化されたデータソースからのレポーティングが中心になります。
データウェアハウジングは、組織内の部門を越えた意思決定を全社的に推し進めるために、企業内の分散した情報ソースを 1つのリポジトリーに統合します。
ほとんどの場合、レポーティング環境での問合せ事項は事前にわかっているため、クエリーが大量データへのアクセスを必要とする場合でも、良好なパフォーマンスが得られるようにデータベースの構造を最適化しておくことができます。
第1段階における最大の課題は、データの統合です。整合性があり、クレンジングされたデータでリポジトリーを構築することは、非常に大変なことです。レガシー・コンピューティング環境には何百ものデータソースが存在することがよくあり、これらのデータソースの一つ一つが独自の領域でビジネス価値を提供し、構築時の技術的背景を持っています。しかし、意思決定者のために完全に統合された情報を整備することは、これ以降のデータウェアハウス展開の全段階の基礎となります。
意思決定者は発生した事象(何が起きたのか)より、発生理由(なぜ起きたのか)に注目します。分析する際は、レポートに表れた数値をドリルダウンし、詳細レベルのデータを多角的に検証します。重要な役割として、アドホック(非定型)クエリーの処理があります。データベースに対する問合せ事項は事前に定義されていません。クエリーの内容は単なるレポーティングだけを行う環境の場合と違って予測できないので、良好なパフォーマンスを保つために RDBMS の高性能なオプティマイザー機能への依存度が強まります。
さらに、情報リポジトリーの対話型利用が大幅に増えるため、パフォーマンスの重要性が大きく高まります。たいていの場合、レポーティングは規則的なスケジュールで行われますが、非定型の分析は基本的に手作業で、双方向的な環境下で問い合わせを反復的に行い、絞り込んでいきます。ビジネスユーザーは、GUI ツールを使用してデータウェアハウスに直接アクセスする必要があります。第2段階の代表的な構築内容は、データウェアハウスでの多数のユーザーによるクエリーの同時実行に対するサポートとなります。
しかし、ビジネスユーザーは非常に忙しい場合が多く、秒単位のレスポンスタイムや、OLAP(オンライン分析処理)環境でのドリルダウンでは数分程度のレスポンスタイムを求めます。インデックスや高度なジョイン手法を駆使して効率的なアクセス経路を決定するデータベースのオプティマイザー機能は、許容範囲内のレスポンスタイムで柔軟に情報へアクセスするために極めて重要な役目を果たします。
企業内で定量的な意思決定手法が定着し、ビジネスの現場で発生した事象と発生理由を把握でき、それらの情報から価値を得ることができるようになれば、次は予測(何が起きるのか)を目的として情報を活用することになります。
自社のビジネスで次に何が起こるかがわかれば、プロアクティブな事業戦略を行う場合に非常に役立ちます。
この第3段階では、詳細な履歴データを利用して予測モデルを作り上げるため、データマイニング・ツールが必要になってきます。
予測モデルを構築する時に高度な分析手法を実際に使うエンドユーザーはあまり多くはありません。しかし、モデル構築とスコアリングに要する作業負荷は非常に高くなります。高度なデータマイニング手法では、目的とする予測特性を得るために、詳細データへのアクセスが不可欠です。企業でデータマイニングを担当するエンドユーザーは、少数の熟達した分析担当者である場合が多いのですが、キャパシティ・プランニングの観点からは注意が必要です。
この少数のエンドユーザーが、ピーク時にはデータウェアハウス用プラットフォームのマシンサイクルの 50%以上を消費することがよくあります。これは、通常のデータマイニング環境で取り扱う複雑なデータアクセスとデータ量が原因です。
Copyright (C) Teradata Magazine - Spring 2001