ホーム > ソリューション > データウェアハウス > データマイニング> Teradata Warehouse Miner
Teradata Warehouse Miner
“In-DBS”データマイニングのパイオニア Teradata Warehouse Miner
大量のデータの中から新しいビジネスルールを発見して経営戦略やマーケティングに役立てたり、将来起こりうる事態を予測して対策を立てるプロアクティブな経営を可能にするデータマイニング。
Teradata Warehouse Minerは、データの前処理から分析モデルの作成、モデルの展開までのデータマイニングの全てのプロセスをTeradataデータベース内(In-DBS)で行います。
データウェアハウスの次のステップ
データウェアハウスは構築したら終りではありません。その先には、膨大なデータに埋もれている価値と知識を見つけ出して最大限に活かす、という次のステップ―データマイニング―があります。データマイニングはパターン認識技術と数理モデル技法を用いて、人やOLAPツールには見えない高収益の達成に向けた経営判断につながるビジネス知識を発見します。
しかし、データマイニングツールの多くは、膨大なデータ量を考慮して設計されたものではありません。対象となるデータがエンタープライズ・レベルの大規模、大容量となるにつれて、処理工程の複雑化、処理時間の増大、マイニング結果の精度低下などの問題が起こります。データ量の増大に伴うスケーラビリティの問題にはどのように対応していけばよいのでしょうか
その問題はTeradata Warehouse Minerで解決できます。
データマイニング処理の工程と時間を大幅に短縮
Teradata Warehouse Minerは、データの前処理から、分析モデルの作成、モデルの展開までの全てのプロセスをTeradataデータベース内(“In-DBS”)で行います。従来、分析モデルを作成、実行するためにはサンプルデータをデータベースから抽出する必要があり、そのデータ量には限りがありました。しかし、Teradata
Warehouse Minerではデータの移動は不要で、Teradataデータベースのスケーラビリティとパフォーマンスを最大限に活用し、その効率を高めることができます。
- データ移動は不要
サンプリング、探索、モデルの構築、およびスコアリングのためのデータ抽出を何度も繰り返す必要はありません。
- 人為的ミスの排除
一元化したデータマイニング・アーキテクチャーにより、複数のプラットフォーム、ツール、およびデータベース間でのデータ抽出に伴うミスを排除できます。
- データ管理の簡素化
上記に示した一元化アーキテクチャーにより、データの冗長性を排除することが可能となり、唯一の正しい情報が得られます。
- Teradataデータベースの並列処理を活用
Teradataデータベース自体が持つ、高い並列処理の性能とスケーラビリティを活かします。
- より精度の高いモデルの構築
大量の明細データを分析することで、精度の高いモデルを作成できます。
- データマイニングのサイクルを短縮
質の高い情報への迅速なアクセスで、不正の発見や顧客離反等の問題にも速やかに対応することできます。
- メタデータを共用
モデルをXMLで表現し、シームレスなコミュニケーションを実現します。
- モデルのエクスポート
モデルを表現したSQLをビジネスアプリケーションへエクスポートし、統合してリアルタイムでの利用を図ります。
Teradata Warehouse Minerの機能
| 記述統計 |
| 度数 |
カラム値またはマルチカラム値の度数を計算 |
| ヒストグラム | カウントを示す数値カラムの分布を決定。オプションのオーバーレイおよび統計が利用可 |
| オーバー
ラップ | テーブルの組み合わせにおいて、オーバーラップするカラム値をカウント |
| 散布図 | 2または3変量間の関係に基づいてデータを図示 |
| 統計分析 | 最小値、最大値、平均値、分散、標準偏差、歪度、尖度、分散係数、パーセンタイル、その他多数の1変量統計を計算 |
| 値分析 | 一定の変量について、NULLでない値、ユニーク値、負値など各種値をカウント |
| データ変換およびデータ・リダクション機能 |
| OLAP | OLAP型の変換を生成:累積和、移動平均、移動差、移動線形回帰、移動和、分位およびランキングカラム |
| 数学関数変換 | 指数、自然対数、常用対数、累乗により、数値変数を生成 |
| 統計関数変換 | シグモイド変換関数またはZスコアにより、数値変数を生成 |
| 三角関数変換 | 三角関数または双曲線関数により、数値変数を生成 |
| 階級コード化 | ヒストグラム階級数をカラムの値に代入 |
| 派生 | ユーザー指定のSQL表現により新規カラムを生成 |
| デザイン・コード化 | 数値を0/1値としてカテゴリー変数を表す新しい変数の組を生成 |
| 再コード化 | n-値カテゴリー変数をnまたはn未満の値に代入 |
| 範囲変換 | 一定範囲内で数値変数を生成 |
| SQLノード | 任意のSQLステートメント |
| データ・リダクション行列 |
各変数について、ペアワイズ組み合わせの相関、共分散、平方和積和
(SSCP)および補正SSCP |
| 編成およびパーティショニング機能 |
| 非正規化 | キーカラムを除去して新規の非正規化テーブルを作成 |
| ジョイン | テーブルまたはビューをジョインして、結果テーブルに統合 |
| サンプリング | テーブルからサイズまたは割合別サンプルを採取 |
| パーティショニング |
ハッシュキーを使って、テーブルからパーティションを採取 |
| 分析アルゴリズム |
| 線形回帰 | 他の数値独立変数の線形結合に基づき、連続数値変数の値を予測 |
| ロジスティック回帰 | 数値独立変数に基づき、2値変数を予測
|
| 因子分析 | 変数グループを記述するために必要な変数の個数を縮約 |
ルール帰納/
ディシジョン・ツリー | カテゴリーおよび数値独立変数に基づいて変数を予測 |
| クラスタリング | 数値およびそれらの分散に基づいて、類似特性のグループを探索 |
アソシエーション/
順序分析 | グループ内アイテム間の関係と、時系列の順序に基づいたアイテムを分析
|
| データの視覚化 |
| 記述統計 | ヒストグラムと頻度グラフ |
| 線形回帰 |
散布図、係数、およびT-統計量 |
| ロジスティック回帰 | リフト・チャート |
| 因子分析 | 因子パターンおよびスクリー・プロット |
| ディシジョン・ツリー | ツリー・ブラウザ |
| クラスター分析 | サイズ、距離、および類似性チャート |
| ユーザー・インターフェース |
| GUI | モデルの開発、展開、プロジェクト管理用のWindowsベースのユーザー・インターフェース |
| COM API | アプリケーションによるTeradataデータベース内でのモデルの構築、実行を可能とするAPIのセット |
| エクスポートSQL |
ビジネス・アプリケーションに統合するためのモデルをSQLにエクスポート |
|