データウェアハウスで出ている用語にデータマートっていう用語があります。
じゃあ、データマートの定義ってなんでしょうか。
先日、あるデータウェアハウスのプロジェクトに参加していたところ、
データマートって言うことが出てきました。でも、どうやら発言者はデータマートが
どんなものかよくわかっていなくて使用していました。
ということで今日はデータマートについて説明しましょう。
データマートを説明する前にデータウェアハウスのアーキテクチャについて説明したいと思います。
データウェアハウスでは多く分けて2つの構築方法があります。1つはビル・インモンが提唱している構築法で
エンタープライズアーキテクチャと呼ばれています。これはセントラルと呼ばれるデータベースに
第3正規化されたデータのヒストリデータをすべて保存し、各部署ごとに分析したいデータをスタースキーマで
別途構築し、そのスタースキーマにアクセスさせ、セントラルデータベースにはアクセスあせません。
この部署ごとに作ったデータがデータマートと呼ばれるものです。
もう1つのアーキテクチャはラルフ・キンボールが提唱している方法でバスアーキテクチャと呼ばれます。
これはセントラルデータベースがなく、ビジネスプロセスに応じたスタースキーマをつなげて一つのデータウェアハウス
にする方法です。この場合、各ビジネスプロセスに応じたスタースキーマがデータマートなります。
ちなみにプロジェクトで発言した人ですが、スタースキーマもよくわかっていませんでした。
やはり、データウェアハウスに関する教育が不足していることを実感しました。
このブログではスーパーデータエンジニアへの道と称してデータベース、データウェアハウス、ビジネスインテリジェンス、データ分析などデータに関することについて学習したこと、考えたこと、経験したことなどを掲載します。
2010年12月28日火曜日
MOLAPとROLAPって何?
今日はMOLAPとROLAPについて解説したいと思います。
MOLAPとOLAPを説明する前にそもそもOLAPって何でしょうか。
Online Analytical Processingの略ですって言われてもよくわかりません。
OLAPとはキューブとも呼ばれます。じゃ、キューブって何でしょうか。
キューブとはスタースキーマを多次元データベースで実装した場合の名前になります。
リレーショナルデータベースで実装したものはスタースキーマと呼ばれ、多次元データベースで
スタースキーマを実装さればキューブと呼ばれます。
スタースキーマとはデータベース上で分析しやすいようにした設計されたデータモデリングのことで、
真ん中に分析するファクトをおいて、その周りに分析する切り口であるディメンションを配置したモデリングと
なります。
例えば、売り上げ分析であれば、売り上げをファクトとしてその周りに製品や顧客などのディメンションを
配置して製品別や顧客別などに売り上げを分析できます。
モデリングのかたちがスターに似ていることからスタースキーマと呼ばれています。
さてMOLAPとROLAPの違いですが、MOLAPは多次元データベースにデータをあらかじめて保存しておく方法です。
BIなどのアプリケーションでデータにアクセスする際は多次元データベースにアクセスします。
多次元データベースではデータが最適化されていますので非常に高速アクセスできます。
一方、ROLAPとはキューブの定義だけをしておいて、アプリケーションがデータにアクセスするたびにオラクルなどの
リレーショナルデータベースにアクセスのたびにデータを取得しに行きます。
当然、リレーショナルデータベースは複雑なクエリになるとパフォーマンスが落ちるのでレスポンスが悪くなります。。。
では、ROLAPのメリットってなんでしょうか。
それはMOLAPはリレーショナルデータベースが変更されるたびに多次元データベースにその都度データを読み直さないと
行けません。その点、ROLAPは都度データをリレーショナルデータベースに読みにいくので再読みの必要はありません。
リレーショナルデータベースがテラデータやネティーザなどであれば高速なのでROLAPなどが利用されます。
OLAP製品によってMOLAPやROLAPであったりするのでアーキテクチャに合わせて製品を選びましょう。
ちなみにMicrosoftのSQL Sever Analysis Servicesでは設定でMOLAPやROLAPのどちらかが設定できます。
また、定型レポートなどは夜間バッチで作成できるため、RLAP、
仮説思考によるピボット分析ではMOLAPなどが利用されたりします。
ある本にはMicrosoftのSQL Sever Reporting ServicesがROLAP, Analysis ServicesがMOLAPと書いてありました。
MOLAPとOLAPを説明する前にそもそもOLAPって何でしょうか。
Online Analytical Processingの略ですって言われてもよくわかりません。
OLAPとはキューブとも呼ばれます。じゃ、キューブって何でしょうか。
キューブとはスタースキーマを多次元データベースで実装した場合の名前になります。
リレーショナルデータベースで実装したものはスタースキーマと呼ばれ、多次元データベースで
スタースキーマを実装さればキューブと呼ばれます。
スタースキーマとはデータベース上で分析しやすいようにした設計されたデータモデリングのことで、
真ん中に分析するファクトをおいて、その周りに分析する切り口であるディメンションを配置したモデリングと
なります。
例えば、売り上げ分析であれば、売り上げをファクトとしてその周りに製品や顧客などのディメンションを
配置して製品別や顧客別などに売り上げを分析できます。
モデリングのかたちがスターに似ていることからスタースキーマと呼ばれています。
さてMOLAPとROLAPの違いですが、MOLAPは多次元データベースにデータをあらかじめて保存しておく方法です。
BIなどのアプリケーションでデータにアクセスする際は多次元データベースにアクセスします。
多次元データベースではデータが最適化されていますので非常に高速アクセスできます。
一方、ROLAPとはキューブの定義だけをしておいて、アプリケーションがデータにアクセスするたびにオラクルなどの
リレーショナルデータベースにアクセスのたびにデータを取得しに行きます。
当然、リレーショナルデータベースは複雑なクエリになるとパフォーマンスが落ちるのでレスポンスが悪くなります。。。
では、ROLAPのメリットってなんでしょうか。
それはMOLAPはリレーショナルデータベースが変更されるたびに多次元データベースにその都度データを読み直さないと
行けません。その点、ROLAPは都度データをリレーショナルデータベースに読みにいくので再読みの必要はありません。
リレーショナルデータベースがテラデータやネティーザなどであれば高速なのでROLAPなどが利用されます。
OLAP製品によってMOLAPやROLAPであったりするのでアーキテクチャに合わせて製品を選びましょう。
ちなみにMicrosoftのSQL Sever Analysis Servicesでは設定でMOLAPやROLAPのどちらかが設定できます。
また、定型レポートなどは夜間バッチで作成できるため、RLAP、
仮説思考によるピボット分析ではMOLAPなどが利用されたりします。
ある本にはMicrosoftのSQL Sever Reporting ServicesがROLAP, Analysis ServicesがMOLAPと書いてありました。
2010年12月19日日曜日
「Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL」を読み終わる!
今まで部分的には読んでいましたが、やっと「Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL」を最初から最後まで通して読みました。
この本はオープンソースのペンタホをもとにデータウェアハウスからBIまでの一通りの基本を説明しています。
これを通読するだけで基本的なことがすべてわかってしまうという優れものです。
ちなみにMDXの基本もこれでわかってしまいます。
残念ながらまだ、日本語訳は出版されていません。私で良ければ翻訳しますけど。。。
声かからないかな。。。
とにかく英語もわかりやすいので、おすすめです。
この本はオープンソースのペンタホをもとにデータウェアハウスからBIまでの一通りの基本を説明しています。
これを通読するだけで基本的なことがすべてわかってしまうという優れものです。
ちなみにMDXの基本もこれでわかってしまいます。
残念ながらまだ、日本語訳は出版されていません。私で良ければ翻訳しますけど。。。
声かからないかな。。。
とにかく英語もわかりやすいので、おすすめです。
2010年12月11日土曜日
ご無沙汰です
自分ご無沙汰しておりました。
仕事や勉強などに忙しくブログの更新が滞っていました。
ごめんなさい。
これからがんばって頻繁に更新しようと思います。
さて、最近の近況を報告したいと思います。
仕事ではグループを移動し、本格的にBIやデータウェアハウスの仕事に従事しています。
ということで日々勉強中です。
また、仕事も本格的にBIということでデータウェアハウスの勉強も開始しています。
基本ややっぱりほんですよね。ということで読みかけになっている本や読んだけど忘れてしまっている本を
読み直しています。
現在はPentaho solutionを読んでいます。
これはかなりの名著です。。。
今年中には読みおわりたいですね。
仕事や勉強などに忙しくブログの更新が滞っていました。
ごめんなさい。
これからがんばって頻繁に更新しようと思います。
さて、最近の近況を報告したいと思います。
仕事ではグループを移動し、本格的にBIやデータウェアハウスの仕事に従事しています。
ということで日々勉強中です。
また、仕事も本格的にBIということでデータウェアハウスの勉強も開始しています。
基本ややっぱりほんですよね。ということで読みかけになっている本や読んだけど忘れてしまっている本を
読み直しています。
現在はPentaho solutionを読んでいます。
これはかなりの名著です。。。
今年中には読みおわりたいですね。
登録:
投稿 (Atom)