2011年2月19日土曜日

データウェアハウスリーダー、ガートナーレポート

ガートナーからデータウェアハウスのリーダーについて
レポートが出ているようです。

Gartner Ranks Data Warehousing Leaders

データウェアハウスの現在のホットトピックは、
1.カラム指向データベース(column-store)
2.インメモリー
3.クラウドベースデータベース

HPがVerticaの買収を提案したりと目がますます離せないですね。

The Microsoft Data Warehouse Toolkit: With SQL Server 2008 R2 and the Microsoft Business Intelligence Toolset, 2nd Edition

キンボールグループからSQL serverを使ったデータウェアハウス構築本第2版が出ます。
以前はSQL Server2005でしたが、こちらは2008 R2の機能にアップデートされているようです。
出たら早速購入したいと思います。

列指向データベース企業 Vertica、HPが買収

列指向データベース企業として有名なVerticaがHPに買収されるようです。
ニュース記事

最近は大手企業によるデータウェアハウス関連の買収が盛んですね。

記事紹介:ディメンショナルモデリング必須10カ条

また、また、記事の紹介です。
下記サイトに「ディメンショナルモデリング必須10カ条」と題して、
ディメンショナルモデリング(スタースキーマ)を行うにあたっての守るべき10のルールが説明されています。
ディメンショナルモデリングを実施するときはこれをチェックリストとして利用しましょう。

また、ディメンショナルモデリング初心者の方には必ず読んでほしい記事です。

Kimball University: The 10 Essential Rules of Dimensional Modeling

オープンソースデータベース試験が開発中

LPI-Japanがオープンソースデータベースの資格試験の開発を行っているようです。
どうやら対象はPostgreSQLのようです。
ぜひ、受験したいと思います。

公式ページ
@IT記事

クラウドシステム構築の教科書

データとはあまり関係ないですが、LPI-Japanより
クラウドシステム構築の教科書が出たみたいです。無償です。

技術力維持のためにこういう資料はさらっとでもいいので読むようにしています。

時間ができたら読みたいと思います。

クラウド教科書

2011年2月16日水曜日

記事紹介:データモデルテンプレートは使える?

現在、産業別にすぐに分析できるようにデータモデルのテンプレートを提供するベンダーも増えつつあります。
はたしてそれは使えるのか?

Kimball groupのMargy Rossは過去の経験から否定的な意見を述べています。
データモデルはビジネス中心であるべきと。。

詳細は下記を参照してください。
データモデルテンプレートは使える?

記事紹介:ETLアーキテクチャにおける6つの重要な決定

こちらもキンボールグループの記事紹介。
ETLアーキテクチャにおける6つの重要な決定
ETLアーキテクチャにおける重要な決定を質問に答える形で回答しています。

掲載されている質問は下記。
1.ETLツールは利用すべきか。
2.どこでどのようにデータ統合をおこなうべきか。
3.どのデータチェンジキャプチャ(CDC)メカニズムを選ぶべきか。
4.いつ、データをステージングエリアに格納すべきか。
5.どこでデータ修正すべきか。
6.どのデータ反映頻度レベルをサポートする必要があるか。

ETL導入前に読みましょう。

記事紹介:ETL開発における避けるべき3つの妥協

ETL開発における参考になる記事を紹介したいと思います。
下記ページにKimballグループが投稿した
「ETL開発における避けるべき3つの妥協」という記事があります。
ETL開発における避けるべき3つの妥協

要約すると避けるべき3つの妥協とは:
①スローリー・チェンジング・ディメンション(SCD)要件を無視する
②メタデータストラテジーを採用しないこと
③妥当なスコープを提供しない

どれも大事ですね。

いただいた質問の回答

全く気付かず、コメント欄にいただいた質問をそのままにしておりました。
大変失礼いたしました。

ということでいただきました質問にいまさらながら回答したいと思います。

いただいた質問:
>ちなみにひとつ伺いたいのですが現場ではスタースキーマ型(ディメンジョンが非正規型)と、
>スノーフレーク型(ディメンジョンが正規化)のどちらがよく使われるのでしょうか?

うーむ、難しい質問ですね。
私がみた限りでは、スタースキーマ型のほうが使用されるケースが多いですが、
正規化されたもの、混ざったものもよくみます。
どうやら、人が入れかわるたびに思想が変わるらしく、混ざってしまっているケースが
多々あるようです。
個人的意見としては、レポート、BI用にはスタースキーマを利用したほうがよいと思います。
ただ、データウェアハウスでオペレーションのレポートなども利用する場合は、エンタープライズデータウェアハウスの
インモンアーキテクチャがよいと思います。

インモンモデルか、キンボールモデルか、それが問題だ、パート2

以前、このブログでインモンモデか、キンボールモデルのどちらを採用するかについて記載したことがあります。
今日は実務での経験を通して、それから考えたことを書いてみたいと思います。

簡単にいってしまえば、今考えている採用基準は、
もし、DWHでオペレーションレポートも出すのであれば、インモンモデル、
BIのみしか使用しないのであれば、キンボールモデルという感じです。

レポート、BI利用であれば、キンボールモデルで非正規化したディメンショナルモデルが最適だと思いますが
そこにオペレーションのリスト出力などが絡んで来ると運用で大変です。
これは経験則によるものです。
オペレーションはやっぱり、正規化モデルでないと、運用で苦労します。

データウェアハウスを作成する際は、DWHをどのように利用するかを明確にしてから
アーキテクチャを考えましょう。

ご無沙汰しております

さて、今年最初のトピックですが、ETLを取り上げてみたいと思います。

ETLはExtract, Transfer, Loadの略ですので、
なんとなくどんな機能かはイメージできると思いますが、いざETLの
詳細機能となるとなかなかイメージできないのではないでしょうか。

そこで紹介したいので下記リンクです。
The 34 subsystems of ETL

これはキンボールが提唱したETLサブシステムを説明しております。
残念ながら英語ですが、これを読めば、ETLが必要が機能について概要をすることができます。
まさに必読です。