2011年6月29日水曜日

MySQLを極めようか

技術が大事とか言っておきながら、自分の技術力も大したことないです。
これじゃ、だめですよね。
ということで、一念発起してオープンソースのMySQLを極めたいと思います。

下記書評を読んで、「MySQL 5.1 Plugin Development 」という本がよさそうのなので、
手始めに読んでみたいと思います。

[書評]MySQLをハックしまくりたい人のためのスゴ本「MySQL 5.1 Plugin Development」

MySQL本は、オライリーから結構出ているのでこちらも読んでみたいと思います。

SAP BWのETLツール

SAP BWは、DWHに必要なツールがすべてそろったパッケージ製品です。
当然、ETLにあたるツールも含まれています。
しかし、ソース元がSAPのERPである場合は、付属のETLツールで問題ないのですが、
SAP BWのETLは通常のETLツールと比べて機能が弱いので、データウェアハウスのソースがSAP ERP以外の
場合は、別のETLツールを利用したほうがよいと思います。

安価にすませたいということであれば、オープンソースのETLツールでもよいと思います。
また、ベンダー製品ということであれば、MicrosoftのSQL Sever Integration Servicesも
よく利用されています。
SAP製品ということであれば、買収したBusinessObject製品の流れをくむData Integratorというツールが
あります。これは、メタデータマネジメントというツールを一緒に利用するとインパクト分析なんかもできるで非常に良いツールだと思います。

Pentaho バージョン4.0のベータ版

Pentaho バージョン4.0 RC版が出たらしいです。
ぜひ、チェックを。
Pentahoバージョン4.0RC(ベータ)版、エンドユーザー向け機能が大幅強化!

Database Watch 2011年6月版

毎月楽しみにしている@ITのDatabase Watch。
今月は、IBMとSQL Severについてでした。

ぜひ、チェックを。
http://www.atmarkit.co.jp/fdb/rensai/dbwatch2011/dbwatch201106_01.html

ストレージも進化しているんですね。

@ITにストレージについて下記の連載コラムがあります。

ストレージ仮想化の体系的理解


この記事も読むとストレージも日々進化しているんですね。

データウェアハウスの高速化にはストレージの選択も非常に重要なので、
記事の内容が非常に参考になりました。

やっぱり技術力は大事ですよね

データウェアハウス関連の下記の記事を読んでいたら、
日本のIT部門ではマネジメントやプロジェクト管理に重きがおかれて、
ソースを読んだり書いたりする能力があまりないという話が出てきました。
IT部門の技術力がどんどん衰退しているらしいです。

私も全くのそのとおりだと思います。
私が所属しているIT部門は外資系ではありませんが、技術力を持った社員はほとんどいません。
しかも、技術を学ぶ気もあまりないようです。
プレゼンテーション能力やプロジェクトマネジメントだけが注目され、口がうまい人が出世していくようです。
技術力がないから、ベンダーのうそが見抜けなかったりと弊害も出ています。

プロジェクト管理なども大事ですが、技術も大事ですよね。

データウェアハウス戦国時代に思うこと(後編)/そろそろITで儲けようじゃないか

2011年6月23日木曜日

OpenOLAP,OpenStaging

このサイトでは、何度かオープンソースBIを紹介してきたが、すべてが海外製品でした。
では、日本にBIオープンソースがないかということそんなことありません。
アイエイエフコンサルティングが開発した、OpenOLAPとOpenStagingという製品があります。
前からこの製品については知っていたのですが、なぜか紹介が遅れてしまいました。

OpenOLAPが、OLAP製品で、OpenStagingがETLツールとなります。
データベースには、PostgreSQLとMySQLが使用できるようです。

動作するOSは、Linuxのみのようです。Windows版があると普及がいっきに進みそうですが。。。

下記サイトでデモを見ることができます。
http://www.golap.biz/index.html

また、NRIが、オープンソース・サポートサービスOpenStandiaの対象商品として、
サービスを提供しています。
興味のある方は下記をチェック。
http://openstandia.jp/services/openolap/index.html

2011年6月22日水曜日

ETLのドキュメント

 データウェアハウス/BIに限らず、ソフトウェアを作成する上で、ドキュメント作成は非常に重要です。
重要といっても、最も軽視されるもドキュメントの宿命です。

 さて、今回は、ETLを作成する上でのドキュメントについて書いてみたいと思います。
最近のETLツールには、ドキュメント自動生成する機能がありますので、そちらを利用するのは非常に良いことだと
思います。しかし、通常、これは作成したETLがべースになっており非常に詳細な情報になってしまうので、
全体像がわかるハイレベルのフローを作成することをお勧めします。

 また、ETLは、スタースキーマなどと密接に絡み合っているので、そちらとも連携もわかるドキュメントが必要です。

 必要最低限のドキュメントは、保守を軽し、変化につよいシステムをつくります。

 プロジェクトを始める前にどのようなドキュメントが必要かしっかり検討しましょう。

インメモリOLAPデータベース Palo

以前、オープンソースのBI製品としてPaloを紹介しましたが、
ちょっと調べた内容を掲載したいと思います。

PaloはインメモリOLAPデータベースで、データをすべてメモリに展開します。
MicrosoftのPower Pivotみたいな感じでしょうか。

 メモリに展開したデータは、Excelのアドインを利用してアクセスすることができます。

 また、PentahoのETLツール、Kattleは、Paloのキューブにアクセスしてデータを
読み込んだり、書き込んだりできるようです。

 トリビアですが、Paloの名前の由来は、Paloを逆から読むとわかるそうです。

オープンソースBIソフトウェア SpagoBI

オープンソースBIソフトウェアと言えば、PentahoやJasperSoftが有名ですが、
その他にSpagoBIというものがあります。

SpagoBI


勉強不足のため、今までこのようなソフトウェアがあるのを知りませんでした。。。

Webサイトの説明を読むと、Report,OLAP,ETLなど様々なオープンソースソフトウェアが組み合わさってできているようです。
http://www.spagoworld.org/xwiki/bin/view/SpagoBI/TheSuite

今後も注目したい製品ですね。

オープンソース OLAP Mondorian

オープンソースのOLAPにMondorianというOLAPソフトウェアがあります。
全く名前を聞いたことがない人もいるかもしれませんが、オープンソースBIでは、デファクトスタンダードとなっています。
オープンソースBIで有名なPentaho, Jaspersoft, SpagoBIはすべてこのMondorianを使用しているのです。

 ちなみにMondorianは、ROLAP型となります。ROLAPとは、クエリが発生するごとにデータをリレーショナルデータベースに取得しにいく方式となります。

MySQLに関する記事

 MySQLは、オラクルに買収されて死んでしまったと思っているあなた。(私もそう思っていました。)
下記の記事をどうぞ。
MySQLはOracleに救われた―松信嘉範氏

SAP BusinessObjets Enterprise Performance Management(EPM)の最新バージョン 10.0

SAP BusinessObjets Enterprise Performance Management(EPM)の最新バージョン 10.0が
出たみたいです。
下記をチェック。
http://enterprisezine.jp/article/detail/3264

SQL Server Fast Trackは期待はずれ

 現在、どのベンダーもデータウェアハウス専用機としてアプライアンス製品を出してきています。
Microsoftも後発ながら、事前構成済みデータウェアハウス専用構成「SQL Server Fast Track Data Warehouse (ファストトラックデータウェアハウス)を
しばらく前に出しました。

 私が知る限りでは、これはSQL Severはそのままで、ハードウェアだけをデータウェアハウスに合わせて構築したもののようです。
データウェアハウスのアプライアンスとして有名なテラデータやネティーザは、うえに乗っかるソフトウェアもデータウェアハウス専用となっています。
SQL Severは、OLTP用の製品なので、そこはちょっと?ですね。

 マイクロソフトの今後に期待したいと思います。

第4世代のSQL Server Denali

Microsoftのデータベース、SQL Sever。私も新人時代からずいぶん長い付き合いをしています。
現在、SQL Serverの次期バージョンが、コードネームDenaliで開発が進んでいるようです。

下記に詳しい記事があります。
コードネームはDenali/第四世代 SQL Server の世界へようこそ(前編)


ぜひ、チェックを。

SAP HANAについて

 今回は、SAPのインメモリソフト製品 SAP High-Performance Analytic Appliance、HANAについて
書こうと思います。
 SAP HANAは、SAPがサイベース買収後に発表した製品で、データをメモリに保持し、BI側のパフォーマンスを劇的に変化させる製品です。
データウェアハウス/BIによって、懸念となるのが、データ増大によるパフォーマンスです。メモリが安くなってきた昨今インメモリ製品は非常に有効なツールです。

SAP BWには、その他にSAP BWAと呼ばれるインメモリ製品があります。これは、サイベース買収前にSAPが出した製品でこれもインメモリ製品です。
既存のSAP BWにBWAを導入することによりパフォーマンスを向上することができます。

 おそらく、このBWAはHANAに統合されていくと思われます。また、買収したサイベースは、Sybase IQというコラム指向データベースというすぐれたデータウェアハウスデータベースを
持っていますので、これをSAP BWに統合していくものと思われます。SAP BWはすぐれた製品だと思いますが、パフォーマンスが不安なので、今後が楽しみです。

データウェアハウスイノベージョンに関するカンファレンス

 と言っても、日本での開催ではないので注意を。

 あのビル・インモンが、データウェアハウスの新しいテクノロジーに関するカンファレンスを開催するみたいです。

ADVANCED ARCHITECTURE CONFERENCE


取り上げられるトピックスは下記のとおり。
-The Kimball/Inmon debate Redux
-The unstructured data warehouse
-Textual ETL
-DW 2.0 – architecture for the next generation of data warehousing
-Building Applications for the Cloud
-New trends in Data Vault
-Taxonomies and Unstructured Data
-Agile ETL – building the agile data warehouse

どれも興味深いトピックスですね。

アメリカで開催なので、私は出席できないですが。。。。

Hadoopコラム

 @ITでHadoopに関するコラムが始まりました。
Hadoopといえば、ビッグデータに対応する技術として人気が高いソフトウェアですが、
勉強しなければと思いつつ、そのままになっている人も多いのでは?

このコラムで勉強しましょう。

テキストマイニングで始める実践Hadoop活用

2011年6月21日火曜日

NoSQLに関するサイト

 2009年くらいから、NoSQLというデータベースが流行し出しましたね。
Hadoopなどいろいろな種類がありますが、他にどのようなものがあるのでしょうか。

下記サイトにNoSQLデータベースの一覧が掲載されています。NoSQLといってもたくさんあるんですね。
http://nosql-database.org/

さらっと眺めてみましたが、知らないDBがごろごろありました。

ぜひ、チェックしてみてください。

データウェアハウスのモデリングツール

 データウェアハウスを構築する上で重要なのが、モデリングです。
そして、モデリングを行うにあたって、必要なのがモデリングツールですね。
まず、よく使用されているのが、ExcelなどのOffice製品でしょう。
すでに使用しているので、改めて買う必要がないからです。
あとは、Visioとかその他ベンダーから出ているモデリングツールだと思います。

本日は、無料で使えるデータウェアハウスモデリング用のオープンソースツールを紹介したいと思います。
その名も、「SQL Power Architect」です。

Community(無料版)とエンタープライズ版がありますが、無料版でも十分使えます。
また、無料版でOLAPなどのモデリングもできるのも魅力ですね。

ぜひ、ツールを探している人はチェックしてみてください。

MQLとは?

 MQLというクエリー言語があります。
下記に詳細のプレゼンテーションがあるので、ぜひチェックしてみてください。
MQL-to-SQL: a JSON-based Puery Language for RDBMS Access from AJAX Applications

プレゼンテーション資料

ETL:Excelデータに気をつけよう!

 ETLでデータを取得する際に、ソースデータとして、ファイルが使われることがあります。
たとえば、外部から情報をもらったりする場合ですね。
その際に注意です。おそらく、ソースデータをExcelとして使用する場合が必ず出てきますが、
これはなるべく避けて、テキストデータなどで提供してもらいましょう。

 理由は、Excelを利用すると、簡単に情報が欠落してしまうからです。
たとえば、コードのゼロ抜け。これはよくあります。元データにテキストとして、頭にゼロがついていても
Excelによって数値データと判断され、ゼロが抜けてしまうことがよくあります。

 私もずいぶんExcelで泣かされました。
 なるべく、Excelは避けましょう。

BI開発のメゾドロジー

 データウェアハウス/BIの開発は、要件が明確でないことが多いため、ウォーターフォール型の開発よりもスパイラル型での
開発のほうが適しています。そこで、データウェア/BIの開発で利用されるのが、アジャイルです。

 アジャイルといってもピンとこない人もいるかも知れませんが、アジャイルマニフェストというアジャイルの大事なポイントをまとめた標語があります。
下記に日本語訳が掲載されているので、じっくり読んでみましょう。

アジャイルソフトウェア開発宣言


これを読むだけで雰囲気がわかるのではないでしょうか。
言いたいことがこれにしっかりまとめられていますね。

アジャイルもいろいろありますがその中でよくスクラムが使用されるようです。
スクラム (ソフトウェア開発)


ちなみに私の会社では、アジャイルになれていないこともあって、データウェアハウス/BIの開発は未だにウォーターフォール型が取られています。
アジャイルの経験がある人やアジャイルに理解のある人が少ないのが理由です。というかほとんどいないと思います。
私も経験不足なので、あまり偉そうなことは言えませんが。。。
そのため、導入してから、あとは運用や保守でシステムに磨きをかけるといった感じになっています。

アジャイルをちゃんと勉強しないと。。。

Hadoop 第2版 日本語訳が出ます

 動物の表紙で有名なオライリー。Hadoopの第2版の日本語訳が7月に発売になるそうです。
原書は、Hadoop第1版が出てからすぐに第2版が出ていましたが、日本語版も対応が早いですね。
Hadoopの本格学習のために第1版の日本語訳を買おうとしていたので、あぶないところでした。
第2版の日本語訳が出たら、財布と相談して買うかどうか決めます。

2011年6月20日月曜日

LexisNexisがHadoopキラーHPCC systemsをオープンソースに!

 ビッグデータを扱うソフトウェアとして、人気が高いHadoopですが、そのHadoopキラーとなるHPCC systemsがオープンソース化されるそうです。
LexisNexis Open-sources its Hadoop killer

 上記の記事によるとHPCC systemsは、LexisNexis Risk Solutions部門で、膨大な顧客データを分析するために使用されていたものです。
 今回、オープンソースに踏み切った理由として、Hadoopが業界のデファクトスタンダードになる前に、オープンソース化によって優秀な開発者を集め、HPCC systemsをより進化させることが目的のようです。LexisNexisは、HPCC systemsが、Hadoopより優れたシステムであると自信を見せています。

 HPCCは、データアクセスに、Enterprise Control Languageを利用します。
 Hadoopでは、データアクセスにMapReduceを利用しますが、並列処理ワークフローを記載するには難易度が高いので、記事では、その点が強調されています。また、Hadoopは、Javaで作成されていますが、HPCCは、C++で構築されているため、パフォーマンスは良いとのことです。

HPCCの動作原理については、下記ページを参照してください。
http://hpccsystems.com/Why-HPCC/How-it-works

記事にあるとおり、今後HPCCがHadoopに勝てるかどうかはわかりませんが、ユーザにとって、選択肢が増えることはいいことですよね。

ぜひ、チェックしてみてください。

HPCC systems

オープンソース列指向データベース monetdb

列指向データベースをもう1つ紹介します。
monetdbです。

チェックしてみてください。

オープンソース列指向データベース LucidDB

オープンソースの列指向データベースにLucidDBというデータベースがあります。
MySQLやPostgreSQLは、業務システム、OLTPを主目的としたデータベースですが、
LucidDBは、はじめからデータウェアハウスの利用を目的として開発されています。
そのため、ETLの機能があらじめ組み込まれていたりします。

ぜひ、チェックしてみてください。
LucidDB

MDA: Model Driven Architecture software

データウェアハウスに欠かせないツールと言えば、ETLです。ETLは、Extract, Transfer, Loadingの意味で、
ソースデータと呼ばれる業務システムからデータウェアハウスに必要なデータを取得、クレンジングして、データウェアハウスにデータを格納するツールです。

 現在、これがさらに進化した形で、ETLからデータウェアハウスまでの構築をすべて行うソフトウェアがあります。
Model Driven Architecture、略して、MDAと呼ばれるツールで、業務のビジネスモデルを定義するだけで、ETLからデータウェアハウスの
構築まで自動化できるというすぐれものです。
 しかし、業務をモデリングするにはかなりのスキルが必要とのことです。

 現在、おもな会社として下記があります。

Kalido

BIReady


興味のある方は、チェックしてみてください。

ETLツールの種類

 現在、データウェアハウスの構築に欠かせないETLツールですが、ETLといってもさまざまな種類があります。

 今回は、ETLツールの大きな種類について紹介したいと思います。

自作ETL

これは、そもそものETLの起源となった方法で、つまり、PL/SQLやプログラミング言語でコーディングして自前でETLを作成することである。
現状使用されているETLツールの45%はいまだに自作ツールとのことです。
 自作ツールの問題点は、エラー処理、メインテナンス、メタデータ管理、ログなどの機能が弱いことです。開発した人がいなくなったら、誰も触れないと
いう事態になりかねないので、危険です。

コード生成ETL

自作ETLの次に登場したのが、コード生成ETLです。ETLデザインの応じて、コードを生成します。これに該当するETLとして、Open source ETLとして
有名なTalendがあります。

エンジンベースETL

コード生成ETLの次に登場したのが、エンジンベースETLです。コード生成ETLは、コード生成のため、対応するsourceデータベースの製品が限られてしまうという
弱点があります。これを解消したのが、エンジンベースETLです。PentahoのETLツールであるKettleやMicrosoftのSQL Server Integration Servicesは
は、このエンジンベースETLに該当します。

MDA

さらにこの進化型として、ETLとデータウェアハウスをビジネスモデルによって自動化するModel Driven Architecutre (MDA)と呼ばれるツールもあります。
Kalido, BIReadyなどが有名です。

2011年6月17日金曜日

オープンソースのBI製品

 BIのオープンソース製品について、紹介したいと思います。

 BIのオープンソースといえば、このサイトでも何度か言及しているPentahoが有名です。
また、その他に、JasperSoftも有名ですね。

Pentaho, JasperSoftともに日本のパートナーによって、日本語サポートがあります。
BIのオープンソースと言えば、この2つです。

Pentaho
JasperSoft

日本での知名度はいまいちですが、その他に有名なオープンソースのBI製品として下記があります。

Eclipse BIRT
Palo

Paloについては、詳しくは分かりませんが、サイトで情報を見る限り、非常にすぐれたツールのようです。

オープンソースBIを検討している方はぜひチェックしてみてください。

NoSQLの学習

 現在、流行といってもいいNoSQL。
@ITでNoSQLについての解説記事があります。
ぜひ、チェックを。

RDB開発者におくるNoSQLの常識

2011年6月16日木曜日

第21回:DMBOKの紹介

 今回でいよいよこのコラムも最終回となります。今回は、データ管理をまとめた知識体系であるDMBOKについて紹介します。

DMBOKとは

 DMBOKとは、Data Management Body of Knowledgeの略で、DAMA(The Data Management Association)という
データマネジメントに関する推進団体が策定した知識体系です。知識体系と言えば、プロジェクトマネジメントのPMBOKが有名ですが、データ管理についてもあるんですね。
DMBOKは英語で書かれていますが、データ総研から日本語訳が出ています。

 DMBOKは、下記の10のファクションに分かれています。
1 データガバナンス
2 データアーキテクチャマネジメント
3 データディベロップメント
4 データオペレーションマネジメント
5 データセキュリティマネジメント
6 リファレンス&マスタデータマネジメント
7 DWH&BIマネジメント
8 ドキュメント&コンテンツマネジメント
9 メタデータマネジメント
10データクオリティマネジメント

 データウェアハウスに関連する項目は、「7 DWH&BIマネジメント」となります。ここでは、本コラムでも紹介したインモンアーキテクチャとキンボールアーキテクチャが紹介されています。
また、参考文献が非常に充実していますので、これを手がかりにどんどん学習を進めていくことも可能です。ただし、参考文献のほとんどが日本語に翻訳されていないのが、難点ですね。

 他のファクションも、データウェアハウス、BIを構築する上で密接に関連している項目ばかりですので、一読をお勧めします。

 短いですが、これで今回は終了となります。

 21回にわたって、コラムを記載してきましたが、いかがだったでしょうか。自分の知識不足もあり、断片的な技術紹介になってしまいましたが、ご一読いただきありがとうございました。

 コラムは終了ですが、引き続き、ブログにて、情報発信を行っていきたいと思います。

第20回:データウェアハウス/BI用語解説

今回は、復習も兼ねてデータウェアハウス/BIの重要な用語について説明します。

 ファクト
 分析する対象となる数値データをファクトと呼びます。メジャーやメジャーメントなどとも呼ばれます。

 ディメンション

 分析する軸をディメンションと呼びます。 

 ディメンショナル設計

 ディメンショナル設計とは、データウェアハウスに特化したデータベースの設計方法です。通常の正規化されるデータモデリングと違い、
大量データを素早く分析できるように、シンプルさとパフォーマンスを考慮した設計です。

 スタースキーマ
 
 スタースキーマは、ディメンショナル設計で利用されるモデリングです。分析対象となる数値データであるファクトテーブルを真ん中に配置し、
それを囲むように、分析軸となるディメンションテーブルをファクトテーブルの周りに配置します。見た目が星形に似ているところからスタースキーマと
呼ばれています。

 スローリーチェンジングディメンション

 ディメンショナル設計で利用される履歴を管理するテクニック。分析要件によって利用するテクニックが異なる。

 データマート

 部署に特化した分析データベースをデータマートと呼ぶ。

 キューブ

 スタースキーマを多次元データベースで実現したものをキューブと呼ぶ。

 アドホックレポート

 アドホックレポートは、その場限りで使用される使いすてのレポートのことです。 


 次回はいよいよ最終回です。データに関する知識体系DMBOKについて紹介します。

2011年6月10日金曜日

HSQLDB

HSQLDBはJavaで構築されたデータベースです。
オープンソースBI Pentahoでデフォルトのデータベースとして使用されています。

詳細についてはこちらをチェック。
http://hsqldb.org/

第19回:Open souce Pentaho

今回は、オープンソースのBI製品として有名なPentahoについて紹介したいと思います。

 前回と同様に下記コンポーネントについて対応製品を紹介します。

・ETL
・データウェアハウス(データベース)
・OLAP cube
・BIツール

ETL

 PentahoのETLツールは、「Pentaho Data Integration」という製品になります。
これは、Kettleとも呼ばれています。オープンソースとは言ってもETLに必要な機能はそろっており、
商用に負けない機能となっています。

データウェアハウス(データベース)

 Pentahoには、デフォルトでは、HSQLDBが使用されていますが、MySQLやPostgreSQLなどの
大規模データに対応したオープンソースデータベースを使用することができます。MySQLは、Infobrightや
InfiniDBといったデータウェアハウスに特化した列指向データベースを使用できるので、これらを組み合わせれば、
高速なデータウェアハウスを作成することも可能です。

OLAP cube

 Pentahoでは、「Mondrian」というOLAPエンジンを使用できます。
また、JPivotというツールを使ってMondrianにアクセスできます。
MDXも使用できます。

BIツール
フロントエンドツールもJPivotによるOLAP分析をはじめ、レポーティングやダッシュボードなどの機能がそろっています。
Pentaho1つですべてのツールが揃いますので、商用のツールを買わなくてもオープンソースツールで商用に負けないBIソリューションを
構築することができます。

オープンソースの強みはなんと言っても、価格が安いことだと思います。データウェアハウス/BIは導入しても使いこなせないことが多いので、
いきなり商用ツールの導入はリスクが高いという企業は、Pentahoなどで安価に導入してみるのもいいと思います。

データウェアハウス/BI分野でもその他にも多くのすぐれたオープンソース製品が出ていますので、技術力さえあれば、
テラバイト級のデータにも対応できるシステムを構築することも可能だと思います。

Pentaho以外では、Jaspersoftというオープンソース製品が有名なので、興味のある方はこちらもご検討ください。

次回は、データウェアハウス/BI用語について、一通りのまとめをしたいと思います。

2011年6月9日木曜日

Mastering the SAP Business Information Warehouseを読みました

「Mastering the SAP Business Information Warehouse: Leveraging the Business Intelligence Capabilities of SAP NetWeaver」を読みました。
本書の特徴はなんといってもインモンモデルにそって、SAP BWを説明している点です。

また、メンテナンス性を考慮して、InfoCubeにレポートは直接アクセスせず、間にVirtualProviderを挟むというアドバイスは非常に参考になりました。


オープンソースDBの試験が7月スタート

オープンソースDBの試験が7月にスタートします。
チェック。
PostgreSQLベースの「OSS-DB技術者試験」、7月スタート

SAP BW DataStore Objects

SAP BW DataStore Objectsの技術メモ。

SAP BWのデータコンポーネントであるDataStore objectsには以下の3種類があります。

1.Standard DataStoere Objects
通常データウェアハウスのデータ格納場所として使用
2.Direct-update DataStoer objects
リアルタイムデータが必要とされる場合に使用
3.Write-optimized DataStore Objects
ロードデータが大きい場合に使用

用途に応じて使い分けたい。

第18回:SAP製品

 今回は、SAPのデータウェアハウス/BI製品について、前回と同様に下記コンポーネントについて説明したいと思います。

・ETL
・データウェアハウス(データベース)
・OLAP cube
・BIツール

SAP BWはさまざまな機能がひとまとめに!

SAPのBIソリューションは、SAP BWというアプリケーションを利用します。
このアプリケーションはいわゆるワンストップソリューションで、ETL,データウェアハウス、OLAP cubeがすべてこのSAP BWでカバーすることができます。しかし、ETLツールについては、SAP BWが持っているETL機能が弱いということと、BusinessObjectsを買収した際にBO社がすぐれたETLツールを持っていたことにより、DataServiceというETLツールを別途購入、使用することができます。もちろん、他の会社のETLツールも使えますが。。。

 また、データベースソフトウェアは別途購入する必要があるので、OracleやMS SQLが必要になります。

BIツール

フロントエンドとなる、BIツールは、BusinessObjectsになります。SAP BWには、Bexというレポーティングツールがありますが、現在、買収したBO社の製品でフロントエンドを統一する動きとなっています。また、BOのフロントエンドツールは、Cristal reports,web intelligence,dashobaord design (Xcelsius)などいろいろなツールがありますので、要件にあったツールを選ぶようにしましょう。

BusinessObjectsとSybaseの買収効果

 SAPはここ数年、BIの強化のため、BusinessObjectsとSybaseなどの大型買収を行ってBI側を強化してきました。BOは、フロントエンドの強化にSybaseは、データベースの高速化とモバイル対応といった感じです。BOについては、なかなかシステム統合がすすでいないイメージがあったのですが、今回の最新版で統合が一段と高まりました。SAPは、一般コンシューマにはなじみがありませんが、企業ではERPシステムを中心に非常によく使われています。ERPでSAPを使用していれば、BIツールとして、SAP BWがまず第一候補に上がってくるのではないでしょうか。

今回は、SAPの製品について紹介しました。次回は、オープンソースBIとして、有名なPentahoについて紹介したいと思います。

2011年6月8日水曜日

第17回:マイクロソフト製品

 今回から、3回にわたって、主要なデータウェアハウスベンダーの製品について紹介をしたいと思います。
下記のコンポーネントに該当する製品を紹介していきます。
・ETL
・データウェアハウス(データベース)
・OLAP cube
・BIツール

第1回目は、マイクロソフト製品です。

ETL

 マイクロソフトのETLツールは、「SQL Sever Integration Services」です。
一通り、機能を有しており、Slowly chaning dimensionにも対応しています。
難点といえば、メタデータがXMLでの管理となってあり、インパクトアナリシスがちょっと大変なところでしょうか。

データウェアハウス(データベース)

 これは当然、SQL Severになります。大規模データにも対応できるデータベースですが、
難点といえば、やはりデータウェアハウス専用ではないため、パフェーマンスが他のアプライアンス製品とくらべると
おそいことでしょうか。しかし、この点については、「SQL Server Fast Track Data Warehouse」や
「SQL Server Parallel Data Warehouse」などデータウェアハウスに絞った製品を投入してきているので
今後に期待です。

OLAP cube

 OLAPはSQL Sever Analysis Servicesになります。
これは、OLAP機能とデータマイニング機能が付いています。

BIツール

 マイクロソフトのBIツールは、定型レポート→「SQL Sever Reporitng Services」、OLAP分析→Excelとなります。
マイクロソフトの強みはなんといっても、使い慣れているExcelがインタフェースになっていることでしょうか。

以上マイクロソフトの製品について紹介してきました。もちろん、各コンポーネントの一部のみを他の製品と組みわせて使用することも可能です。
マクロソフトの強みはすでに他のマイクロソフト製品を利用している可能性が高いため、その資産を利用して導入できることではないでしょうか。
また、大企業だけあって、今後の製品の向上が期待できるのも強みですね。

 今回は以上です。次回は、SAPの製品について紹介します。

第16回:Data warehouse/BI導入の勘どころ

今回は、データウェアハウス、BIシステムを導入する際に注意するポイントについて説明したいと思います。

まずは社内の分析能力成熟度を把握しよう

 データウェアハウス、BIシステムを導入する前に、必要なのが、導入する組織、部署の分析能力の成熟度を把握することです。この分析能力成熟度とは、組織がどの程度、データを重視して意思決定に利用しているか、また、社員がデータの品質の重要度を理解しているかなどです。まあ、簡単にいってみれば、データウェアハウス、BIを導入してもちゃんと使う意思があるかどうかということです。

 よくあるのが、社長の一声で、データウェアハウス/BIを導入したものの、誰もデータに注目せずに、そのままシステムが埃をかぶってしまうというものです。これは、組織の分析能力が成熟していないために起こる事象です。

 もし、成熟度が低いようでしたら、成熟度を向上させる業務改革を実施しましょう。

データウェアハウス/BIシステムは使ってもらってなんぼ!

 当り前の話ですが、システムは使ってもらわないと意味がありません。しかし、よくあるのがシステムを構築したのはよいが、使い勝手がわるくて結局ユーザは生データをアクセスにダウンロードして分析しているなんてことがあります。これでは、システムを導入した意味がありません。
 では、どうすれば、ユーザに使ってもられるのでしょうか。当たり前ですが、これはユーザをシステム構築のプロジェクトに巻き込むしかありません。また、ユーザ視点でシステムを構築することです。まあ、言うのは簡単ですが。。。

リリース後の保守、運用が重要

 データウェアハウス/BIシステムは、特にリリースした後が大事です。分析要件は変わりますし、そもそもユーザははじめは要件がよくわからないので、リリース後にやりたいことが明確になることがあるからです。そのため、システムはリリース後にどんどん進化していく必要があるのです。

現場の功績がただしく評価される仕組みが必要

 しかし、リリース後の保守、運用がうまくいかないひとつに現場の保守作業が正しく評価されないということがあります。
プロジェクトマネージャをやったほうが目立って昇進しやすかったりして、保守、運用はないがしろにされがちです。

 ということで、最後にマネージャの方にお願いです。目立つだけで評価するのはやめましょう。仕事への評価で現場の人も正しく評価しましょう。

 もし、そんな素晴らしいマネージャがいなかったら?運命と諦めて、粛々と作業を進めましょう。

第15回:MDX超入門

 今回は、OLAPからデータを取得するクエリMDXについて説明します。

MDXって何?
 まず、MDXとは何でしょうか。これは、「Multi Dimensional eXpressions」の略で、OLAPからデータを取得するためのクエリです。SQLのOLAP版と考えればよいでしょう。このMDXは、最初マイクロソフトによって実装されましたが、その後、各ベンダーもMDXをサポートするようになり、業界のデファクトスタンダードとなりました。

 しかし、悲しいかな、SQLに比べるといまいち知名度がありません。私が勤務する会社でも、SQLは知っていてもMDXについては?という人が少なくありません。また、その使いかたとなると、ぐんと数は少なくなります。

今回は、そんなMDXのほんのさわりだけ紹介したいと思います。MDXの構文を説明しようと思いましたが、基本を説明するだけでもかなりの分量になるので、またの機会としたいと思います。

基本構文
 MDXの基本構文は下記のようになります。SQLと構文上はよく似ています。

SELECT
[メジャー(ファクト)またはディメンション] ON COLUMNS, ←横軸(1)
[メジャー(ファクト)またはディメンション] ON ROWS ←縦軸(2)
FROM
<キューブ名> ←キューブ
WHERE
[ディメンション] ←スライサ(3)

 まず、SELECTのあとに表示したい、メジャー(ファクト)とディメンションを縦軸、横軸それぞれ指定します。そして、FROMのあとにキューブ名を記載します。
 通常、スライシングと呼ばれているキューブデータの絞り込みをする場合は、WHERE句のあとにしてします。ただし、ここで注意です。(1)~(3)のディメンションはすべて違うディメンションを指定する必要があります。そのため、もし、(1)や(2)でデータを絞りたい場合は、filterという機能を使って、(1),(2)内で条件をしてすることなります。

MDXを使用する場合は、出力したレポートをイメージすることが重要になります。ただ、SQLと似ているようで結構違いがありますので、とにかく使って覚えていくのが上達への近道ですね。

 今回は、MDXのほんのさわりを説明しました。次回は、Data warehouse/BI導入について説明します。

SPARQLって何?

SPARQLというクエリ言語があります。
どうやら、名前からしてSQLと関係がありそうだと思ったあなた、正解です。

SPARQL

WikipediaによるとRDFクエリ言語の一種らしいです。

くわしいことは、まだ勉強していないのでよくわかりませんが、注目されているクエリであることは間違いないようです。

オライリーからSPARQLを扱った本ででるので、ぜひチェックを。

Learning SPARQL

統計は大事です。

競争が激しくなる昨今、データ分析による意思決定がますます必要になってきています。
データを分析するうえで避けて通れないのが統計分析です。
といっても、たいていのエンジニアは統計学をきちんと学んでいないので、苦手な人が多いですよね。
というか、私もそのうちのひとりです。(鋭意勉強中)

さて、あのオライリーから統計に関するプログラミング本が出るようです。

Think Stats


ぜひ、チェックを。。。

2011年6月7日火曜日

SAP BW:各データ格納コンポーネントの説明とインモンモデル、キンボールモデルへの利用法

 SAP BWは、データウェアハウスとデータウェアハウスのマネジメントアプリケーションが一体となったソフトウェアです。
データベースには、OracleやSQL Serverなどのデータベースが利用できますが、SAP BWがシステムDBとして利用するので
自分でテーブルを作ったりすることはできません。

 今回は、SAP BWで使用される各データ格納コンポーネントの説明と、データウェアハウスアーキテクチャである、インモンモデルとキンボールモデルを利用した
場合にどのように使用できるかを説明したいと思います。
 
 各コンポーネントの説明

 SAP BWには、様々なデータオブジェクトがありますが、ここでは、データウェアハウスに利用する主にもののみ説明します。

・PSA(Persistant Staging Area)
PSAはソースシステムからデータを取得する際に利用するステージングエリアです。

・DSO(Data Store Object)
DSOは、通常のデータウェアハウスで利用するデータベースにあたる部分です。ソースシステムから集出したデータを格納します。

・InfoCube
InfoCubeは名前からわかるようにキューブです。

MultiProvider
・MultiProviderは複数のInfoCubeを仮想的に1つにまとめることができます。いわゆるドリルスルーというテクニックです。

インモンモデルでの利用

 では、実際のアーキテクチャモデルの利用を考えてみたいと思います。
インモンが提唱したエンタープライズモデルでは、セントラルデータウェアハウスといわれる正規化したデータベースにすべてのデータを格納し、
そこから各部門が必要とするデータをディメンショナルモデルで構築されたデータマートとして抽出し、各レポートがデータマートにアクセスするかたちとなります。

その場合、
ソースシステムからのデータ抽出→PSA
セントラルデータベース→DSO
データマート→InfoCube
といった利用になります。

キンボールモデルでの利用

 キンボールモデルでは、ディメンショナルモデルで構築されたそれぞれのスタースキーマがリンクされたものがデータウェアハウスとなります。
インモンでのセントラルデータベースはステージングエリアに格納されることになります。

その場合、
ソースシステムからのデータ抽出→PSA
ステージングエリア→DSO
スタースキーマ→InfoCube
といった利用になります。

上記は、あくまで例ですので、他にもさまざまに組み合わせがあると思います。

 さて、最後に1点注意ですが、どちらのモデルを採用するにせよ、レポートはInfoCubeにアクセスしたほうが良いと思います。
SAP BWで提供しているレポーティングツールはDSOにもアクセスできるのですが、パフォーマンスやデータの特性上、InfoCubeのみに
アクセスさせたほうがよいと思います。

2011年6月6日月曜日

SAP BusinessObjects 4.0の製品名

SAP BusinessObjectsの最新版である、BO 4.0。

前回のバージョンから名称が変わっていたりして混乱するので、ちょっと整理の意味を込めて、BO 4.0の製品を紹介してみたいと思います。

Dashboard design
>これは、ダッシュボードを作成する製品です。以前の名前はXcelsiusです。わかりやすい名前になりましたね。

Cristal reports
>これは、帳票などの定型レポートを作成する製品です。クリスタルレポートって昔から有名ですよね。

Web Intelligence
>これは、定型レポートやアドホックを作成ツールです。BOではおなじみの製品です。ちなみにつうは、Webi、うぇびーと読みます。

Live Office
>Web IntelligenceのインタフェースがMS Officeになった製品です。

Analysis edition for OLAP
Analysis edition for Microsoft Office
>これはSAPのレポーティングツールとして利用されていたBex、ベックスの新バージョンです。OLAPのほうがWebベースでMS Officeの方が、ExcelなどのOffice製品がインタフェースなどとなります。OLAP分析にはこれですね。

なんか、もりだくさんですね。

自分の会社にあったツールを選びましょう。

BusinessObjects LiveOfficeについて

BusinessObjectsの製品にLive Officeという製品があります。
これは、マイクロソフトのOffice製品からUniverseやWeb Intelligenceなどのアクセスできるツールです。

Web IntelligenceはWebベースなのですが、ユーザから慣れのせいか、使い勝手はあまり評判がよくありません。

その点、Excelなどのオフィス製品はユーザが慣れているので抵抗が少ないようです。

Live Officeという必ず、デモの例としてExcelが使われます。なので、私はずっとExcelからしかアクセスできないと思っていたのですが、名前の通り、WordsやPowerPointなどの他のオフィス製品からもアクセスできます。
まあ、でも通常はExcelですよね。

ちなみにLive Officeを使用する場合は、アドオンのインストールが必要になります。

SAP BusinessObjects Xcelsiusの読み方

SAP BusinessObjectsのダッシュボード製品としてXcelsiusという製品があります。
Xcelsius読み方という検索条件でこのサイトにきている方がいるので、この際、日本語名を掲載しておきたいと思います。

ずばり、日本語読みは「エクセルシウス」です。

ちなみに現在の最新バージョン BO 4.0から名前が変わります。

SAP BW:SAPに関する情報を集める

SAPシステムについて疑問やわからないことがあった時に便利なのがSAP HELP PORTALです。

各システム別に状況が集約されており、しかも各システム別に検索できます。グーグル検索でなかなか見つからなくてもここで簡単に見つかったりします。

便利なので、ぜひ利用しましょう。

2011年6月5日日曜日

ピーターの法則

 データやデータウェアハウスとは直接関係ないが「ピーターの法則」と呼ばれる法則について紹介したいと思います。このピーターの法則に関する本を始めて読んだときはあまりの面白さとその法則の適用率の高さに感動しました。自分の仕事環境にたいへん当てはまり、うんうんと読み進めたのを覚えています。

 では、「ピーターの法則」とはいったいなんでしょうか。これは簡単にいってしまえば、人は無能になるまで昇進するという法則です。たとえば、日本のIT業界を例にとれば、まず、プログラマとしてスタートします。そして、プログラマとして成功すれば、たとえば、チームリーダーに任命されています。そして、そこでチームリーダーとしての能力を発揮すれば、プロジェクトーマネージャとして昇進、さらに管理職といった感じで昇進していきます。これはよくある光景ですが、ポイントはうまく行かなかった場合、つまり、そのポジションにふさわしい能力がなかった場合はその地位にとどまるということです。決して、その前に地位に降格することはありません。なので、無能になると、そこでとまってしまう、つまり、これがピーターの法則です。

 では、この状況をさけるには一体どうしたらいいのでしょうか。個人的な対策として示されているには、時々無能を装って自分の能力が発揮できるポジションに居座り続けることです。しかし、他の人には気づかれないように。。。

 この法則は自分のキャリアを考える上で常に参照している法則です。現場として、仕事をするのが自分にあっていると感じているからです。

 この本は非常におすすめなので、一読をお勧めします。

SAP BW: Net weaver本とWeb intelligence本が早速とどく

追加で注文しておいた「SAP NetWeaver BW: Administration and Monitoring」と「SAP BusinessObjects Web Intelligence」が早速アマゾンからとどきました。

これで、バックエンドからフロントエンドまでSAP BW本がかなりそろったことになります。

あとは勉強するだけですね。

早速、読み始めたいと思います。



2011年6月4日土曜日

Reporting and Analytics Using SAP BusinessObjectsを読み終わりました

BusinessObjectsの勉強の一環として読んでいた「Reporting and Analytics Using SAP BusinessObjects」を読み終わりました。

BusinessObjectsのレポーティングについてひとおり説明してあります。たとえば、Cristal reports, Xcelsius, Web Intelligence, Live office, Explorerなどです。SAP BWとの接続方法が各ツールについて説明してあり、非常に参考になりました。

現在、SAP BWのフロントエンドのレポーティングツールとしてどのツールを使用するか検討していますが、その際、重要になるのが、SAP BWとどのように接続できるかです。SAPがBusinessObjectsを買収した関係上、現在、SAP BWで使用されているレポーティングツールベックスとBusinessObjectsツールが混在しています。また、SAP BWのデータに接続するのも様々なインタフェースがあって、まだ完全に統一されていません。そのため、どのツールがどういった接続方法が利用できるかが重要になるのです。そのため、本書は非常に参考になりました。

SAP PRESSのBI/BW本をある程度そろえましたが、次はSAP BW Modelingを読んでみようと思います。



SAP BusinessObjects Web intelligence本を購入

現在、仕事でSAP BWとBusinessObjectsをレポーティングツールとして使用するプロジェクトに関わっていますが、主にユーザインタフェースとなるBusinessObjects側を担当することになりそうです。

Web Intelligenceが主なツールになりそうなので、早速SAP PRESSのWeb intelligence本を購入して、勉強することにしました。

早速、アマゾンで下記の書籍を購入。
明日、とどく予定です。

おそらく、SAPのトレーニングも受ける予定ですが、その前に独学である程度勉強しておきたいと思います。