2010年6月25日金曜日

応用情報処理試験に合格しました!!!

本日の正午より情報処理試験のサイトで合否の確認および成績照会ができます。
ということで早速みて見ました。
http://www.jitec.jp/1_05goukaku/seiseki_s.html
どうやら、皆さんアクセスをしているらしく、非常につながりにくかったですが、
なんとかページに到達。IDとパスワードを入力して確認すると、合格していました。
一応、試験後の自己採点で余裕で合格ラインをこえていたので問題ないと思っていましたが、
ちゃんと確認して一安心です。

結果は下記のとおり。
午前得点:77.50点
午後得点:84.00点

ストラテジ系 21.25点( 85.0%)/ 25.00点
マネジメント系 11.25点( 81.8%)/ 13.75点
テクノロジ系 45.00点( 73.4%) / 61.25点

やっぱり、仕事柄企画やマネジメントの仕事の比重が大きいので、
そっちの得点が高いですね。。。
テクノロジー系はなんとかって感じですね。

次は秋の試験で、セキュリティ試験の合格を目指します。

がんばりたいと思います。

2010年6月22日火曜日

Macのマルウェア対策

どうやら、アップルMacでマルウェア対策が密にアップデートされたらしい。
アップル、Mac OS X 10.6.4でマルウェア対策をひそかにアップデート
http://japan.cnet.com/news/service/story/0,3800104747,20415453,00.htm

そういえば、Macのアップデートしましたね。
(私はMacを使っています。)

Macは昔からウィルスには強いといわれています。
Macを買ったときに一応心配なのでウィルス対策ソフトウェアを買いに行ったら
店員にMacのウィルスはほとんどないといわれました。
でも心配なので、商用のウィルスソフトウェアを導入しています。

Macは意外とウィルスに強いといわれる理由はWindowsに比べて普及率がまだまだ低いので
ターゲットになりにくいというのが最大の理由です。
現在、iPhoneやiPadの影響でMacの普及率も増えてきていると思います。
ということはMacユーザもそろそろ対策について真剣に考えないといけないと思います。
ちょっと古いですが、下記カスペルスキー氏のインタビューにMacのセキュリティについての言及があるので
参考にしてください。
http://www.atmarkit.co.jp/news/200805/16/kaspersky.html

2010年6月18日金曜日

有益なITに関する日本語でよめる読書案内

ITの技術力を高める基本を本を読んで自分で勉強することだと思います。
もちろん、大学院やセミナーなどに参加することもいいですが、お金と時間が非常に
かかります。
やっぱり、手っ取り早いのは独学でどんどん勉強して実務で使いながら、応用していくことだと思います。
でも、ここで困ったことがおきます。。。
はたしてどんな本を読めばいいのでしょうか。
本屋に行ってもメインは新刊や流行りの本が中心ですので、読むべき本がいつまでも置いてあるケースは
少ないです。また、コンピュータの名著100冊などの書籍案内本を非常に重宝していますが、
これも更新がされていなかったりとある程度利用が限られてしまいます。
ということで頼りになるので、Webでの書籍案内です。
でもなかなかこれぞという読むべき本を紹介しているページはありません。
今回詳細するのは、私がこれぞと思うお勧めの書籍案内ページです。
書籍を見るだけ押さえるところは押さえているという感じがします。
しかも、日本で読める本のみ紹介しています。
また、各ページに短い書評もあります。
ぜひ利用しましょう。
ここに紹介されている本はすべて読みたいと思います。
http://www.tamakiseoffice.jp/my_bookshelf/book_index.htm

DMBOK Introductionを読む

DMBOKのIntroductionの章を読みました。
この章ではDMBOKの目的や全体像が記載されています。
ちなみにDMBOKは下記10の知識体系に分かれています。
1.Data Governamce
2.Data Architecture Management
3.Data Development
4.Data Operations Management
5.Data Security Management
6.Data Quality Managment
7.Reference and Master Data Management
8.Data Warehousing and Business Intelligence Management
9.Document and Content Management
10.Meta-data Management
1のData Governamceがそれ以外の知識体系の中心となるようです。
こういうフレームワークがあると知識が整理できて、全体像がわかるので非常にいいですよね。

Data warehouseドキュメントテンプレート

Data warehouse / BIを設計するときに困るのがどんなドキュメントを作成するべきかということです。
テンプレートがあれば、とっかかりに非常に便利です。
まずはテンプレートを使ってみて、適宜プロジェクト用に修正していけばいいわけですから。。。

私が参考にしているテンプレートはKimballのサイトにあるものです。
下記からダウンロードできます。
http://www.kimballgroup.com/html/booksDWLT2tools.html

これは「The Data Warehouse Lifecycle Toolkit, 2nd Edition」に
対応しているものなので、この本をわせて読むとより効果があるかと思います。

2010年6月17日木曜日

Distributed systemを学ぶ

下記Google Code UniversityにDistributed systemを勉強できるサイトが
あります。
ここでひとまず勉強したいと思います。
http://code.google.com/intl/en/edu/parallel/index.html

Jolt awards 2010-2011

すぐれたアプリケーションやIT書籍を表彰するJolt awardsという賞があります。
私はIT本を探すときにこのJolt awradsをよく参考にしています。
2010のJolt awardsの情報がなかなかでないなあと思っていたら
下記にスケジュールが掲載されていました。
http://www.drdobbs.com/joltawards/225600433
書籍については2011年なんですね。
残念。。。

Data Analysis with Open Source Tools

オライリーから「「Data Analysis with Open Source Tools」のRough cut版が出ました。
Safari bookで読めるので、ちょっと読んでみたいと思います。
読んだから、感想を掲載します。
http://oreilly.com/catalog/9781449389796/

Cassandra

まだ、全然しらべていませんが、No SQLのスケーラブルなデータベースとしてCassandraというものがあります。
http://cassandra.apache.org/

もとはFacebookが開発したようですが、現在はApacheによって開発されています。
これはちょっとおさえておきたい技術なので、勉強したいと思います。

参考web:
http://www.publickey1.jp/blog/10/twitterdiggnosqlcassandra.html

DMBOKの8. Reference and Master Data Management

今後ますますホットな話題として上がるキーワードにMDM Master data management/マスターデータ管理があります。
これは簡単に言ってしまえば、社内で別々に使われているデータをきちんと整理、統合して使うことです。
これは非常に重要なテーマですので、しっかり勉強しようと思います。
といってもいきなり分厚い本を読むのは大変ですので、DMBOKの第8章がMDMにあたるのでそこをまず読みました。
奥が深いですね。ここはデータの品質管理など様々テーマとかかわっているので、実践するのは大変です。
でも、やらないと企業競争力はあがらないですよね。ということでこのテーマも掘り下げて勉強していきたいと思います。

リレーショナルデータベースの真髄を伝えるクリス・デイト

データベースの教科書して全開で読まれている「An Introduction to Database Systems」と
いう本があります。日本語訳は古いバージョンですが、「データベースシステム概論」という名前で出版されています。
私はこの英語の最新版と日本語の両方を持っていますが、残念ながら読もう、読もうと思いつつ、まだ読んでいません。
これから読んでいきたいと思います。

で、この本を書いたのでクリス・デイトです。彼はリレーショナルデータベースの理論をわかりやすい説明することで定評があります。
わかりやすいとは言っても理論を厳密に説明しているので、じっくり学習しないとそれなりに難しいですが。。。
私がクリス・デートの本に触れたのは「データベース実践講義――エンジニアのためのリレーショナル理論」が初めてです。
と言ってもまだこれしか読んだことがないのですが。。。
この本の内容に感動して、クリス・デイトの本を集めたので、今のところこれ以外は集めただけでまだ読んでません。。。
うーん、読まないと。。。

クリス・デイトについては下記Wikipediaに説明がありますので、参考にしてください。

http://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AA%E3%82%B9%E3%83%BB%E3%83%87%E3%82%A4%E3%83%88

OreillyのSafari bookにクリス・デイトのビデオ講義があるので、視聴してみたいと思います。
タイトルはC.J. Date's SQL and Relational Theory Master Class。
英語ですが。。。

クリス・デイトで検索していたら、「Nullology: The Zen of Database」というWebcastがあるようですので、
これも聞いてみたいと思います。
http://www.oreillynet.com/pub/e/1598

DMBOK 「9. Data Warehousing and Business Intelligence Management」を読む

以前紹介したData管理のフレームワークDMBOKのData warehouse / BIの章を読みました。
非常によくまとめれており、ビル・インモンとラルフ・キンボールのアーキテクチャやSlowly Changing Dimensionの
説明などがあります。
Data warehouse / BIに詳しくない人でもこの章をよめばある程度の知識をカバーできてしまいます。
忙しいマネージャはまずこれだけ読むだけでも大分違うのではないでしょうか。
現在、DMBOKを興味のあるところだけ、読んでいます。
次はMaster data managementの章を読んでみようと思います。

Databaseの動向を把握する

データエンジニアとしてはDatabase製品の最新動向を常にWatchしておくことは非常に
重要だと思います。
でも情報収集って結構大変ですよね。
そこで@ITにDatabase watchなるコラムがあります。
1か月に一回データベース最新情報について紹介しています。
非常に重宝しています。
http://www.atmarkit.co.jp/fdb/index/index-db.html#dbwatch

PowerPivot

SQL Server 2008 R2にPowerPivotと呼ばれる
ツールが付属しているようです。
これはローカルのメモリを使ってインメモリで多次元データを分析できるようです。
これを利用すれば、ユーザの利便性が非常に上がると思います。
詳細は下記記事を参照してください。
http://japan.zdnet.com/blog/komeno/2010/03/09/entry_27038048/

Data warehouse / BI技術について最新動向を提供する有益なサイト

Data warehouse/BI関連でよく検索していると下記サイトにぶつかります。
Data warehosue / BIについて最新の技術動向などを日本で提供している
非常にすぐれたサイトだと思います。
情報収集に利用しています。
http://www.publickey1.jp/

2010年6月15日火曜日

Hadoopを利用したBI

Hadoopを利用したBIをPentahoなどの企業が検討しているようです。
分析したデータが劇的に増える中、数年後にはHadoopを利用したBIの利用がもっと増えるかもしれませんね。

下記に詳細な記事があります。
http://www.publickey1.jp/blog/10/hadoopbi.html

大規模分散データ処理システムHadoop

Googleの検索を支えている技術に大規模分散ファイルシステム「Google File System」,
大規模分散計算フレームワーク「MapReduce」,大規模分散データベース「Big Table」,分散ロックサービス「Chubby」と
いう4つのソフトウェアが使われているそうです。

Hadoopはグーグル発表の論文をもとに作成されたオープンソースクローンです。
対応は以下の通り。
Google File System→Hadoop Distributed File System
MapReduce→Hadoop MapReduce
BigTable→hBase

Googleの論文
http://labs.google.com/papers/gfs.html
http://labs.google.com/papers/mapreduce.html
http://labs.google.com/papers/bigtable.html
http://labs.google.com/papers/chubby.html


Hadoopの利用は現在欧米の大手企業を中心に進んでいるようで、Data warehouseでの利用もされているようです。
ちなみにFacebookが開発したHiveというHadoop上に乗っかるデータウェアハウス用のソフトウェアもあります。
http://hadoop.apache.org/hive/

将来的にこのような分散処理技術はますます必要になると思います。
ということで概要と全体像だけでも勉強しておきたいと思います。

http://hadoop.apache.org/




また、GoogleでBigQueryという、データにアクセスするテクノロジーもあるようです。
http://code.google.com/intl/ja/apis/bigquery/

2010年6月13日日曜日

リレーショナル理論を極める本

データベースを理解するにはなんと言ってもリレーショナル理論を理解することが
必要になります。
現在主流のデータベースはすべてリレーショナル理論をベースにしていますので
データモデルの設計をする上ではリレーショナル理論の理解は必須です。
本日紹介するのはそのリレーショナル理論をマスターするための本の紹介です。
私がおすすめするにはクリス・デイトのデータベース実践講義 ―エンジニアのためのリレーショナル理論です。
オライリーから出版されています。
正直難易度は高いですが、これを読めばリレーショナル理論とは何かが理解できると思います。
とは言っても私もまだこの本のすべての内容を完全には理解していないです。
この本は何度も何度も読めば味で出る本ですので、何度も読む必要があります。
でもこの内容が理解できればデータ設計力はかなり向上すると思います。
引用本は忘れましたが確か有名な人がこのようなことを言っていました。
「実践なき理論は空虚である。理論なき実践は危険である。」
データ管理、データベースにとってもまさにその通りだと思います。

このレベルの理論を理解しているSEは非常に少ないと思います。
ですので、スーパーデータエンジニアを目指すかたはならず読んでほしいと思います。
幸いなことに日本版がありますし。。。
しばらく読み返していないのでまた読んでみたいと思います。


2010年6月11日金曜日

Data warehouse / BIの有益な情報を提供するサイト

Information managementというサイトがあります。
ここにはData warehouse / BIの有名な専門科のコラムが多数掲載されています。
非常に有益な情報が公開されているので役に立っています。

Information management

ビル・インモンの本

データウェアハウスの更なる勉強のため、下記のビル・インモンの本を読むことにしました。



これはラルフ・キンボールの本と並んで、データウェアハウスの名著です。
購入はしましたが今まで読んでいませんでした。。。ということで読みます。


DW 2.0 / Data warehouse 2.0の勉強のため、本書を読みます。

インモン本を読まないとだめですよね

以前、インモン vs キンボールということでデータウェアハウスの派閥について
説明しました。
私は現在のところはキンボール派なのですが、それは小さく初めて大きく育ていることが
できるからです。いわゆるクイックアクションが取りやすいと思います。
でも、インモンの概念も非常に大事ですし、企業全体のデータウェアハウスを考えるうえでは
必須の知識だと思います。
ということで、インモンの本も読んで勉強したいと思います。

データって奥が深いですよね。

MS SQL Sever 2008とDW 2.0

Webを検索していたら、下記記事を見つけました。
http://technet.microsoft.com/en-us/library/ee730351.aspx

SQL Sever 2008R2ってかなり進化しているんですね。。。
もっと勉強しないといけないですね。

DW 2.0の勉強を始める

DW 2.0というのがあります。
次世代のデータウェアハウスのアーキテクチャのようです。
データウェアハウスの父といわれるビル・インモンによって提唱されているようです。
下記に簡単な記事があります。(英語です。)
http://www.information-management.com/issues/20060401/1051111-1.html

こちらにも情報があるようです。
http://www.inmoncif.com/home/

早速、DW 2.0について勉強をしてみたいと思います。

まずはインモンのDW 2.0: The Architecture for the Next Generation of Data Warehousingを
読んでみようと思います。

スタースキーマ、Dimensionalモデルのすすめ

Data warehouseの要件や設計をする際はスタースキーマを利用するといいと思います。
理由としてはユーザと話をするときにスタースキーマを利用してユーザと話ができることです。
普通ユーザはテクニカルには詳しくないのでデータモデルを見せると混乱すると思いますが、
スタースキーマは非常にシンプルであり、分析する切り口が非常にわかりやすいので要件定義も
スムーズにできると思います。

Relationalデータの設計から入った私としては、最初はスタースキーマに抵抗がありましたが
一度わかると自分で分析の切り口を考える際も非常に役立ちます。。。

皆さん、スタースキーマを利用しましょう。。。

Factテーブルの種類について

Factテーブルの種類は3つの種類があります。

①トランザクション(Transaction)
トランザクション情報
②期間スナップショット(Periodic snapshot)
ある期間のサマリー情報
③累積スナップショット(Accumulating snapshot)
ライフタイムまたはビジネスサイクルの情報

これらを念頭において、要件分析や設計をすると非常にすっきりとします。

キンボール本の「5.5.Fact Table Comparison」によくまとめらた表が
ありますので、詳細はそちらを参考にしてください。


FactデータをTransactionとCurrentのDimension情報で見たい場合の設計方法

Factデータをデータが発生した当時のDimension情報と現在の最新データの両方が見たいばあいがあります。
たとえば、当時の住んでいた都道府県と現在の都道府県の両方で見たい場合など。。。
Dimensionの更新の扱いについてはSCD(Slowly Changing Dimension)というテクニックがあるのですが、
そのType3またはType6を利用するとTransactionとCurrentの情報を見ることができるのですが、
DimensionにType1とType3が混ざっているとややこしいので、実際は必要な項目だけType1とType3の両方のDimensionを作成して
対応しています。
たとえば、都道府県の例でいえば、Factテーブルに発生した時点の都道府県Dimensonのキーを入れておきます。
これでデータ発生した際の都道府県のデータは分かります。
現在の最新の都道府県のデータはCustomer dimensionに入れておき、FactテーブルにはCustomer keyを入れておきます。
そうすれば、Customerから最新の都道府県が参照できます。

多少ETLの処理が複雑になってしまいますが、パフォーマンス的には問題ないと思います。

Cusotmer dimensionのDateデータをどう扱うか

Customer dimensionを設計する際、データに最終購入日や生年月日などのDateデータが
含まれることがよくあります。そのままテキストデータとして日付を入れてもいいのですが、要件として
Date dimensionに含まれるmonthやYearなどのグルーピングを利用したい場合があります。
そのばあいはどのようにDimensionを設計すればいいのでしょうか。

一般的にStar schemaを作成する際は、snowflakeはなるべく使用しないほうがいいといわれますが
この場合はOutriggerというsnowfalkeテクニックを使用します。
Outriggerとはこの場合、Customer dimensionのDate項目にDate dimensionのサロゲートキーを
持たせ、リンクを張ること言います。そうすれば、Date dimensionのグルーピング機能を利用できるようになります。
ただ、結合が増えてしますので、要件を考慮して、過度な使用は避けたほうがいいようです。

詳細を知りたい方、キンボール本「The Data Warehouse Toolkit: The Complete Guide to Dimensional Model」
の「6.2.2. Other Common Customer Attributes」に記載されていますのでそちらを参照してください。


2010年6月9日水曜日

ビジネス分析の知識体系:BABOK

データウェアハウス、BIを設計するにあたってまず大事なのはビジネス分析です。
ビジネス分析するにあたってまずは最低限の業務知識は必要だと思いますが
ビジネス分析するスキルも重要です。
とは言ってもテクニカルスキルとは違ってこれは簡単に身に付くものはありません。
ほとんどの人は経験で学びながら身につける人が多いのはないでしょうか。
自分で身につけることができない人はなかなか難しいですよね。

そこで今回紹介するのが、
BABOK、Business analysis body of knowledgeです。
日本語に訳すとビジネス分析の知識体系となります。
これはいわゆるビジネス分析のベストプラクティスのようです。
私は英語版のBABOKを購入したのですが、なかなか勉強が進んでいません。。。
ということでがんばって勉強します。。。

あと、PMPと同じようにこれにも資格試験があるようです。
しかし、これは試験を受けるのにかなり難しいようです。
BABOKを管理しているIIBAに合格体験記が載っていますが、
試験を受けるまでに結構審査が厳しいようです。
ま、それだけ品質は担保されているってことでしょうか。
私もいつかチャレンジしたいと思いますが、当面はBABOKを勉強して
実務で少しずつ利用していきたいと思います。

IIBA

2010年6月8日火曜日

データ管理のフレームワークDAMA-DMBOK

皆さん、プロジェクトマネジメントの知識体系のPMBOKを知っている人は多いと思います。
PMPを持っている人も多いのでないでしょうか。
実は、データ管理においても知識体系が存在します。その名はDMBOKです。
日本ではデータ総研が日本語化しています。日本語版はデータ総研で購入することができるようです。

ちなみに私はこの英語版を購入しました。ということでちょっとずつ読み始めています。
ボリュームが非常に多いのですが、データに関して幅広くまとめられています。
もちろん、データウェアハウスについても記載があり、インモンとキンボールのアーキテクチャに
ついても記載があります。

がんばって英語で読み込んで、このブログでも紹介して行きたいと思います。




Data Management International