2010年6月15日火曜日

大規模分散データ処理システムHadoop

Googleの検索を支えている技術に大規模分散ファイルシステム「Google File System」,
大規模分散計算フレームワーク「MapReduce」,大規模分散データベース「Big Table」,分散ロックサービス「Chubby」と
いう4つのソフトウェアが使われているそうです。

Hadoopはグーグル発表の論文をもとに作成されたオープンソースクローンです。
対応は以下の通り。
Google File System→Hadoop Distributed File System
MapReduce→Hadoop MapReduce
BigTable→hBase

Googleの論文
http://labs.google.com/papers/gfs.html
http://labs.google.com/papers/mapreduce.html
http://labs.google.com/papers/bigtable.html
http://labs.google.com/papers/chubby.html


Hadoopの利用は現在欧米の大手企業を中心に進んでいるようで、Data warehouseでの利用もされているようです。
ちなみにFacebookが開発したHiveというHadoop上に乗っかるデータウェアハウス用のソフトウェアもあります。
http://hadoop.apache.org/hive/

将来的にこのような分散処理技術はますます必要になると思います。
ということで概要と全体像だけでも勉強しておきたいと思います。

http://hadoop.apache.org/




また、GoogleでBigQueryという、データにアクセスするテクノロジーもあるようです。
http://code.google.com/intl/ja/apis/bigquery/

0 件のコメント:

コメントを投稿