ビジネスインテリジェンスの分野でデータウェアハウスの重要性が増しています。ビジネスインテリジェンスとはデータを経営上の意思決定に役立てようというものです。データウェアハウスが企業の意思決定に果たす役割とはどういったものなのでしょう。
データウェアハウスとはそもそも何か
データウェアハウスとは、企業が保管している膨大なデータを分析するためのシステムです。元々はデータを最初に保存した時の情報をそのまま保管するという目的が強く、更新されないデータ格納庫という目的がありました。
時系列でどんどんデータが積み上がっていくわけです。その溜まった膨大なデータを分析して活用するための仕組みがデータウェアハウスなのです。
データベースとの違い
データベースの場合は、保管してあるデータをいつでも活用できることが前提の作りになっています。日常的に使用するデータをすぐに取り出せるような形にしてあるのです。
しかしデータウェアハウスの場合は、データを活用するとはいっても日常業務やwebサイト上から常に呼び出せるわけではありません。あくまでデータの蓄積の目的の作りになっています。データベースがスーパーマーケットだとすると、データウェアハウスは倉庫と考えればいいでしょう。
データウェアハウスの目的
データウェアハウスの目的はその蓄積された膨大なデータを統合して分析に最適化することです。データベースは業務利用のための側面が強いですが、データウェアハウスはマーケティング戦略や経営戦略、顧客の分析などをすることを目的としています。
データウェアハウスの4つの特徴
データウェアハウスは4つの満たすべき特徴があります。データベースとの根本的な違いを形作っている要素ともいっていいでしょう。データウェアハウスを活用すべきか、データベースで十分なのか判断材料にしてください。
特徴1.時系列にデータを保存
データウェアハウスは時系列にデータを保存します。これは一旦保管されたデータが上書き保存されないことを意味しています。ある項目についてのデータの移り変わりが全て明らかになっているということなのです。
逆に最新の状態に更新してあるデータを引っ張り出す目的ならデータベースの方が即していると言えます。過去の時点でのデータを常に比較できれば、分析には大いに役立つでしょう。
特徴2.データは基本的に消えない
データが更新されないのにも通じることですが、データウェアハウスに保存されたデータは修正も削除も基本的にされません。とにかく時系列にデータが積み重なっていくのです。ですので、保管されるデータの量は膨大になります。
データウェアハウスに保管するデータは保管すること自体が目的なので、間違いを修正したり保存されたデータを削除したりするという行為はそもそものデータウェアハウスの存在意義と相いれません。データを削除したり修正するのはデータベース上で行う作業です。
特徴3.内容で分類して保存する
いくら時系列でデータを保管するとは言っても、無秩序に重ねられているだけでは分析や抽出はままならないでしょう。そのため、内容ごとに仕分けされて保管されています。
データウェアハウスは倉庫のような性質があるため、家具に例えれば椅子は椅子、テーブルはテーブルでまとめてあります。同じ家具を並べてあるのでも家具屋の店頭のようにリビングルームのイメージを客に見せるような陳列はされていないのです。
特徴4.データの統合を行う
データウェアハウスにはデータを統合する役割もあります。例えば全国の1000の店舗の売り上げを品目や価格、売り上げ日など全てを保管するデータウェアハウスがあったとして、店によって品目の名称が微妙に異なって、別の品目として保存されてしまってはデータとしての精度がありません。
ですので、いわゆる項目名を統一してデータが適切な状態で蓄積されるようにすることもデータウェアハウスの活用においては重要です。
代表的なデータウェアハウス
それでは現在活用されている代表的なデータウェアハウスを6つご紹介します。それぞれに特徴があるためデータウェアハウスで何を行いたいのかを考えた上で選択するようにしましょう。
1.Oracle Exadata
これまで多くのマシンで分散して構築されていたデータウェアハウスを一つの巨大なマシンに統一しました。これによってコストが削減され、さらにマシンの速度も10倍以上になりました。
データウェアハウスにも関わらずリアルタイムでの運用も可能な、非常に高性能なデータウェアハウスです。最も代表的なデータウェアハウスと言えるでしょう。
2.IBM Integrated Analytics System
IBMのデータウェアハウスです。IBM Data Science Experienceがインストールされており、蓄積されたデータをもとにAIが機械学習を行うことができます。
ビジネスインテリジェンス向けの経営者向けのデータ抽出にも利便性がありますし、データを分析して傾向や指針を抽出するデータサイエンティスト向けのデータ抽出にも適しています。
3.Amazon
Amazon Redshiftはクラウド型のデータウェアハウスです。最大の特徴はとにかく安い!一般的なデータウェアハウスの1/10、規模によると1/1000にコストを下げることが可能です。
また、PostgresSQLのプラットフォーム上から操作することができるという点も、データベースエンジニアにとっての利便性が高いです。
4.b→dash
b→dashは企業向けの総合マーケティングプラットフォームです。その中にデータウェアハウスの機能もあり、AIを使ったデータ統合や機械学習、処理工程の最適化などを自動かつ安価に行うことができます。
GMOや楽天野球団、カクヤス、ABC Cooking Studioなど導入する企業が増えています。
5.AnalyticMart
クラウド型のデータウェアハウス。高速高圧縮が特徴で、データの抽出作業がストレス少なく、かつセキュリティが高いです。
初年度の設置費用も他社の同タイプのサービスに比べると4割程度安いというコスト面、エクセルから操作できるという手軽さがメリットとしてあげられます。
6.高速機関
名前の通り超高速な処理が可能なデータウェアハウスです。金融機関で1時間48分を超える処理時間がかかったファイルをわずか49秒で処理したという逸話があります。
データウェアハウスを外注して開発するには
社内のデータ資源を系統立ててデータウェアハウスに保存して、ビジネスインテリジェンスに役立てようという場合、どのように進めたらいいのでしょうか。
すでにデータウェアハウスの運用をしている場合、初めての場合によっても変わってくるでしょう。
外部の受託企業に外注する
データウェアハウスの構築は非常に大きなプロジェクトになることが多いため、上記で紹介したようなデータウェアハウスを取り扱っているシステム会社もしくはメーカーに外注することが多いでしょう。
当然ながら莫大な費用がかかりますが、最近はクラウド型のデータウェアハウスも一般的なので各社の話を聞いてコスト面と目的に沿った内容にすることが大切です。
クラウドソーシングでエンジニアに依頼する
クラウドソーシングでデータウェアハウスエンジニアと直接マッチングするという方法もあります。すでにデータウェアハウスを運用しており、専門のエンジニアが必要という場合、フリーランスの経験豊富なエンジニアと直接案件について打ち合わせをするのは話がスムーズに進むでしょう。