データレイクとは?データレイクとデータウェアハウスとの違い、データレイクの活用事例をご紹介
ビジネスにおけるデータの利活用が進み、企業が取り扱うデータの量と種類が急増しています。企業内に分散して存在するデータを統合し、一元管理するためのシステムとして、データレイクが注目されています。
今回のコラムでは、データレイクをはじめ、データウェアハウスとの違い。そして、データレイクの活用事例について解説します。
データレイクとデータウェアハウスについて
データレイクとデータウェアハウスは、どちらも、企業内に分散しており、日々増え続ける様々なデータを統合し、一元管理するためのシステムを指します。
データレイクは、収集した生のデータを加工することなく格納し、保管する役割を担います。業務システムで扱う構造化データだけではなく、画像や動画、音声というような規則性を持たない非構造データ化データも含みます。将来必要になった時に、利用者のニーズに合わせて活用できるよう、そのまま保管します。日々増えていくデータを魚に例えるならば、データレイクとは、いつか魚を活用できるようにそのままの姿で泳がせておくための巨大な湖(レイク)です。
一方、データウェアハウスは、社内の各種アプリケーションやデータベースに保管された規則性を持った構造化データを収集し、あらかじめ定められた形に統合・格納します。データウェアハウスでは、データの利用目的が事前に決まっており、そのために最適化された形でデータが保管されるため、抽出・分析といった作業を素早く実施することが可能です。
データレイクとデータウェアハウスの違い
データレイクとデータウェアハウスは、「データを格納する」という点については同じ役割を持ちますが、その目的や強みは大きく異なります。
それは、上述したようにデータレイクは、利用目的が定義されていない生データを保管します。通常、データレイクはデータウェアハウスよりも遥かに大きなストレージ容量を必要としますが、自分で設定した目的に応じて柔軟に活用することが可能です。したがって、機械学習などと組み合わせることで、データから新たなインサイトを得ることができます。
このように自由度がある反面、データを闇雲に保管した結果、どこに何があるのか分からない状態に陥ります。これをデータスワンプ(データの沼地)と言います。データスワンプにならないよう、情報の扱いには注意が必要です。そのためには、データカタログという考え方が最適です。これは、データを蓄積し、更新する際に、カタログのようにタイトルや概要、出所、鮮度やファイル形式といったメタデータを付与し管理することです。利用者は、カタログを参照することで、必要な生データをすぐに見つけることができます。
データウェアハウスは、目的が明確であり、必要なデータのみを保管するため、ストレージ容量や、CPUやメモリなどのリソース消費も最小限に抑えることが可能です。また、データウェアハウスに保管されるデータは、目的に応じて加工されているため、使いやすいといったメリットがあります。一方で、決められたデータしか扱わず、定型的な分析しかできないため、柔軟性や分析の自由度という面では、データレイクに優位性があります。
データレイクの活用事例
データレイクは、製造業や教育など、様々な分野で活用されています。
例えば、IoTを活用したセンサー付き眼鏡を開発した眼鏡メーカーでは、センサーで収集した黒目の動きやまばたき、頭部の傾き・揺れなどのデータを、データレイクに保管しています。データレイクに蓄積されたデータの分析から、走行フォームの改善点をアドバイスするアプリや、デスクワーク時の集中力を測定するアプリといった新たなサービスが誕生しました。データレイク運用を開始した時点で、こうしたサービスの構想があったわけではありませんが、データレイクにデータを貯めたことが、新サービスの開発起点になりました。
またある大手製薬会社では、研究開発の成功率向上を目的として、国や医師会などから、形式にかかわらず製薬データを収集し、自社のマルチクラウド上のデータレイクに格納して様々な分析を行っています。
そして通信教育大手では、データレイクに生徒によるタブレットの操作ログやアプリケーションサーバーのログなどを蓄積しています。生徒の成績や出席状況などのデータを、問題を抱えた生徒の状況改善に活用し、問題が発生する前に予測することを目指しています。
関連サービス
- コンサルティング/PoC 企業のグローバル化が進む中でIT組織プランから運用保守を含めたコスト最適化分析支援まで、SAP アプリケーション導入のためのコンサルティングを提供します。