データレイク

データレイクとは

 データレイクとは大量の非構造化データ(データの正規化や統合化等を行っていない状態の生データ)をそのまま蓄積しておく場所です。データレイクでは、フラットファイルシステムをサポートするマシーンやメインフレームさえあれば問題ありません。また、データの処理(データの構造化等)は別のサーバにデータを移動させて行います。SNSやIoTにより大量に発生するビッグデータ処理を高速化するため、Hadoop Distributed File System(HDFS)などを利用したりします。
 データレイクでは、大量のデータを入手した際、何に使用するのか検討する場合、取り急ぎの対応として生データのままでデータを蓄積することが可能です。

データレイクとデータウェアハウス(DWH)の違い

 データレイクのように大量のデータを蓄積するという考えの前身としてデータウエアハウス(DWH)というものがあります。DWHではデータを構造化して蓄積する仕組みであったため、DWHの専門家によるデータ構造化設計が必要となり特定の目的での利用に制限される傾向がありました。企業におけるデータの更なる多様化により利用部門のニーズが変化するにつれ、構造化された大量のデータをDWHとして変化に追随することが負担となり、使われなくなるという歴史をたどったシステムは多いと思います。
 企業には構造化データ以外にも構造化されていない生のデータ(非構造化データ)として、テキストデータ、SNS、IoT、更には外部から収集した調査データなどの非構造化データが大量にあります。データレイクはこのような多様な非構造化データを集約するものとして活用されるようになってきました。
 一方でDWHは新たな役割を得て、データを構造化設計しなくてもテキストデータやCSVデータから自動的にDM(Data Mart:小規模なDWH)と呼ぶ分析用のDBを生成してくれる優れたBIツール(Business Intelligence)と組み合わせての活用が拡がっています。データレイクから特定の目的で取り出したデータを部門やパーソナルユースでBIツールに投入しDMを生成して分析に利用することができ、更にBIツールのダッシュボード機能などと連携することによりビジュアルでの可視化なども可能となるなど製品として新たな用途に進化してきています。例えばMicrosoft社のPower BIやSAP社のBusinessObjectsなどもその一つでしょう。

データレイクに期待すること

 DWHでは、データが既に構造化された状態で蓄積されていました。DWHでは、データをどのような観点で分析するのかが決定しているため、他の観点での分析に適していないというデメリットがあります。そこで、データレイクを使用することで、生データを好きな時に好きなタイミングで好きな観点で分析することが可能になりました。

データレイク導入における留意点

 とりあえず誰かが保存したデータが無造作(非構造的)に蓄積されたものがデータレイクです。データレイクに蓄積されたデータは、時に誰かが分析したり、AIによって活用されたりします。このようにメリットが多いデータレイクに思われますが、留意点ももちろんあります。
 例えば、何でもかんでもデータレイクにデータを入れたまま放置することです。実際にデータを使用するとなった場合、データはあるはずだが、どこにあるのか分からないといったことが発生し、誰にも使用されない(データレイクからデータを探すのが面倒なため、新たにデータを別から探してしまう)可能性があります。これを防ぐためには、データを素早く探す仕組みとして、データの属性(メタデータ)を記録することが必要です。(※メタデータの具体例としては、データの出所(ソース)、関連する場所、顧客、所有者、データの粒度、種別、形式等があります。)他にも、データレイクを定期的に整理する(誤字脱字や表記違い等の訂正を行う)ことも有効です。特に、取引先の秘密情報や個人情報などコンプライアンスに関する取扱いにも注意が必要なことを忘れてはいけません。

まとめ

 DWHからデータレイクへと変遷し、大量のデータを蓄積し、活用することが可能になりました。しかし、データレイクであっても都合の良いごみ溜めのように無節操にデータを蓄積すると使われないデータが幅を利かせ、ランニングコストが高騰することにつながります。先ずは、具体的な目的、用途に合わせたデータの蓄積から始め、効果を享受しノウハウを蓄積しながらデータのスケールや対象スコープを拡大して行くことがお奨めです。
 また、データの発生タイミングによりマスタやコードが変化するのは常であるため、蓄積するデータを後から正しく理解できるような工夫も必要です。蓄積するデータの属性を記録し、定期的にデータを整理するルールを予め定め、そのルールに従いデータ活用がより快適かつ効果的に行える対応は、データレイクであっても欠かせないと言えます。

お仕事のご相談や、ご不明な点など、お気軽にお問い合わせください。
セミナー開催予定など最新ニュースをご希望の方はメルマガ登録をお願いいたします。