この記事では、データマートの定義や用途、その他のデータベースとの違い、データマートの種類といった基本情報を解説したうえで、データマートの実装のメリットを解説します。
まずはデータマートの基本情報を解説します。 データマートは直訳すると「データの小売店」のことで、一言で表すなら簡易的なデータウェアハウスです。 一般的に、組織の1部門において構築・管理される、データウェアハウスをスライスしたデータセットのことを指します。 なお、組織の規模や分析に必要なデータソース量によっては、データマートのみで分析環境を構築する場合もあります。 データマートの主な用途、ユースケースは次の通りです。 ・より質の高い分析が求められている場合 ・データプロジェクトのスケジュールが限られている場合 ・データへのアクセス権限を管理したい場合 ・リソースに偏りがある場合 ひとつずつ掘り下げて解説します。 より質の高い分析が求められているケースで、データマートは活躍します。 データマートとして切り出されたデータは、特定の問題を解決するために絞り込まれたサブジェクトであるため、データウェアハウスのような大規模なデータベースと違い、その他の無関係なデータを取り扱う必要がありません。そのため、分析速度が向上します。 データマートの形にして焦点を絞ることで、データウェアハウス全体に対して分析を実行するよりも、簡単で、高速な分析が実現するのです。 データプロジェクトのスケジュールが限られている場合、データウェアハウスよりもデータマートの構築が適しています。 データマートは、データウェアハウスより小規模で構築するため、より少ない開発リソースとデータソースで実装することができます。 少ないリソースで実装できるため、データウェアハウスよりも実装が高速であり、差し迫ったスケジュールのデータプロジェクトに最適です。 データへのアクセス権限を管理したい場合にも、データマートは有効です。 データウェアハウス全体へアクセスするユーザーが増えると、不正アクセスや誤った書き込みが発生するリスクが生まれ、データの品質が損なわれる可能性が高まります。 そこで、部門ごとに独立したデータマートを構築することで、データウェアハウス全体を公開することなく、必要なユーザーに必要なデータへのアクセス権限を付与することが可能です。 セキュリティリスクを回避する一方で、データ品質の向上にも寄与します。 複数の部門間で分析リソースを共有しており、さらにそのリソースに偏りがある場合、1つのチームが大量のデータベースアクションを実行しているとき、その他のチームの分析が捗らない、といった問題が生じます。 そういった場合も、各部門・各チームに適したデータマートを提供することで、リソースを適切に割り当てることができます。 次に、データウェアハウスやデータレイクなど、データマートとあわせて語られることの多い用語との違いについて解説します。 データマートが「データの小売店」であるのに対し、データウェアハウスは「データの倉庫」を指します。データマートが小規模であるのに対し、データウェアハウスは大規模である点が大きな特徴です。 データウェアハウスは、企業のあらゆるデータをひとまとめに整理して集約できる一方で、分析基盤としてそのまま扱うにはデータ量が膨大過ぎる場合があります。 そこで、データマートとして一部のサブジェクトを切り出すことで、分析に伴うハードルを下がり、分析の頻度や質の向上が見込めるのです。 データマートとデータウェアハウスの具体的な違いは、次表をご確認ください。 参考: データ・マートの概要|Oracle Business Intelligence Standard Edition Oneチュートリアル データウェアハウスの詳細については、下記記事もあわせてご覧ください。 データレイクは、データウェアハウスやデータマートのようなリレーショナルデータベースでは保持の難しい、非構造化データを集約して保管するための「データの湖」です。 データを集約するという点でデータウェアハウスと共通していますが、データウェアハウスやデータマートの分析目的が明確であるのに対し、データレイクは目的の不明瞭なデータまですべて集約するという点が大きく異なります。 そのため、データウェアハウスやデータマートが過去の分析に向いているのに対し、データレイクは未来の分析のために用いられるシステムと言えます。 本来はデータウェアハウスもデータレイクと同様にすべてのデータを集約する目的で用いられるものですが、増加し続けるデータ量に対して、全データを保管するのは主にコストの面から難しい状況になりつつあります。コスト削減のため、集約したデータの一部を削除するといったケースも散見されます。 そうした状況において、データレイクは過去のデータを低コストで確実に蓄積するソリューションとして有効と言えるでしょう。 データレイクの詳細については、下記記事をあわせてご覧ください。 データマートは、データソースとの接続方法により、従属型・独立型・ハイブリッド型の3種類に分けられます。 従属型データマートは、組織のデータを集約するデータウェアハウスから、一部のデータセットを引き出して用いるデータマートです。 従属型データマートでは、データウェアハウスに集約されたデータはすでにETLプロセスを経たクリーンなデータであるため、必要に応じたサブセットを特定して切り出すだけでデータマートとして機能します。 汎用性が高く、各部門の分析にかかる工数削減などの通信コスト抑制効果が見込める一方、データウェアハウスを構築していない組織ではやや導入ハードルの高いシステムと言えるでしょう。 独立型データマートは、データの業務系ソースか外部ソース、あるいはその両方から直接データを引き出すことによって構築されるスタンドアローンのデータマートです。 独立型データマートでは、データウェアハウスで行われるETLプロセスもすべてデータマート側で実施する必要があるため、分析のスピード感は従属型データマートに比べて損なわれます。 その代わり、メインとなるデータウェアハウスを設計・構築する手間がかからないため、導入コストを抑えられる点がメリットです。 ハイブリッド型データマートは、従属型と独立型の特徴を併せ持ったデータマートです。メインのデータウェアハウスに加えて、業務系ソースや外部ソースなどのデータソースを接続します。 ハイブリッド型データマートを選択するケースは主に、業務系ソースや外部ソースのデータが速やかに必要な場合です。大部分のデータはデータウェアハウスを介することでクリーンになっているため、独立型データマートに比べると分析コストを抑えることができます。 しかし、一部のデータにはETLプロセスを実施する必要があり、分析にかかるコスト面で従属型データマートには劣るでしょう。 ハイブリッド型データマートは一時的な対応と割り切り、接続したソースのデータが継続的に必要な場合は、データウェアハウスに組み込んで従属型データマートにすることで、よりETLプロセスなどにかかるコスト削減が見込めます。 データマートを導入することにより、具体的に次のメリットが得られます。 データウェアハウスをすでに構築している組織であれば、部門ごとに必要とするデータセットを従属型データマートの形で切り出すことによって、分析精度や分析レスポンスの向上が見込めます。 必要なデータだけを抽出したデータマートは、データ容量の多いデータウェアハウスに比べて処理負担が小さくなるだけでなく、サーバ単位の同時ユーザー数が抑制されるなどのメリットがあります。 部門ごとに無関係なデータを省き、必要なデータに絞って閲覧・分析ができるため、主要業績評価指標(KPIなど)の追跡が容易になります。 追うべき数値が明確になることで、各部門の意思決定にポジティブな効果をもたらすのはもちろん、誤入力や不適切なソースの選択といった、データ品質に問題がある場合の早期発見にもつながるでしょう。 まだ分析基盤を持たない組織にとって、独立型データマートは他のシステムと比べて安価かつ迅速に構築できる分析基盤と言えます。独立型データマートの場合、1週間ほどで稼働させることも可能です。 これからデータウェアハウスを構築しようとする場合、はじめから大規模なデータウェアハウスを設計するのはハードルが高いと言えます。まずはデータマートサイズのデータベースを構築し、必要に応じて拡大していく、といった方法が考えられるでしょう。 独立型データマートは、将来的にデータウェアハウスを構築する際に活用できます。 データマートを含めたデータ分析環境の構築には、トップダウンアプローチとボトムアップアプローチの大きく2つのアプローチがあります。 トップダウンアプローチでは、データウェアハウスを最初に構築し、そこから必要に応じて従属型データマートをアドホックに構築していきます。 ボトムアップアプローチでは、独立型データマートを最初に構築し、それらを統合する形で徐々にデータウェアハウスを構築していきます。 トップダウンアプローチは、データウェアハウスにすべてのデータを集約することから、一貫性・正確性といったデータの信頼性の面で優れています。一方ボトムアップアプローチは、最初から全体像を把握する必要がなく、構築が容易です。 どちらのアプローチを選択するべきかはビジネスや組織の状況にもよりますが、近年はRedshiftやBigQuery、Snowflakeといったクラウドデータウェアハウスを活用することで、初期コストを抑えながらトップダウンアプローチが実現できるようになりました。 これから分析基盤を構築する場合は、クラウドデータウェアハウスの活用を視野に入れることで効率化が図れるでしょう。主要なクラウドデータウェアハウスサービスについては、それぞれ以下をご覧ください。 データマートのほか、データウェアハウスやデータレイクを含めたビッグデータ分析基盤構築の詳細については、下記ページもご覧ください。
「データ分析環境を構築したいものの、自社の環境にどのサービスが適しているのかよくわからない」といった場合や、「データ分析基盤を構築したものの活用しきれていない」といった場合も、ぜひお気軽にご相談ください。
カテゴリ
データマート
データウェアハウス
スコープ
単一のビジネスライン(LOB)、または多機能部門
全社(複数のビジネス部門
サブジェクト
1つ
複数
データソース
少ない、ビジネス部門に特化したBIツール
多い、企業のデータを構成する社内外のリソース
サイズ(通常)
100GB未満
100GB~TB超
実装期間
数か月(オンプレミス)
数か月~数年(オンプレミス)
意思決定
単一部門の目標とトラッキングを活用した戦術的な意思決定をサポート
事業全体に影響を与える戦略的な意思決定をサポート
2021年5月20日