この記事では、データプレパレーションの基本情報から、導入するメリット、似た機能を持つETLとの違い、導入事例、注意点までを解説します。セルフサービスBIや分析ツールを導入したものの、データアナリストやリソースの不足によりデータ活用が捗らないという方はぜひ参考にしてください。
マクロセンドは、データ自動収集システム、データレイク・DWH基盤構築、セルフデータプレパレーションツールの提供等。各企業の状況・要望に合わせたデータ活用、DXを支援するサービスを行っております。
興味のある方は、以下のサービス記事もご確認ください。
データプレパレーション(Data Preparation)は、データ準備とも呼ばれ、企業の保持する生データを分析や機械学習に使える状態にクレンジングするデータ変換プロセスのことをいいます。
また、データ準備の負担を軽減するデータプレパレーションツールのことを、単にデータプレパレーションと呼ぶ場合もあります。
データプレパレーションには多くのリソースが必要となるため、データプレパレーションツールを導入することにより、データ活用の前に発生する工程を大幅に削減してデータアナリストの負担を減らす効果が期待されます。
さらに、ツールによるサポートが入ることで事業部門のビジネスユーザーでもデータ活用が実施できるようになるといった効果も得られます。
DX(デジタルトランスフォーメーション)の実現に向けて、セルフサービスBIや分析ツールを導入する企業が増える中で、データ準備にかかるコスト削減のために重要なツールとして注目されています。
データプレパレーションの基本的な手順は次の通りです。
まず、最終的にどのようなデータ活用に用いるのかを確認・定義します。
活用する目的を定義したら、データ活用のために必要なデータを集約します。データのフォーマットもなるべくこの段階で統一します。
集約したデータに対して、データに含まれる欠損値や外れ値といった異常値を補正したり、全角半角などの表記ルールを統一したり、といったデータクレンジングを行います。
複数のソースから集約したデータを、データ結合もしくはデータブレンド(ブレンディング)します。必要に応じて、構造や単位の調整などのデータ加工も行います。
データプレパレーションが完了したデータを活用して、集計・分析を行います。
データプレパレーションツールには次のような機能が搭載されています。
データ可視化機能とは、Excelのようにスプレッドシートで全データを可視化できるUIを提供する機能です。データを可視化するために専門的なスキルを必要とするETLツールと違い、事業部門ユーザーでもデータ全体を把握することができます。
データ収集機能は、さまざまなデータソースを連携して、データを取得・収集する機能です。データウェアハウスやデータレイク、各種クラウドサービスやBIツール、ETLツールなど、あらゆるデータソースを連携します。
データ変換機能は、収集したデータに対して構造化・結合・補正などの変換を行い、フォーマットを統一する機能です。データ変換機能によって、非構造化データを活用できる状態へと変換します。
データエクスポート機能は、データ変換機能によってデータ活用できる状態になったデータを出力する機能です。CSV、Excel、JSONなどのフォーマットにエクスポートします。
データプレパレーションツールの中には、これら基本的な機能のほかに、データ分析機能やデータ高速処理機能といった機能を持つツールもあります。
データプレパレーションツールとETLツールの主な違いは、想定ユーザーです。
ETLは、Extract(抽出)・Transform(変換)・Load(格納)の略で、データプレパレーションの基本プロセスをまかなう機能を持っています。
しかし、ETLツールの利用にはSQLなどの知識が最低限必要になります。
一方で、データプレパレーションツールはデータ可視化機能を備えているため、ITスキルの有無にかかわらず利用することが可能です。
データプレパレーションツールを導入するメリットをまとめると次の通りです。
データプレパレーションツールを導入することで、データサイエンティストやデータアナリストのリソースを有効活用できるようになります。
ある調査によれば、データサイエンティストやデータアナリストの76%が、データプレパレーションを仕事の中で最悪のタスクであると考えているといいます。さらに、彼らのリソースのうち80%がデータプレパレーションに費やされているというデータもあります。
しかし、データプレパレーションの精度は最終的に分析に活用するデータの質を直接左右するため、専門的な知識を持つデータサイエンティストやデータアナリストがリソースを割く必要があるのです。
データプレパレーションツールを導入すると、これら専門家にとって最悪のタスクである作業の大半を代替することができるようになります。
参考:
Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says|Forbes
データプレパレーションツールは、データ可視化機能を備えているため、専門知識を持たないビジネスユーザーでもデータ分析が可能になります。
データサイエンティストやデータアナリストの不足により、十分なデータ活用が行えていない企業にとっては非常に力強い味方となるでしょう。
すでにデータ活用の専門家を擁するチームであっても、データプレパレーションツールによるメリットは得られます。
データ分析のハードルが下がることで、データ活用の頻度が高まれば意思決定の知見がたまりやすくなり、結果的に意思決定の精度そのものを高めることができるのです。
事業ドメインのユーザーがデータ分析できるようになることで、データサイエンティストやデータアナリストといった専門家のリソースが、本来優先すべきタスクに集中できるようになるため、データ分析・データ活用の精度向上が見込めます。
従来は、日常的なレポートの出力といった比較的簡単なタスクまで、データサイエンティストやデータアナリティストといった専門家の手を借りる必要がありました。
それに対しデータプレパレーションツールを導入した場合は、事業ドメインのユーザーは必要なデータを自身で用意できるようになるため、専門家が技術的・事業的に優先度の高い案件に注力することができるようになるのです。
主要なデータプレパレーションツールには次のようなものがあります。
ここからは、データプレパレーションツールを実際に導入した企業の事例を5つ紹介します。
日立製作所では、データ・プレパレーション・プラットフォーム「Paxata(パクサタ)」を採用しました。
日立製作所のデジタルイノベーション部門では、Paxataの導入前からDataRobot(機械学習自動化プラットフォーム)やTableau(分析プラットフォーム)を導入してデータ活用に取り組んでおり、これらプラットフォームを事業ドメインユーザーでも扱えるようにするためにデータプレパレーションプラットフォームを導入したといいます。
高いスキルが要求されていたデータプレパレーション業務を誰でも行えるようにすることで、IT部門へ集中していたデータ作成依頼などの業務を分散することにも成功しているそうです。
参考:
日立製作所がデジタルトランスフォーメーション(DX)の実現に向け、データ・プレパレーションに「Paxata」を採用|アシスト
キユーピーグループのデ―タ活用戦略を主導するトウ・ソリューションズも、作業効率改善・セルフサービス化のためにPaxataを導入しています。
トウ・ソリューションズでは、働き方改革を推し進めるにあたって、データ加工業務がボトルネックになっていることを発見。そこで、データを必要とする人自身がデータ準備を行うセルフサービス化を実現するために、データプレパレーションプラットフォームであるPaxataの導入に踏み切ったのです。
Paxataを導入した結果、データ準備にかかる工数を最大約98%まで削減したほか、キユーピーグループ内の15以上の部門でデータ準備のセルフサービス化を実現しました。
参考:
キユーピーの働き方改革を支えるグループ共通のデータ基盤にPaxata。業務を徹底的に見直して、データ加工を全面的にセルフサービス化|アシスト
Paxataの日本総代理店であるアシストでも、顧客のビジネス課題解決をサポートするためにPaxataを導入しています。
アシストでは、MA(マーケティングオートメーション)の導入により取得できるようになったデータを有効活用するためにデータプレパレーションツールを導入したのだそう。
導入の結果、ITスキルを持たないマーケターがデータに基づいた企画提案や効果測定を行えるようになったほか、営業部門の求めるスピード感に応じたリスト作成が実現し部門間の連携がスムーズになるなどの効果が得られました。
参考:
三井住友銀行では、AI技術を活用したデータ分析プロセスを採用し、データ分析の業務価値を高めることに取り組んできたといいます。ところが、データ分析を行う上で必要となる「データ抽出・加工処理」の負担が大きく、データ分析業務全体のおよそ3割の作業量を占めていました。
こうした作業の効率化・高度化をさらに推進するため、三井住友銀行は日本総研と協力して、シリコンバレーの現地スタートアップ企業の技術調査を実施。その中で用いられていたデータプレパレーションツール「Trifacta」に着目しました。
「データ抽出・加工処理」の作業時間をいかに効率化できるかを確認する実証実験を行ったところ、従来比でおよそ80%もの作業時間を短縮できることに成功。この結果を受けて、Trifactaの導入を決定しました。
参考:
三井住友・日本総研・NEC、ビッグデータ活用の環境整備に向けてデータ加工ソフトウェア「Trifacta」を本格導入|EnterpriseZine
最後に、海外におけるデータプレパレーションツールの導入事例を1つご紹介します。
アメリカ・ニューヨークに本社を置くPepsiCo社は、ペプシコーラやトロピカーナなどを取り扱う世界第2位の食品・飲料会社です。PepsiCo社の製品は毎日10億個以上が消費される中で、需要に見合った製品の供給・倉庫や店舗の確保といった小売販売体制の整備にデータ分析を活用していました。
これらのデータ分析に必要なデータおよびレポートの準備には、ExcelとAccessを活用して多くのデータアナリストのリソースを割いていましたが、時間と手間がかかる上にエラーも発生しやすい状況だったといいます。
こうした状況を解消するためTrifactaを導入したところ、データ分析にかかる全体の所要時間を70%削減に成功。また合わせて導入したデータ分析ツールTableauにより、レポート作成の所要時間を90%短縮しました。
またツールの導入によって、迅速なデータ分析に加えて、正確性の高いデータを用いた精度の高いデータ分析および意思決定が実現しました。
参考:
導入事例:データプレパレーションツール「Trifacta」|NEC
データプレパレーションツールの有用性は各事例からも確かですが、一方で導入に際してはいくつか注意点もあります。
まず、ETLに比べてITスキルが不要とはいっても、新規に導入したツールの扱いを習得するのには多少の時間がかかるという点です。そのため、よりスムーズな導入のためには、ビジネスドメインユーザーの中でも適切に分業するなどの工夫が必要かもしれません。
また、具体的にどのツールを導入するかを検討する上では、既存の社内基幹システムとの相性も考える必要があります。データプレパレーションツールの導入には、セルフサービスBIの導入よりもコストがかかります。
主要なデータプレパレーションツールでは無償の試用版を提供しているものが多いので、決定を急がずにまずはUIに触れてみてから考えると良いでしょう。
2020年12月2日