クラウドデータウェアハウスサービスのひとつ「Amazon Redshift」について解説します。Amazon Redshiftの活用事例、導入により解決できる課題、導入の注意点などを紹介しますので、クラウドデータウェアハウスの導入を検討される方は参考にしてください。
まずAmazon Redshiftの概要を解説します。
Amazon Redshiftは、Amazon Web Services(AWS)が提供する、高速、シンプル、スケーラブルで費用対効果が高く、データレイクまでクエリを拡張可能なデータウェアハウスです。
数あるデータウェアハウスサービスの中でも、Redshiftはクラウドデータウェアハウスのスタンダードのひとつと言えます。SQL中心アーキテクチャで構築されており、オープンフォーマットのデータ(Parquet, ORC, JSON, Grok, Avro,およびJSONなど)を、SQLツールを使って分析することが可能です。
2020年時点で数万社が利用するサービスであり、Amazonの分析基盤としても活用されています。
Amazon Redshiftは次のようなことができます。
・経営ダッシュボード
・定型レポーティング
・アドホック分析
・ETL/パッチ
・機械学習の前処理
主に、大容量データを高速に集計・分析する必要のあるワークロードに向いています。また、Amazon Redshiftを中心としたデータ分析パイプラインの一例として、次のようなものがあります。
・Amazon S3にデータを集約・蓄積
・Amazon Redshiftで集計・分析
・Amazon QuickSightで可視化
(・あるいはAmazon S3に集計・分析結果を戻してSageMarkerで機械学習する、など)
Amazon Redshiftは、2つの特徴的なアーキテクチャを備えています。
・MPP(超並列処理)
Amazon Redshiftは、MPP(Massively Parallel Processing)を採用したストレージです。MPPはもともと、多数のマイクロプロセッサやコンピュータを協調して動作させて高性能なシステムを構築する手法ですが、これをクラウドコンピューティングにより実現しています。
そのため、大規模な処理に対しては柔軟にスケールアップやスケールアウトを行う、といったスケーラビリティが確保されています。
・カラム指向(列指向)
一般的なデータベースがレコード指向(行指向)であるのに対し、Amazon Redshiftをはじめとするクラウドデータウェアハウスの多くは、カラム指向(列指向)を採用しています。
レコード指向ではレコード全体をスキャンする必要があるのに対し、カラム指向では必要なカラムのデータのみを取得することができるため、高速な処理が実現するのです。
Amazon Redshiftをはじめとする、データウェアハウスサービスの導入により解決できる課題について解説します。
データウェアハウスとは、データを格納する倉庫のことを指します。データウェアハウスは分析に最適化したデータベースであり、有効なデータ分析のために不可欠です。
なお、単に「データウェアハウス」と言った場合、ハードウェアを指す場合や論理的概念としてのデータウェアハウスを指す場合もありますが、ここでいうデータウェアハウスは、データ分析基盤の中核となるデータウェアハウスサービス全般のことを指します。
データウェアハウスの利用について、AWSでは次の5つの利点をあげています。
・多数のソースから統合されたデータ
・履歴データの分析
・データの品質、一貫性、正確性を維持
・分析処理をトランザクションデータベースから分離し、両システムのパフォーマンスを向上データウェアハウスの概念|AWS
上記を端的にまとめると、「データウェアハウスを利用することで良質なデータをもとに適切な意思決定を下せるようになる」と言い換えることができます。
主要なデータウェアハウスプロバイダには、Amazon Redshift以外に次のようなものがあります。
・Google BigQuery
・Teradata Database
・Oracle Exadata
・SAP BW/4HANA
・Snowflake
主要なデータウェアハウスプロバイダの中でも、Amazon Redshiftを利用することによるメリットは次の通りです。
Amazon Redshiftは、MPPやカラム指向といったアーキテクチャに加え、AQUA (Advanced Query Accelerator) for Amazon RedshiftやRA3ノードといった機能により、他のクラウドデータウェアハウスと比較して3倍以上の速さを誇ります。
Amazon Redshiftの料金は、従来のオンプレミスなデータウェアハウスと比較しておよそ10分の1に抑えられています。また、前払いなどを利用することで、他のクラウドデータウェアハウスより最大75%低いコストを実現することも可能です。
費用を最小限に抑えられることに加え、コストが予測可能で維持しやすい点も魅力といえるでしょう。
MPPの採用により、仮想的に制限のないリニアスケーリングなストレージとなっているため、必要に応じてスケールアップやスケールアウトすることが自在です。
意思決定に有益に作用するデータを集約するデータウェアハウスは、機密性の確保も欠かせません。
Amazon Redshiftは、AWS標準セキュリティ(AWS KMSによるVPC(Virtual Private Cloud)暗号化や、AWS CloudTrail)に加えて、セキュリティツール、アクセス管理ツールなどの併用により堅牢なセキュリティを誇ります。
SOC, PCI, DSS, ISO, FedRAMP, HIPAAといった、クラウドサービスにおける各種セキュリティ認証に準拠しています。
ここからはAmazon Redshiftの活用事例を10社紹介します。
米国のハンバーガーおよびファーストフードレストランチェーンであるマクドナルドは、Amazon Redshiftを使用することで成長を加速させることができるようになったといいます。
マクドナルドがサービスを提供する顧客数は、1日あたり6,900万人。これらのデータからビジネスのインサイトを迅速に得るためには、大容量で高速なデータベースが不可欠でした。
Amazon RedshiftをはじめとするAWSによりデータ分析環境を構築した結果、当初のパフォーマンス目標を66%超過し、POSシステム経由で毎秒8,600件のトランザクション処理を実現。
グローバルデータおよび分析担当ディレクターであるAbhi Bhatt氏は、「Redshift のおかげで、当社は安心してより多くのデータと分析のワークロードを AWS で実行し、お客様のニーズの増大に対応できるようになりました」 と語ります。
参考:
[レポート] ANT383 – Teradata から Amazon Redshift への移行: マクドナルドのベストプラクティス #reinvent | DevelopersIO
米国の製薬会社Pfizer(ファイザー)は、Amazon Redshiftの導入により、以前使用していたデータウェアハウスに比べておよそ10倍のパフォーマンスでクエリを実行できるようになりました。
ハイパフォーマンスなデータウェアハウジングにより、製造装置が生成した数百万行のデータ(1行あたりのデータポイント数は1,600)を、ほぼリアルタイムでデータサイエンティストに提供する分析環境を実現。
加えて、スケールアップやスケールアウト自在の拡張性・柔軟性を活かして製造工程の最適化を図ることにより、製造効率を向上させることができました。
規制機関に対応するためのデータ収集とデータプレパレーションにかかっていた時間は、およそ5分の1に短縮できたといいます。
米国のIntercomは、12億7,500万USDの評価額と2億4,000万USDを超える資金調達を集める、カスタマーサポートプラットフォームを提供する急成長しているスタートアップ企業です。
マーケティングからWebセールス、問い合わせ対応といった顧客とのコミュニケーション全般をカバーするツールで、企業の良好な顧客関係をサポートします。あらゆるビジネスに対して適切な機能を提供するために、Intercomでは70TBという膨大な量のデータを利用しています。
こうしたビッグデータを取り扱うのに、Amazon Redshiftはうってつけであり、導入によって拡張や予算の維持が容易になったといいます。
特に、AQUA (Advanced Query Accelerator) for Amazon Redshiftによるクエリの高速化は、データアナリストの分析時間確保につながっています。
米国のマスメディア会社であるFox Corporationは、Amazon Redshiftの利用により1日あたり数十億件のトランザクションイベントを最適化し、変換し、集約しています。
Fox Corporationの前身である21st Century Foxは、2018年にオンプレミスのデータウェアハウスをAmazon Redshiftに移行しました。
ペタバイト規模のビッグデータが急速に成長している現状に対し、Amazon RedshiftのRA3ノードやAQUAといった革新的な技術が、最も需要の多いワークロードのパフォーマンスを10倍高速化する見込みとのことです。
参考:
AWS Chosen to Provide the Vast Majority of Cloud Infrastructure for 21st Century Fox|businesswire
無料の教育ウェブサイトやアプリ、有料の資格試験を提供する言語教育プラットフォーマーであるDuolingoは、Amazon Redshiftを使用して、アプリ内で発生するイベントからユーザーの学習傾向を分析しています。
毎日数十億件のイベントをAmazon Redshiftにロードし、数百テラバイトのデータが存在しており、データエンジニアリングマネージャーのPaul Vickers氏は「これが今後、毎年倍増する」と予測しています。
また、データはすべて保存するものの、ほとんどの分析にはデータのサブセット(一部)のみを使用するため、カラム指向のデータウェアハウスとも非常に相性がよいと言えます。
社名と同名のローカルビジネスレビューサイト「Yelp(イェルプ)」を運営する米国のYelpは、データ分析基盤としてAmazon Redshiftを利用。
Redshiftの活用により、爆発的に増大するデータ量に対応しながら、機械学習システムのトレーニングに必要な材料を手に入れられているといいます。
同時実行スケーリングによりオートスケールしたり、自動ワークロード管理によりクエリの優先度付けが行われたりといった機能によりコストを均一化。
さらに、従来のストレージノードDS2から、RA3ノードへ移行したことによって、同コストでおよそ2倍のパフォーマンスを実現しています。
参考:
AWS re:Invent 2019: [REPEAT 1] What’s new with Amazon Redshift, featuring Yelp (ANT320-R1)|YouTube
米国のエンターテインメント企業、ワーナーブラザースのゲーム開発部門であるWarner Bros. Gamesは、多くのチームがゲームリリースのために動いており、各チームごとに特化したツールを利用しているといいます。
それらのツールをAWSのAnalytics、S3、Glueデータカタログ、Amazon Redshift Spectrumを活用して統合し、一貫性がありユーザ獲得につながる分析を実現しています。
参考:
米国のバイオ技術企業であるモデルナは、mRNA薬をより速く、より低コストで提供するため、AWSの使用を早期に開始しました。
RedshiftをSSOT(Single Source of Truthe)として活用する一方で、バックアップをS3に保存するという環境を構築しています。
容量に配慮する必要がなくなったことに加え、バックアップやリカバリといった処理が容易であることから、IT部門を保有する必要がなくなりました。
参考:
株式会社すかいらーくは、全国3,000店舗・年間延べ4億人のユーザーを抱える総合ファミリーレストラン企業です。
すかいらーくでは、以前からデータウェアハウスを利用していたものの、マーケティング部門で必要となるレシート明細レベルの分析に数時間かかり、仮説・検証のサイクルを週に数回しか行えず、分析精度を高められないことが課題となっていました。
そこで、Amazon Redshiftを含むAWSの活用によりデータ分析環境を構築。オンプレミスなら1年以上かかってもおかしくないところを、およそ3ヶ月強で構築しました。
その結果、それまで数時間かかっていたデータ集計が数分程度まで短縮したほか、広告費を前シーズン比3億円削減、売上高40億円成長といった成果を実現しています。
参考:
無印良品を展開する良品計画は、2013年に導入した会員制サービス「MUJI passport」や、無印良品ネットストアで得られた数十億件におよぶビッグデータの分析基盤としてAmazon Redshiftを活用しています。
MUJI passportでは、来店を示すチェックインや、SNSを利用した商品の口コミ投稿、さらに商品へのリクエストなどによっても貯まるよう設定されており、この仕組みにより「顧客がどれだけ時間を使ったか」を可視化しています。
これに加えて、年間2.4億のPOSデータ、年間9億件の無印良品ネットストアの閲覧データを対象として分析を行う上で、ローコスト・ハイパフォーマンスなAmazon Redshiftはうってつけでした。
参考:
全国588店舗の回転寿司チェーンを展開する株式会社あきんどスシローは、商品原価率約50%と、業界水準を大きく上回る原価率で事業展開していることから、人件費やITコストをできる限り抑える必要がある中で、事業を安定して継続させていくために早期から信頼性の高いシステム構築に取り組んでいました。
そして、2013年後半から、Amazon RDS for SQL ServerとAmazon Redshiftを活用した本格的なデータウェアハウスを構築。
さらに、店舗で稼働する「すしテクノロジー(すし皿に搭載されたICタグや、顧客の来店状況、着席状況を管理する技術)」からのデータ収集においては、Amazon Kinesisを使用した「KineSushi」という仕組みも構築しました。
こうした取り組みの成果もあり、スシローは回転寿司企業の売上高ランキングで6年連続日本一を達成しています。
参考:
Amazon Redshiftの導入・活用を検討するうえでの注意点は、適切な設計・導入をしなければ有効なデータ分析に活用できない可能性があるという点です。
ここまでに紹介した通り、Amazon Redshiftは高いパフォーマンスと低いコストにより、多くの企業にとってベストプラクティスとなり得るサービスのひとつです。
しかし、当然のことながらすべてのケースにおいてベストとなるわけではありません。例えばすでにオンプレミスのデータベースを構築しているなど、Amazon Redshiftの利用が適切でないケースも存在します。また、導入しただけで企業の課題が解決するわけでもありません。
データウェアハウスは、あくまでも良質なデータの集約・変換・最適化のためのツールであり、そこから適切なインサイトを得るためには、分析を繰り返し仮説・検証のサイクルを回して、分析精度を高める必要があります。それは、Amazon Redshiftに限った話ではありません。
Amazon Redshiftをはじめとするデータ分析環境構築の詳細については、弊社サービスページも合わせてご確認ください。
「データ分析環境を構築したいものの、自社の環境にどのサービスが適しているのかよくわからない」という場合や、「データ分析基盤を構築したものの活用しきれていない」といった場合も、ぜひご相談ください。
2021年5月14日