DataOpsがBIにもたらすメリットとは?
BIとは、社内に蓄積されている業務データを分析・可視化し、経営判断や業務改善に役立てる手法またはツールを指します。
BIを活用しようとしたとき、DataOpsはどのように貢献を果たすのでしょうか。以下、解説していきます。
なお、下記記事については以下の書籍を参考元とし執筆を行っております。
(参考元: Getting DataOps Right Andy Palmer, Michael Stonebraker, Nik Bates-Haus, Liam Cleary, Mark Marinelli Published by O’Reilly Media, Inc. ”6. Building a DataOps Toolkit”)
(参考元: Atwal, Harvinder “Chapter 2. Data Strategy.” In Practical DataOps: Delivering Agile Data Science at Scale, edited by Atwal, Harvinder. Isleworth, UK: APRESS, 2020.)
(参考元: Getting DataOps Right Andy Palmer, Michael Stonebraker, Nik Bates-Haus, Liam Cleary, Mark Marinelli Published by O’Reilly Media, Inc. ”Chapter 2. Moving Toward Scalable Data Unification”)
目次
必要なデータに自身でアクセス分析できる
IDCが作成した、2019年12月から2020年1月にかけての調査レポート『データを再考する』によると、データの有効活用を妨げている上位5つの要因は、次のとおりです。
- 収集したデータを利用できるようにする
- 収集したデータのストレージを管理する
- 必要なデータを確実に収集する
- 収集されたデータのセキュリティを確保する
- 異なるサイロに収集されたデータを利用できるようにする
データを活用するには、必要なデータに自身でアクセス・収集ができ、セキュリティが確保でき、活用・分析できることが課題だとされています。
しかし、一方で「企業全体で DataOpsを最大限導入していると回答した企業は、平均でわずか10% です。回答者の大半が、DataOpsを『非常に』または『極めて』重要であると回答」されていることから、DataOpsが重要であるとわかっているものの、なかなか実行できていない企業が大多数であることがうかがえます。
データが散在していると、必要なデータを自身で取得することも困難となります。本来は高度な業務を遂行するべきデータサイエンティストが手動で対応している場合があります。しかし、DataOpsが実現されると、データが統合され、ユーザーは必要なデータをBIツールから自分で入手できるようになります。
データパイプラインの整備により分析が容易に
DataOpsにおけるBIの役割は、ダッシュボードやレポート上でデータの可視化を行い、エンド・ユーザーに洞察を提供することにあります。
DataOpsにおいて、各データサイロに散在したデータを統合したのちに、抽出、統合し、加工、出力するという、データパイプラインの整備が必須となります。
データパイプラインとは、データの収集、変更、配信に使用されるデジタルプロセスのエンド・ツー・エンドの連続したプロセスを指します。
組織はデータパイプラインを使用して、データをあるソースから別のソースにコピーまたは移動し、保存したり、分析に使用したり、計算・変換したり、他のデータと組み合わせたりすることができます。データパイプラインは、構造化、非構造化、および半構造化データの取り込み、処理、準備、変換、エンリッチメントを、管理された方法で実行します。
最終的にデータパイプラインは、企業が情報のサイロをなくし、洞察や分析という形でデータから価値を得ることを支援します。
では、これらの目的を遂行する上で、DataOpsにおいて、データパイプラインをどのように整備したら良いでしょうか。
データパイプラインのパターンの一例として、以下のモデル図が参照になります。
(画像引用元:Figure 4-2., Palmer, Andy “Chapter 4. Key Principles of a DataOps Ecosystem.” In Getting DataOps Right, edited by Palmer, Andy, et al., 29-35. Sebastopol, CA: O’Reilly Media, Inc., 2019.)
再現性のあるデータ作成を行う上で、様々なデータがどこから来たかを管理することが重要です。各データに対してデータの出どころを管理することで、データサイエンスの実践が可能になります。また、データの起源と処理の追跡に注力することで、再現性が高まり、データに対する信頼が高まります。
これにより、自動的に必要な処理が完了するデータパイプラインが完成し、BIユーザーは分析が容易になります。
MLによる処理の自己決定と高度な分析
DataOpsは、高品質で信頼性の高いデータを、データ利用者に迅速に提供することに重点を置いています。
DataOpsのエンドユーザーは、機械学習(ML)、人工知能(AI)、ビジネスインテリジェンス(BI))、データウェアハウス(DWH)、データレイクのような分野にまたがってデータを管理・活用していくことが望まれています。
- 参考記事:【用語集】データレイク
ここでは、DataOpsとMLの関係性について焦点を当てて説明したいと思います。
MLは、明示的にプログラムされることなく、システムが経験から学び、改善することを可能にするAIの応用であるとされています。MLは、データにアクセスし、それを使って自ら学習できるコンピューター・プログラムの開発に重点を置いています。
DataOpsに倣い、近年ではMLとDevOpsをかけあわせたMLOpsという言葉も目にするようになりました。
IBM社のホワイトペーパー(英文)では、MLOpsとは、初期テストと継続的なモニタリングとトレーニングを通じて、MLモデルの管理に焦点を当てます。そして、データサイエンティストとビジネス関係者によって設計された通りに、モデルが最適なパフォーマンスを発揮できるようにすると定義しています。
つまり、DataOpsとMLOpsは補完的な存在です。そして、DataOpsとMLOpsツールの統合ポイントは、データ利用者です。DataOpsで行われる作業のほとんどは、データ利用者にとってグレー・ボックス(内部構造を把握した上での外部データ活用)であるべきです。ほとんどの場合、データ利用者はDataOpsパイプラインから出力されるデータを迅速かつ容易に使用できる必要があります。
なお、機械学習を必要とする規模のビッグデータを分析する場合はMLOpsが必要となりますが、ビッグデータに至らない規模のデータ量であればDataOpsのアプローチを用いて、ETLを利用してデータ統合を行うのが効果的です。
この2つを併用することで、これまで分析できなかったデータが分析対象となり、結果、BIユーザーはより深い分析が可能となります。
まとめ
DataOpsはBIツールユーザーにとって大きなメリットがあることに加え、MLならびにMLOpsとも補完的であることを説明しました。
これらのテーマを実現する上で、ETLツールをセットで導入することが必須となります。当社のETLツールである「Reckoner(レコナー)」は、GUIからの直観的な操作を実現し、プログラミング知識なくETL(Export, Transform, Loadを意味する、データの自動一括抽出・変換・投入サービス)を利用できます。
BIツールの導入支援も行っておりますので、データ活用をご検討の企業・組織様はぜひ一度資料をダウンロード頂ければと存じます。
ETLツールについて詳しく知りたい、ETLツールの選び方を知りたいという方はこちらの「ETLツールとは?選び方やメリットを解説」をぜひご覧ください。