クラウドエンジニアブログ

Azure におけるデータガバナンス(Azure Purview 触ってみた) ~知識編~

human05

古林

みなさまこんにちは。クラウドアーキテクトの卵です。

リモートワーク生活も、もう 1 年以上経ちました。昨年はいつも以上にあっという間であった感じがします。その割に、あまり思い出がないなぁというのが正直なところです。やっぱり、外に出ていないからですかね。
個人的に、リモートワークは自分にとって利点しかない!と思っているのですが、こんなところに影響するとは・・・と気づいた今日この頃です。
こんな感じでリモートワークの状態に慣れてしまったので、いざ出社します!となると大変かも。。。(体力的に)



1. はじめに

昨年の夏に、データガバナンスに関する 2 つのブログ『データガバナンス ~知識編~』『データガバナンス ~実践編~』を執筆しました。
その甲斐もあり(!?)、ここ半年ほど前ぐらいから、データ利活用の一環として、お客様からデータガバナンスについて相談を受けることが多くなってきました。

データガバナンスに関する 2 つのブログでも記載しましたが、個人的にはデータガバナンスはデータ利活用に必須であると考えています。しかし、Azure にあるリソースだけで実現するのは、なかなか難しいと感じていました。
※例:データリネージ(履歴)を見る機能が無い、等。詳細は「4. おわりに」に記載しています。

しかし、ついに Azure にもデータガバナンスサービスのリソースが登場しました。
それが、今回のブログのテーマである Azure Purview です。

少し時間ができたので、Azure Purview についてのウェビナーに参加した上で、Azure Purview について調査してみた結果をまとめてみました。
今回は知識編として、Azure Purview でできることをご紹介いたします。



2. Azure Purviewとは

Azure Purview とは、オンプレミス、マルチクラウド、SaaS (サービスとしてのソフトウェア) にあるデータの管理と制御を支援する統合データ ガバナンス サービスです。

【参考:Azure Purview】
https://azure.microsoft.com/ja-jp/services/purview/
【参考:Azure Purview とは】
https://docs.microsoft.com/ja-jp/azure/purview/overview

Microsoft が 2020 年 12 月 3 日に開催したオンラインイベント「Shape Your Future with Azure Data and Analytics」でプレビュー版として公開されました。本ブログ執筆中も、プレビュー版となっています。

「統合データ ガバナンス サービス」と謳われているだけあって、Azure 内のリソースはもちろん、オンプレミス環境の資産や別クラウドの資産でも、Azure Purview を中心として管理することができるようです。
(「2020 末まで」という表記が気になりますが・・・)

メタデータのスキャンと分類に使用できるソースの種類

【参考:メタデータのスキャンと分類に使用できるソースの種類は何ですか?】
https://docs.microsoft.com/ja-jp/azure/purview/frequently-asked-questions#what-are-the-source-types-available-for-metadata-scanning-and-classification


Azure Purview には、3 つの主要機能があります。
いずれも、データガバナンスには必要な機能となっています。

<Azure Purview の主要機能>
Azure Purview の主要機能
  • Data Map
  • オンプレミス環境、クラウド環境にあるデータストアのメタデータをスキャンし、Azure Purview に体系立てて登録します。
    メタデータのスキャン方法(=スキャンルール)は、Azure Purview 内に 100 以上の組み込みルールが存在するだけでなく、スキャンルールをカスタマイズすることも可能です。触ってみたところ、デフォルトのルールのままでも必要だと思われるメタデータは十分取得できているように感じました。メタデータは後述の Data Catalog で Purview Studio というポータル上から検索、閲覧できます。

    【参考:チュートリアル:Azure Purview (プレビュー) でデータをスキャンする】
    https://docs.microsoft.com/ja-jp/azure/purview/tutorial-scan-data

    また、Azure Purview では、Microsoft 365 (M365) にある Microsoft Information Protection (MIP) の秘密度ラベルをサポートしています。これは、端的に言えば、M365 と同じ機密情報の種類(=秘密度ラベル)を Azure Purview でも使うことができる、ということを表しています。Azure Purview 上で M365 と同じ秘密度ラベルを使うことによって、会社全体の機密情報が把握しやすくなるというメリットがあります。MIP の秘密度ラベルも、後述の Data Catalog で Purview Studio というポータル上から検索、閲覧できます。

    MIP の秘密度ラベルを Azure Purview でも使用したい場合、アクティブな Microsoft 365 E5 ライセンスが必要となります。他にも前準備が必要になるため、興味のある方は下記の参考リンクをご参照ください。

    Microsoft 365 E5 ライセンスの要件

    【参考:Azure Purview でデータに自動的にラベルを付ける】
    https://docs.microsoft.com/ja-jp/azure/purview/create-sensitivity-label
    【参考:ライセンスの要件】
    https://docs.microsoft.com/ja-jp/azure/purview/create-sensitivity-label#licensing-requirements


  • Data Catalog
  • ※ここで「あれっ? Data Catalog って、何か見たことあるような…?」と思った方は鋭いです!違いは後述いたします。
    Data Map でスキャンしたメタデータは、Data Catalog (≒ Purview Studio というポータル上) より閲覧・検索が可能です。メタデータとして、以下の内容が取得されます。

    <Data Catalog で確認できるメタデータ>
    Data Catalog で確認できるメタデータ

    メタデータの内容によっては、Purview Studio から編集することが可能です。上図の「編集可否」列に「○」もしくは「△」がついている内容は編集可能です。
    ※上図はデータベースとストレージアカウントをスキャンして、Data Catalog で実際に確認した内容を基にしています。

    検索は Purview Studio というポータル上にある検索バーから検索可能です。検索履歴や最近のアクセスを表示してくれるだけでなく、サジェスト機能もついています。

    カタログで資産を検索する

    【参考:カタログで資産を検索する】
    https://docs.microsoft.com/ja-jp/azure/purview/how-to-search-catalog#search-the-catalog-for-assets
    また、検索には AND や OR、ワイルドカードと言った検索クエリ構文が利用できます。
    【参考:検索クエリ構文】
    https://docs.microsoft.com/ja-jp/azure/purview/how-to-search-catalog#search-query-syntax


  • Data Insights
  • スキャンを実施すると、自動で Data Insights に反映されます (多少、反映に時間がかかるものもあるようですが)。Data Insights では、データ資産 (アセット) 、スキャン、用語集、分類、秘密度レベルの分析情報を表示できます。例えば、スキャンの分析情報はいつ、何をスキャンして、どれぐらい成功 / 失敗したかを可視化でき、データ資産 (アセット) の分析情報はどのリソースをどれだけスキャンしたのか、スキャンした中に人名やメールアドレスがどれぐらいあるのか等を可視化できます。
    機密情報や機微情報がどこに、どれだけあるのか、全体の何割を占めているのか等がすぐに可視化できるため、Data Insights を定期的に確認することでデータガバナンスを保つ一助になりそうです。

    【参考:Azure Purview からのデータに関する分類の分析情報】
    https://docs.microsoft.com/ja-jp/azure/purview/classification-insights



3. Azure Data Catalog との住み分け

さて、前述した Data Catalog のところで「あれっ?」と思った方もいらっしゃるかと思います。そうです、Azure には Azure Data Catalog というリソースが既に存在します。

【参考:Data Catalog】
https://azure.microsoft.com/ja-jp/services/data-catalog/

Azure Purview に内包されている Data Catalog と、既に存在している Azure Data Catalog は、何が違うのでしょうか?
実は、Azure Purview の Docs 内にある「Azure Purview に関してよく寄せられる質問 (FAQ)」にその答えが記載されています。

Azure Previewに関してよく寄せられる質問(FAQ)

【参考:ADC Gen 2、Azure Information Protection、Azure Purview はどのように関連していますか?】
https://docs.microsoft.com/ja-jp/azure/purview/frequently-asked-questions#how-are-adc-gen-2-azure-information-protection-and-azure-purview-related

上記によると、Azure Purview に内包されている Data Catalog は「ADC (=Azure Data Catalog) Gen 2」として開発されたとあります。このことから、Azure Purview に内包されている Data Catalog は、既に存在している Azure Data Catalog の後継にあたると推察できます。

なお、Azure Data Catalog の Docs には、以下のように記載されていました。

Azure Date Catalogとは

【参考:Azure Data Catalog とは何ですか】
https://docs.microsoft.com/ja-jp/azure/data-catalog/overview

上記の英語で記載されている部分を翻訳すると、「更新されたデータカタログ機能については、データ資産全体に統合されたデータガバナンスを提供する新しい Azure Purview サービスを使用してください。」と記載されていました。
ですので、Azure Data Catalog を利用していない場合、かつ、Azure 環境でデータガバナンスを実施したい場合は、Azure Purview を導入するのが良さそうです。

Docs では Azure Purview を勧めていましたが、導入を検討するにあたって、念のためAzure Purview と Azure Data Catalog を比較した内容を簡単ですが以下にまとめてみました。

<Azure Purview と Azure Data Catalog の比較>
Azure Purview と Azure Data Catalog の比較

Azure Data Catalog よりも Azure Purview の方ができることが多い点、かつ、Azure Purview の方がスモールスタートで検証することが可能である点から、個人的にも Azure Purview をお勧めします。

また、Azure Data Catalog は「組織 (Azure Active Directory ドメイン) ごとにプロビジョニングできるデータ カタログは 1 つだけ」という制約があるので、評価する際には注意が必要です。
この点でも Azure Purview の方がお勧めです。



4. おわりに

今回は Azure Purview を紹介しました。以前のブログにも少し記載しましたが、Azure 環境でデータガバナンスを実現したい場合、これまでだとAzure のリソースだけでは以下の点をカバーするのは難しいため、サードパーティ製品を検討する必要がありました。

    <データガバナンスにおいて、Azure のリソースだけでは難しかった点の例>
  • マルチクラウド環境でも同じデータカタログを使用して、一元管理を行いたい。
  • データプレパレーション (※1) にも力を入れたい。
  • 構造化データだけでなく、非構造化データも管理したい。
  • データリネージ (履歴) を可視化したい。
※1:分析に必要とされるさまざまな非定型データを収集 / 整形し、迅速な分析開始のためのサポートを行う機能。データカタログの情報をインプットとすることで、作業効率が向上する。


Azure Purview を導入すると、上記の例をほぼ満たすことができます。Azure を利用している場合、Azure Purview はデータガバナンスを実現するための第一選択肢となりそうです。プレビュー版だと SLA が担保されないことから、本番環境への適応は難しいため、早く GA (一般提供開始) してもらいたいと個人的には強く思っています。

<所感>
Azure Purview を少し触ってみた所感ですが、データプレパレーションだけはそこまで強くない感じがしました。メタデータ (データの所有者やスキーマ情報等) の変更は可能ですが、直接データを抽出したり、セルフサービス分析を実行したりすることはできません。データプレパレーションを実施したい場合、データプレパレーションも可能なサードパーティ製品を利用するか、別途データプレパレーションツールを入れることになりそうです。(Azure Purview はデータガバナンスサービスなので、データプレパレーションは用途がほんの少しズレる感じは否めませんね。)

上記以外のプレビュー版の Azure Purview を実際に触ってみた結果・感想ついては、次回のブログに詳しくまとめようと思います。お楽しみに!

【総合】お問い合わせ

製品・サービスに関するお問い合わせはお気軽にご相談ください

ピックアップ

セミナー情報
クラウドエンジニアブログ
clouXion
メールマガジン登録