Azure

Azure Data Lake Storage Gen2 (ADLS Gen2) 完全設計|HNS・Medallion Architecture・Partition 戦略

2026-05-24
NicheeLab編集部

Azure Data Lake Storage Gen2 (ADLS Gen2) は、Azure Blob Storage に階層名前空間 (Hierarchical Namespace, HNS) を追加した、大規模分析用ストレージです。 Microsoft Fabric の OneLake も内部的に ADLS Gen2 ベースで、Azure データレイク戦略の中核を担います。 本記事では、HNS の利点・Medallion Architecture・Partition 戦略・アクセス制御・Lifecycle Management を網羅的に整理します。

Hierarchical Namespace (HNS) の利点

項目Blob Storage (HNS なし)ADLS Gen2 (HNS あり)
Directory Rename全 Blob Copy → Delete (時間・料金大)Atomic rename (瞬時)
Directory Delete全 Blob を順次 DeleteAtomic delete (瞬時)
権限制御Container レベルのみPOSIX ACL (ディレクトリ・ファイル単位)
HDFS 互換非対応対応 (ABFS Driver)
List 性能標準高速
料金標準HNS Transaction が若干高め

Storage Account 作成時に『Hierarchical Namespace』Enable を選択して構成。新規データレイク用途は ADLS Gen2 一択というのが現代の標準。

Medallion Architecture

データレイクの品質階層的データパイプライン設計パターン。

Layer役割形式用途
Bronze (Raw)ソースシステムからそのまま取り込みCSV / JSON / Parquet / AvroLineage 追跡・再処理
Silver (Cleansed)クレンジング・重複除去・JOIN・型変換Delta Lake / Parquetビジネスエンティティ単位
Gold (Curated)集計・Aggregate・ビジネスメトリクスDelta Lake / Parquetダッシュボード・ML 学習データ

標準ディレクトリ構造

container/
├── bronze/
│   └── source/yyyy/mm/dd/
├── silver/
│   └── entity/yyyy/mm/dd/
└── gold/
    └── business/yyyy/mm/

Databricks・Fabric Lakehouse・Synapse の標準パターンで、データ品質保証・トレーサビリティ・再処理容易性を実現。

Partition 戦略

ADLS Gen2 の Partition 戦略は分析性能とコストを大きく左右。

代表的なパターン

戦略適用シーン
日付パーティションyyyy=2026/mm=05/dd=24/時系列データ・Predicate Pushdown
ハッシュパーティションregion=us/customer_hash=001/並列処理の均等性
複合パーティションyyyy/mm/dd/region/category/多次元分析

Best Practice

  • 1 パーティションあたり 1 GB-1 TB が目安
  • 過剰細分化を避ける (1 PB を 100 万パーティションに分割すると List 性能劣化)
  • Delta Lake では Z-Order・Liquid Clustering でセカンダリ並び替え
  • Spark の partitionBy() メソッドでパーティション書き込み
  • Lifecycle Management で古いパーティション自動削除 / Archive 移動

ABFS Driver

ABFS (Azure Blob File System) Driver は、ADLS Gen2 にアクセスする Hadoop 互換 Driver。

URI 形式

abfss://[email protected]/path/file
  • abfss: TLS 暗号化版 (推奨)
  • abfs: 非暗号化版 (非推奨)

認証方式

  1. Storage Account Key (シンプルだがレガシー)
  2. SAS Token (時限付きアクセス)
  3. Service Principal (推奨、Workload Identity Federation 経由)
  4. Managed Identity (Azure 内サービス間、最推奨)

Databricks Unity Catalog では External Location で ABFS URI を Catalog に登録して統一管理、Spark コード側で URI を直接書く必要が排除されます。

POSIX ACL と RBAC の使い分け

方式粒度用途
Azure RBACSubscription / RG / Storage Account / Container大粒度
POSIX ACLディレクトリ・ファイル単位細粒度
Storage Account Key全体アクセス緊急用
SAS Token時限付き一時アクセス

両者は AND 評価。推奨パターン: Azure RBAC で大粒度 (Container) 権限付与 + POSIX ACL で詳細制御。 Databricks Unity Catalog 統合環境では Unity Catalog が抽象化レイヤとして機能し、POSIX ACL 直接管理は不要に。

Lifecycle Management

代表的なルール

  • Bronze: 30 日 → Cool、90 日 → Cold、365 日 → Archive、2,555 日 (7 年) → 削除
  • Silver: Hot 維持 + 古い日付パーティション削除 (再生成可能なため Backup 不要)
  • Gold: Hot 維持・Backup 必須
  • ログデータ: 1 週間 Hot → 30 日 Cool → 365 日 Cold → 5 年 Archive → 削除
  • 中間データ (Spark Shuffle・Intermediate): 7 日後削除

本番運用ではコスト削減効果が劇的 (年間数百万-数千万円規模)、必須機能。

セキュリティベストプラクティス

  1. Private Endpoint で Public 公開遮断 (privatelink.dfs.core.windows.net)
  2. Storage Account Key は無効化、SAS / RBAC / Managed Identity 統一
  3. Customer-Managed Key (CMK) で暗号化 (Key Vault 連携)
  4. Network Access を Selected Networks 制限
  5. Soft Delete + Versioning 有効化
  6. Microsoft Defender for Storage 有効化
  7. Diagnostic Logs を Log Analytics → Microsoft Sentinel
  8. POSIX ACL で Bronze/Silver/Gold の権限分離
  9. Azure Policy で命名規則・Encryption 強制
  10. Audit Logs で全アクセス追跡

Microsoft Fabric / OneLake との統合

Microsoft Fabric の OneLake は内部的に ADLS Gen2 ベース、外部 ADLS Gen2 を Shortcut で参照可能。

  • Shortcut で外部 ADLS Gen2 を OneLake に論理参照 (データコピーなし)
  • マルチクラウド (AWS S3 / GCS) も Shortcut 対応
  • OneLake から Spark / Power BI で直接アクセス

関連認定試験

よくある質問

Azure Data Lake Storage Gen2 (ADLS Gen2) とは?

Azure Data Lake Storage Gen2 (ADLS Gen2) は、Azure Blob Storage に階層名前空間 (Hierarchical Namespace, HNS) を追加した、大規模分析用ストレージ。Blob 互換 API + HDFS 互換 API (ABFS Driver) の両方をサポート、Spark / Hadoop / Databricks / Synapse / Fabric などの分析エンジンから直接アクセス可能。HNS により POSIX ライク (ディレクトリ・ファイル単位の権限・atomic rename) で動作し、ビッグデータワークロードの性能・操作性が大幅向上。Storage Account 作成時に『Hierarchical Namespace』Enable を選択して構成。代表的なユースケース: データレイク・データウェアハウス Landing Zone・ML データセット・IoT 集積データ・ログアーカイブ。Microsoft Fabric の OneLake も内部的に ADLS Gen2 ベースです。

Hierarchical Namespace (HNS) のメリットは?

HNS の主要メリット: 1) Atomic rename: ディレクトリ単位の rename が瞬時 (Blob では全 Blob を Copy → Delete で時間と料金大)、Spark / Hadoop の Job 完了時の Output Directory Rename が劇的高速化、2) Atomic delete: ディレクトリ単位の削除が瞬時、3) POSIX ACL: ディレクトリ・ファイル単位での詳細権限制御 (Blob は Container レベルのみ)、4) パスベースのクエリ性能向上 (List 操作・Filter 操作)、5) HDFS 互換 API (ABFS Driver) で Spark / Hadoop からのアクセスが自然、6) Lifecycle Management の粒度向上 (パス条件で柔軟ルール)。Blob Storage と同じ Tier (Hot/Cool/Cold/Archive)・Replication・暗号化を継承。料金は Blob とほぼ同じ (HNS Transaction の若干高めの単価あり)、デメリットはほぼなく、新規データレイク用途は ADLS Gen2 一択というのが現代の標準です。

Medallion Architecture (Bronze / Silver / Gold) って何ですか?

Medallion Architecture は、データレイクの品質階層的データパイプライン設計パターン。Bronze (Raw Layer): ソースシステムからのデータをそのまま取り込み (CSV・JSON・Parquet・Avro)、スキーマ正規化なし、不変・追記専用、Lineage 追跡可能。Silver (Cleansed Layer): Bronze データをクレンジング・重複除去・スキーマ統一・JOIN・型変換、ビジネスエンティティ単位 (例: 顧客マスタ・注文トラン)、Delta Lake / Parquet 形式が標準。Gold (Curated Layer): Silver データを集計・Aggregate・ビジネスメトリクス算出、ダッシュボード / レポート / ML 学習データ直接利用、Star Schema 設計が一般的。標準ディレクトリ構造: container/bronze/source/yyyy/mm/dd/・container/silver/entity/yyyy/mm/dd/・container/gold/business/yyyy/mm/。Databricks・Fabric Lakehouse・Synapse の標準パターンで、データ品質保証・トレーサビリティ・再処理容易性を実現します。

Partition 戦略はどう設計しますか?

ADLS Gen2 の Partition 戦略は分析性能とコストを大きく左右。代表的なパーティション戦略: 1) 日付パーティション (yyyy=2026/mm=05/dd=24/): 時系列データに最適、Predicate Pushdown (Spark が必要パーティションのみ読込) で性能劇的向上。2) ハッシュパーティション (region=us/customer_hash=001/): 並列処理の均等性、Hot Partition 回避。3) 複合パーティション (yyyy/mm/dd/region/category/): 多次元分析向け、過剰パーティション化に注意 (1 PB データを 100 万パーティションに分割すると List 性能劣化)。Best Practice: 1 パーティションあたり 1 GB-1 TB が目安、過剰細分化を避ける。Delta Lake では Z-Order・Liquid Clustering でパーティションに加えてセカンダリ並び替え可能。Spark の partitionBy() メソッドでパーティション書き込み、Lifecycle Management で古いパーティション自動削除 / Archive 移動。

ABFS Driver の使い方は?

ABFS (Azure Blob File System) Driver は、ADLS Gen2 にアクセスする Hadoop 互換 Driver。URI 形式: abfss://[email protected]/path/file。abfss は TLS 暗号化版 (推奨)、abfs は非暗号化版 (非推奨)。Spark / Hadoop / Databricks / Synapse / Fabric が標準サポート。認証方式: 1) Storage Account Key (シンプルだがレガシー)、2) SAS Token (時限付きアクセス)、3) Service Principal (推奨、Workload Identity Federation 経由)、4) Managed Identity (Azure 内サービス間、最推奨)。Spark での例: spark.conf.set('fs.azure.account.auth.type.<storage>.dfs.core.windows.net', 'OAuth') + Managed Identity 構成。Databricks Unity Catalog では External Location で ABFS URI を Catalog に登録して統一管理、Spark コード側で URI を直接書く必要が排除されます。

POSIX ACL と RBAC の使い分けは?

ADLS Gen2 は『Azure RBAC』『POSIX ACL』『Storage Account Key』『SAS Token』の 4 層のアクセス制御。Azure RBAC: Subscription / Resource Group / Storage Account / Container レベル、Microsoft Entra ID Principal (User / Group / Service Principal / Managed Identity) に Storage Blob Data Reader / Contributor などの Built-in Role 付与、大粒度。POSIX ACL: ディレクトリ・ファイル単位の Read / Write / Execute 権限、Owner / Group / Others の伝統的 POSIX モデル + Named User / Named Group / Default ACL の拡張、細粒度。両者は AND 評価 (両方で許可されたアクセスのみ通る) で、推奨パターンは『Azure RBAC で大粒度 (Container) 権限付与 + POSIX ACL で詳細制御 (Bronze は Engineering Team Read/Write・Silver は Analytics Team Read のみ)』。Databricks Unity Catalog 統合環境では Unity Catalog が抽象化レイヤとして機能し、POSIX ACL 直接管理は不要になります。

Lifecycle Management でのコスト最適化は?

ADLS Gen2 は Blob Storage と同じ Lifecycle Management Policy を活用可能。代表的なルール: 1) Bronze データ作成後 30 日で Hot → Cool 移行、90 日で Cool → Cold、365 日で Cold → Archive、2,555 日 (7 年) で削除、2) Silver データは Hot 維持 + 古い日付パーティション削除 (再生成可能なため Backup 不要)、3) Gold データは Hot 維持・Backup 必須、4) ログデータは 1 週間 Hot → 30 日 Cool → 365 日 Cold → 5 年 Archive → 削除、5) 中間データ (Spark Shuffle・Intermediate) は 7 日後削除。本番運用ではコスト削減効果が劇的 (年間数百万-数千万円規模)、必須機能。Cold ティア (2022 GA、Archive より高速取り出し可能・コストはやや高) を活用したコスト効率も向上。Last Accessed Tracking + Auto Tier 機能で更にスマートな自動最適化も可能です。

関連認定試験は?

DP-700 (Fabric Data Engineer Associate) で OneLake (内部 ADLS Gen2) が深く問われる本領域の本命認定。DP-203 (Azure Data Engineer Associate、2024-03 リタイア済) で ADLS Gen2 が中核。AZ-104 (Administrator) のドメイン 2 で Storage 全般、AZ-305 (Solutions Architect Expert) でアーキテクト視点でのデータレイク設計、DP-300 (DBA) でデータ統合、AI-103 (2026-06 GA) で AI / ML データセットストレージ。Databricks 認定 (Data Engineer Associate / Professional) でも ADLS Gen2 が基盤として頻出。データエンジニアにとって ADLS Gen2 の理解は必須スキルです。

関連記事・技術深掘り

Azure AI エンジニア キャリアロードマップ|AI-901 → AI-103 → 生成 AI アーキテクトへの道【2026 年版】

Azure AI エンジニアになるための認定取得ロードマップ完全版。AI-901 (2026-06 GA、AI-900 後継) → AI-103 (2026-06 GA、AI-102 後継) の最新ルート、Azure AI Foundry / Agent Service / OpenAI 中心の生成 AI 時代の構成、Databricks GenAI / OpenAI Direct との二刀流戦略、年収レンジまで日本語で網羅。

Microsoft Fabric Lakehouse 入門|OneLake・Shortcut・Direct Lake・Medallion 実装【2026 年版】

Microsoft Fabric Lakehouse の入門ガイド。OneLake 統一ストレージ・Shortcut 外部参照・Direct Lake モード・Medallion Architecture (Bronze/Silver/Gold) 実装・Lakehouse 構築手順・Capacity Unit (CU) コスト管理・関連認定試験 (DP-700 / DP-600 / AI-103) を日本語で網羅。

DP-203 vs DP-700 完全比較|旧 Azure Data Engineer vs 新 Fabric Data Engineer の違いと移行戦略【2026 年版】

Microsoft Azure データエンジニア認定の旧 DP-203 (Azure Data Engineer Associate、2024-03 リタイア) と新 DP-700 (Fabric Data Engineer Associate、2024-11 GA) を完全比較。試験仕様・対象プラットフォーム・出題範囲・難易度・学習時間・キャリアパスを表形式で整理。Microsoft Fabric への移行戦略、既保有者の追加取得ルートを日本語で網羅。

Azure データエンジニア キャリアロードマップ|DP-900 → DP-700 → AI-103 シニアデータエンジニアへの道【2026 年版】

Azure データエンジニアになるための認定取得ロードマップ完全版。DP-900 → DP-700 → DP-600 / DP-300 の Fabric 時代の王道ルート、Databricks 認定との二刀流、AI-103 統合戦略、DP-203 リタイア後の選択、12-18 ヶ月の学習プラン、年収レンジまで日本語で網羅。

本記事の技術情報は Azure Data Lake Storage Gen2 Documentation に基づいています。 本記事は Microsoft Corporation の公式商品ではなく、いかなる提携・後援関係もありません。 Microsoft、Azure、Microsoft Fabric は Microsoft group of companies の商標です。 情報は 2026 年 5 月 24 日時点の公式公開資料に基づきます。最新情報は必ず公式ページをご確認ください。

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

Azure 試験対策ページを見る
この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。


関連記事
Azure

AZ-900 完全ガイド|Microsoft Azure Fundamentals 出題範囲・学習リソース・合格戦略

Microsoft Azure Fundamentals (AZ-900) の 2026 年 1 月 14 日改訂版に対...

Azure

Azure 認定資格ロードマップ 2026 完全版|全 26 試験の体系と大型再編 (AI-901/AI-103/SC-500)

Microsoft Azure 認定資格 全 26 試験 (現行 23 + 退役 3) の 2026 年版ロードマップ。...

Azure

AI-901 完全ガイド|Azure AI Fundamentals 新試験

Microsoft Certified: Azure AI Fundamentals (AI-901) の出題範囲・Mi...

Azure

Microsoft Entra ID 入門|旧 Azure AD から学ぶ ID 管理 (AZ-900/SC-900/AZ-104 必須知識)

Microsoft Entra ID (旧 Azure Active Directory) の入門解説。2023 年 7...

Azure

DP-900 完全ガイド|Azure Data Fundamentals 出題範囲・学習リソース・合格戦略

Microsoft Azure Data Fundamentals (DP-900) の完全ガイド。4 ドメインの出題範...

Azureの記事一覧 (103件)
© 2026 NicheeLab All rights reserved.