Azure Data Lake Storage Gen2 (ADLS Gen2) は、Azure Blob Storage に階層名前空間 (Hierarchical Namespace, HNS) を追加した、大規模分析用ストレージです。 Microsoft Fabric の OneLake も内部的に ADLS Gen2 ベースで、Azure データレイク戦略の中核を担います。 本記事では、HNS の利点・Medallion Architecture・Partition 戦略・アクセス制御・Lifecycle Management を網羅的に整理します。
| 項目 | Blob Storage (HNS なし) | ADLS Gen2 (HNS あり) |
|---|---|---|
| Directory Rename | 全 Blob Copy → Delete (時間・料金大) | Atomic rename (瞬時) |
| Directory Delete | 全 Blob を順次 Delete | Atomic delete (瞬時) |
| 権限制御 | Container レベルのみ | POSIX ACL (ディレクトリ・ファイル単位) |
| HDFS 互換 | 非対応 | 対応 (ABFS Driver) |
| List 性能 | 標準 | 高速 |
| 料金 | 標準 | HNS Transaction が若干高め |
Storage Account 作成時に『Hierarchical Namespace』Enable を選択して構成。新規データレイク用途は ADLS Gen2 一択というのが現代の標準。
データレイクの品質階層的データパイプライン設計パターン。
| Layer | 役割 | 形式 | 用途 |
|---|---|---|---|
| Bronze (Raw) | ソースシステムからそのまま取り込み | CSV / JSON / Parquet / Avro | Lineage 追跡・再処理 |
| Silver (Cleansed) | クレンジング・重複除去・JOIN・型変換 | Delta Lake / Parquet | ビジネスエンティティ単位 |
| Gold (Curated) | 集計・Aggregate・ビジネスメトリクス | Delta Lake / Parquet | ダッシュボード・ML 学習データ |
container/
├── bronze/
│ └── source/yyyy/mm/dd/
├── silver/
│ └── entity/yyyy/mm/dd/
└── gold/
└── business/yyyy/mm/Databricks・Fabric Lakehouse・Synapse の標準パターンで、データ品質保証・トレーサビリティ・再処理容易性を実現。
ADLS Gen2 の Partition 戦略は分析性能とコストを大きく左右。
| 戦略 | 例 | 適用シーン |
|---|---|---|
| 日付パーティション | yyyy=2026/mm=05/dd=24/ | 時系列データ・Predicate Pushdown |
| ハッシュパーティション | region=us/customer_hash=001/ | 並列処理の均等性 |
| 複合パーティション | yyyy/mm/dd/region/category/ | 多次元分析 |
ABFS (Azure Blob File System) Driver は、ADLS Gen2 にアクセスする Hadoop 互換 Driver。
abfss://[email protected]/path/file
Databricks Unity Catalog では External Location で ABFS URI を Catalog に登録して統一管理、Spark コード側で URI を直接書く必要が排除されます。
| 方式 | 粒度 | 用途 |
|---|---|---|
| Azure RBAC | Subscription / RG / Storage Account / Container | 大粒度 |
| POSIX ACL | ディレクトリ・ファイル単位 | 細粒度 |
| Storage Account Key | 全体アクセス | 緊急用 |
| SAS Token | 時限付き | 一時アクセス |
両者は AND 評価。推奨パターン: Azure RBAC で大粒度 (Container) 権限付与 + POSIX ACL で詳細制御。 Databricks Unity Catalog 統合環境では Unity Catalog が抽象化レイヤとして機能し、POSIX ACL 直接管理は不要に。
本番運用ではコスト削減効果が劇的 (年間数百万-数千万円規模)、必須機能。
Microsoft Fabric の OneLake は内部的に ADLS Gen2 ベース、外部 ADLS Gen2 を Shortcut で参照可能。
Azure Data Lake Storage Gen2 (ADLS Gen2) とは?
Azure Data Lake Storage Gen2 (ADLS Gen2) は、Azure Blob Storage に階層名前空間 (Hierarchical Namespace, HNS) を追加した、大規模分析用ストレージ。Blob 互換 API + HDFS 互換 API (ABFS Driver) の両方をサポート、Spark / Hadoop / Databricks / Synapse / Fabric などの分析エンジンから直接アクセス可能。HNS により POSIX ライク (ディレクトリ・ファイル単位の権限・atomic rename) で動作し、ビッグデータワークロードの性能・操作性が大幅向上。Storage Account 作成時に『Hierarchical Namespace』Enable を選択して構成。代表的なユースケース: データレイク・データウェアハウス Landing Zone・ML データセット・IoT 集積データ・ログアーカイブ。Microsoft Fabric の OneLake も内部的に ADLS Gen2 ベースです。
Hierarchical Namespace (HNS) のメリットは?
HNS の主要メリット: 1) Atomic rename: ディレクトリ単位の rename が瞬時 (Blob では全 Blob を Copy → Delete で時間と料金大)、Spark / Hadoop の Job 完了時の Output Directory Rename が劇的高速化、2) Atomic delete: ディレクトリ単位の削除が瞬時、3) POSIX ACL: ディレクトリ・ファイル単位での詳細権限制御 (Blob は Container レベルのみ)、4) パスベースのクエリ性能向上 (List 操作・Filter 操作)、5) HDFS 互換 API (ABFS Driver) で Spark / Hadoop からのアクセスが自然、6) Lifecycle Management の粒度向上 (パス条件で柔軟ルール)。Blob Storage と同じ Tier (Hot/Cool/Cold/Archive)・Replication・暗号化を継承。料金は Blob とほぼ同じ (HNS Transaction の若干高めの単価あり)、デメリットはほぼなく、新規データレイク用途は ADLS Gen2 一択というのが現代の標準です。
Medallion Architecture (Bronze / Silver / Gold) って何ですか?
Medallion Architecture は、データレイクの品質階層的データパイプライン設計パターン。Bronze (Raw Layer): ソースシステムからのデータをそのまま取り込み (CSV・JSON・Parquet・Avro)、スキーマ正規化なし、不変・追記専用、Lineage 追跡可能。Silver (Cleansed Layer): Bronze データをクレンジング・重複除去・スキーマ統一・JOIN・型変換、ビジネスエンティティ単位 (例: 顧客マスタ・注文トラン)、Delta Lake / Parquet 形式が標準。Gold (Curated Layer): Silver データを集計・Aggregate・ビジネスメトリクス算出、ダッシュボード / レポート / ML 学習データ直接利用、Star Schema 設計が一般的。標準ディレクトリ構造: container/bronze/source/yyyy/mm/dd/・container/silver/entity/yyyy/mm/dd/・container/gold/business/yyyy/mm/。Databricks・Fabric Lakehouse・Synapse の標準パターンで、データ品質保証・トレーサビリティ・再処理容易性を実現します。
Partition 戦略はどう設計しますか?
ADLS Gen2 の Partition 戦略は分析性能とコストを大きく左右。代表的なパーティション戦略: 1) 日付パーティション (yyyy=2026/mm=05/dd=24/): 時系列データに最適、Predicate Pushdown (Spark が必要パーティションのみ読込) で性能劇的向上。2) ハッシュパーティション (region=us/customer_hash=001/): 並列処理の均等性、Hot Partition 回避。3) 複合パーティション (yyyy/mm/dd/region/category/): 多次元分析向け、過剰パーティション化に注意 (1 PB データを 100 万パーティションに分割すると List 性能劣化)。Best Practice: 1 パーティションあたり 1 GB-1 TB が目安、過剰細分化を避ける。Delta Lake では Z-Order・Liquid Clustering でパーティションに加えてセカンダリ並び替え可能。Spark の partitionBy() メソッドでパーティション書き込み、Lifecycle Management で古いパーティション自動削除 / Archive 移動。
ABFS Driver の使い方は?
ABFS (Azure Blob File System) Driver は、ADLS Gen2 にアクセスする Hadoop 互換 Driver。URI 形式: abfss://[email protected]/path/file。abfss は TLS 暗号化版 (推奨)、abfs は非暗号化版 (非推奨)。Spark / Hadoop / Databricks / Synapse / Fabric が標準サポート。認証方式: 1) Storage Account Key (シンプルだがレガシー)、2) SAS Token (時限付きアクセス)、3) Service Principal (推奨、Workload Identity Federation 経由)、4) Managed Identity (Azure 内サービス間、最推奨)。Spark での例: spark.conf.set('fs.azure.account.auth.type.<storage>.dfs.core.windows.net', 'OAuth') + Managed Identity 構成。Databricks Unity Catalog では External Location で ABFS URI を Catalog に登録して統一管理、Spark コード側で URI を直接書く必要が排除されます。
POSIX ACL と RBAC の使い分けは?
ADLS Gen2 は『Azure RBAC』『POSIX ACL』『Storage Account Key』『SAS Token』の 4 層のアクセス制御。Azure RBAC: Subscription / Resource Group / Storage Account / Container レベル、Microsoft Entra ID Principal (User / Group / Service Principal / Managed Identity) に Storage Blob Data Reader / Contributor などの Built-in Role 付与、大粒度。POSIX ACL: ディレクトリ・ファイル単位の Read / Write / Execute 権限、Owner / Group / Others の伝統的 POSIX モデル + Named User / Named Group / Default ACL の拡張、細粒度。両者は AND 評価 (両方で許可されたアクセスのみ通る) で、推奨パターンは『Azure RBAC で大粒度 (Container) 権限付与 + POSIX ACL で詳細制御 (Bronze は Engineering Team Read/Write・Silver は Analytics Team Read のみ)』。Databricks Unity Catalog 統合環境では Unity Catalog が抽象化レイヤとして機能し、POSIX ACL 直接管理は不要になります。
Lifecycle Management でのコスト最適化は?
ADLS Gen2 は Blob Storage と同じ Lifecycle Management Policy を活用可能。代表的なルール: 1) Bronze データ作成後 30 日で Hot → Cool 移行、90 日で Cool → Cold、365 日で Cold → Archive、2,555 日 (7 年) で削除、2) Silver データは Hot 維持 + 古い日付パーティション削除 (再生成可能なため Backup 不要)、3) Gold データは Hot 維持・Backup 必須、4) ログデータは 1 週間 Hot → 30 日 Cool → 365 日 Cold → 5 年 Archive → 削除、5) 中間データ (Spark Shuffle・Intermediate) は 7 日後削除。本番運用ではコスト削減効果が劇的 (年間数百万-数千万円規模)、必須機能。Cold ティア (2022 GA、Archive より高速取り出し可能・コストはやや高) を活用したコスト効率も向上。Last Accessed Tracking + Auto Tier 機能で更にスマートな自動最適化も可能です。
関連認定試験は?
DP-700 (Fabric Data Engineer Associate) で OneLake (内部 ADLS Gen2) が深く問われる本領域の本命認定。DP-203 (Azure Data Engineer Associate、2024-03 リタイア済) で ADLS Gen2 が中核。AZ-104 (Administrator) のドメイン 2 で Storage 全般、AZ-305 (Solutions Architect Expert) でアーキテクト視点でのデータレイク設計、DP-300 (DBA) でデータ統合、AI-103 (2026-06 GA) で AI / ML データセットストレージ。Databricks 認定 (Data Engineer Associate / Professional) でも ADLS Gen2 が基盤として頻出。データエンジニアにとって ADLS Gen2 の理解は必須スキルです。
関連記事・技術深掘り
Azure AI エンジニア キャリアロードマップ|AI-901 → AI-103 → 生成 AI アーキテクトへの道【2026 年版】
Azure AI エンジニアになるための認定取得ロードマップ完全版。AI-901 (2026-06 GA、AI-900 後継) → AI-103 (2026-06 GA、AI-102 後継) の最新ルート、Azure AI Foundry / Agent Service / OpenAI 中心の生成 AI 時代の構成、Databricks GenAI / OpenAI Direct との二刀流戦略、年収レンジまで日本語で網羅。
Microsoft Fabric Lakehouse 入門|OneLake・Shortcut・Direct Lake・Medallion 実装【2026 年版】
Microsoft Fabric Lakehouse の入門ガイド。OneLake 統一ストレージ・Shortcut 外部参照・Direct Lake モード・Medallion Architecture (Bronze/Silver/Gold) 実装・Lakehouse 構築手順・Capacity Unit (CU) コスト管理・関連認定試験 (DP-700 / DP-600 / AI-103) を日本語で網羅。
DP-203 vs DP-700 完全比較|旧 Azure Data Engineer vs 新 Fabric Data Engineer の違いと移行戦略【2026 年版】
Microsoft Azure データエンジニア認定の旧 DP-203 (Azure Data Engineer Associate、2024-03 リタイア) と新 DP-700 (Fabric Data Engineer Associate、2024-11 GA) を完全比較。試験仕様・対象プラットフォーム・出題範囲・難易度・学習時間・キャリアパスを表形式で整理。Microsoft Fabric への移行戦略、既保有者の追加取得ルートを日本語で網羅。
Azure データエンジニア キャリアロードマップ|DP-900 → DP-700 → AI-103 シニアデータエンジニアへの道【2026 年版】
Azure データエンジニアになるための認定取得ロードマップ完全版。DP-900 → DP-700 → DP-600 / DP-300 の Fabric 時代の王道ルート、Databricks 認定との二刀流、AI-103 統合戦略、DP-203 リタイア後の選択、12-18 ヶ月の学習プラン、年収レンジまで日本語で網羅。
本記事の技術情報は Azure Data Lake Storage Gen2 Documentation に基づいています。 本記事は Microsoft Corporation の公式商品ではなく、いかなる提携・後援関係もありません。 Microsoft、Azure、Microsoft Fabric は Microsoft group of companies の商標です。 情報は 2026 年 5 月 24 日時点の公式公開資料に基づきます。最新情報は必ず公式ページをご確認ください。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
AZ-900 完全ガイド|Microsoft Azure Fundamentals 出題範囲・学習リソース・合格戦略
Microsoft Azure Fundamentals (AZ-900) の 2026 年 1 月 14 日改訂版に対...
Azure 認定資格ロードマップ 2026 完全版|全 26 試験の体系と大型再編 (AI-901/AI-103/SC-500)
Microsoft Azure 認定資格 全 26 試験 (現行 23 + 退役 3) の 2026 年版ロードマップ。...
AI-901 完全ガイド|Azure AI Fundamentals 新試験
Microsoft Certified: Azure AI Fundamentals (AI-901) の出題範囲・Mi...
Microsoft Entra ID 入門|旧 Azure AD から学ぶ ID 管理 (AZ-900/SC-900/AZ-104 必須知識)
Microsoft Entra ID (旧 Azure Active Directory) の入門解説。2023 年 7...
DP-900 完全ガイド|Azure Data Fundamentals 出題範囲・学習リソース・合格戦略
Microsoft Azure Data Fundamentals (DP-900) の完全ガイド。4 ドメインの出題範...