Azure

Microsoft Fabric Lakehouse 入門｜OneLake・Shortcut・Direct Lake・Medallion 実装

2026-05-24

NicheeLab編集部

Microsoft Fabric Lakehouse は、Microsoft Fabric の Data Engineering Workload で提供される統合データプラットフォームです。 Data Lake と Data Warehouse の両方の特性を併せ持つ『Lakehouse』アーキテクチャの Microsoft 実装で、Azure Synapse / Databricks の後継として急速に普及中。本記事では、Lakehouse の基本・OneLake・Shortcut・Direct Lake・Medallion 実装・コスト管理を網羅的に整理します。

Lakehouse の基本

内部的に Delta Parquet 形式で OneLake (Fabric の統一ストレージ) に保管
Apache Spark で処理 (PySpark / Spark SQL / Scala)
SQL Endpoint で Read-only T-SQL クエリも可能
Power BI Direct Lake モードで超低レイテンシ分析
Tables (Delta Tables) と Files (Raw Files) の 2 セクション構成

OneLake と Shortcut

OneLake は Fabric の統一ストレージレイヤ、すべての Fabric ワークロードが共有。内部的に ADLS Gen2 ベース。

Shortcut の対応データソース

ADLS Gen2 Storage Account
Amazon S3
Google Cloud Storage
Dataverse
別 Workspace の OneLake

代表的なユースケース

既存 ADLS Gen2 データを Fabric から直接活用 (移行不要)
AWS S3 のマルチクラウドデータ統合
複数 Workspace 間のデータ共有 (アクセス権限管理は元 Workspace 維持)

Shortcut により Fabric は『データ移動なしのデータ統合』を実現、クラウド横断のデータレイク戦略の中核技術。

Direct Lake モード

Direct Lake は Microsoft Fabric の Power BI Semantic Model 接続モードの 1 つ。

モード	動作	速度	Fresh データ	適用シーン
Import	データを Power BI にコピー	最速	定期 Refresh 必要	従来主流
DirectQuery	クエリごとに Source へ	遅い	常に Fresh	リアルタイム性要件
Direct Lake	Delta Parquet 直接読み込み	Import 並み	常に Fresh	Fabric 主推奨

Refresh 不要 (常に最新)
Import より大規模データ対応 (10 億行+ も対応)
Power BI Premium / Fabric Capacity 必須
Fabric の最大の差別化機能の 1 つ

Lakehouse の構築手順

Workspace → New Item → Lakehouse → 名前指定で作成 (数秒で完了)
Lakehouse Explorer で Tables と Files の 2 セクションが表示
Files にファイルアップロード (CSV・JSON・Parquet・各種形式)
Notebook で PySpark コード実行してデータ処理
df.write.format('delta').saveAsTable('table_name') で Delta Table 作成
SQL Endpoint で T-SQL クエリ実行
Power BI Semantic Model 自動作成 (Direct Lake 接続) で BI 分析

代表的な Spark コード例

from pyspark.sql import functions as F

df = (spark.read
    .format('csv')
    .option('header', 'true')
    .load('Files/raw/sales_2024.csv'))

cleaned = (df
    .filter(F.col('amount') > 0)
    .withColumn('processed_at', F.current_timestamp()))

cleaned.write.format('delta').mode('overwrite').saveAsTable('cleaned_sales')

Medallion Architecture の実装

Fabric Lakehouse での Medallion 実装パターン:

Lakehouse Workspace に Bronze / Silver / Gold の 3 つの Lakehouse 作成 (環境分離)、または同一 Lakehouse 内で Schema/Folder 分離
Bronze: Files にソースデータをそのまま配置 (CSV・JSON・Parquet)、または Tables にスキーマ最小限の Delta Table
Silver: Bronze から PySpark で読み込み → クレンジング・JOIN・型変換 → Delta Table 化
Gold: Silver から集計・Aggregate → Star Schema または Wide Table で Delta Table 化
Pipeline で Bronze → Silver → Gold の依存関係を Orchestration
Power BI Direct Lake で Gold を分析

詳細は Data Lake Gen2 完全設計の Medallion セクションも参照。

Lakehouse vs Warehouse

項目	Lakehouse	Warehouse
エンジン	Apache Spark	Microsoft SQL Engine
言語	PySpark / Spark SQL / Scala	T-SQL
形式	Delta Lake	Delta Parquet (内部)
データ種類	構造化 + 半構造化 + 非構造化	構造化中心
Schema	Schema-on-Read 柔軟	Schema-on-Write 厳密
ACID	あり (Delta)	あり
用途	Big Data・ML・Streaming	SQL アナリスト・BI

詳細は Fabric Lakehouse vs Warehouse 完全比較で深掘り。

Capacity Unit (CU) とコスト管理

Fabric の課金単位は Capacity Unit (CU)。

主要 SKU

SKU	CU	月額目安	用途
F2	2	約 4 万円	開発
F4	4	約 8 万円	開発・テスト
F16	16	約 30 万円	小規模本番
F64	64	約 64 万円	本番標準
F128	128	約 130 万円	大規模本番
F512	512	約 500 万円	エンタープライズ
F2048	2048	約 2,000 万円	超大規模

コスト最適化施策

開発環境は F2 / F4 (Pause 可能)・本番のみ F64+
Reserved Instance (1 年契約) で約 41% 割引
Auto Scale で需要連動
Pause 機能で業務時間外停止 (Dev / Stage)
Capacity Metrics App で利用パターン分析・Right-sizing
Workload 別 Capacity 分離 (Lakehouse Heavy 処理は別 Capacity に)

運用ベストプラクティス

Workspace 単位で環境分離 (Dev / Stage / Prod)
Bronze / Silver / Gold の Medallion 構造
Shortcut で外部データを論理参照 (移行不要)
Direct Lake で Power BI 統合・Refresh 不要化
Notebook で開発・Pipeline で本番 Orchestration
Reserved Instance + Pause でコスト最適化
Capacity Metrics で月次 Right-sizing
Git 連携で Notebook バージョン管理
Workspace Role で権限制御
OneLake の Domain で組織横断データガバナンス

よくある質問

Microsoft Fabric Lakehouse とは?

Microsoft Fabric Lakehouse は、Microsoft Fabric の Data Engineering Workload で提供される統合データプラットフォームで、Data Lake と Data Warehouse の両方の特性を併せ持つ『Lakehouse』アーキテクチャの Microsoft 実装。内部的に Delta Parquet 形式で OneLake (Fabric の統一ストレージ) に保管、Apache Spark で処理。SQL Endpoint で Read-only T-SQL クエリも可能、Power BI Direct Lake モードで超低レイテンシ分析。代表的なユースケース: 1) データレイク + データウェアハウスの統合、2) Bronze / Silver / Gold Medallion Architecture の実装、3) PySpark でのデータ処理、4) Notebook ベースのインタラクティブ開発。DP-700 (Fabric Data Engineer Associate) 試験の中核トピックで、Azure Synapse / Databricks の後継として急速に普及中の最新データプラットフォームです。

Lakehouse と Warehouse の違いは?

Lakehouse: Apache Spark ベース、PySpark / Spark SQL / Scala でのデータ処理、Delta Lake 形式、構造化 + 半構造化 + 非構造化データ全対応、Notebook ベースの開発、Auto Loader でのストリーミング取り込み、Schema-on-Read 柔軟。Warehouse: T-SQL ベース、Microsoft SQL エンジンで動作、ACID トランザクション + Distributed Query、構造化データ中心、ストアドプロシージャ・関数対応、Schema-on-Write 厳密、BI / レポート向け最適化。判断: 1) Big Data・ML・Streaming → Lakehouse、2) SQL アナリスト・BI レポート → Warehouse、3) 両方混在 → 同一 OneLake 上で両方を運用可能 (Cross-warehouse Query で結合可)。新規 Fabric プロジェクトでは『Lakehouse (Bronze/Silver) + Warehouse (Gold)』のハイブリッド構成が標準パターン、データエンジニアと BI 開発者が同じデータ基盤で協業可能になります。

OneLake と Shortcut の動作は?

OneLake は Fabric の統一ストレージレイヤ、すべての Fabric ワークロード (Lakehouse・Warehouse・KQL Database・Power BI Semantic Model) が共有。内部的に ADLS Gen2 ベースで Delta Parquet 形式。Shortcut: 外部データソースを OneLake に論理参照する機能 (実データコピーなし)、対応: 1) ADLS Gen2 Storage Account、2) Amazon S3、3) Google Cloud Storage、4) Dataverse、5) 別 Workspace の OneLake。代表的なユースケース: 1) 既存 ADLS Gen2 データを Fabric から直接活用 (移行不要)、2) AWS S3 のマルチクラウドデータ統合、3) 複数 Workspace 間のデータ共有 (アクセス権限管理は元 Workspace 維持)。Shortcut により Fabric は『データ移動なしのデータ統合』を実現、クラウド横断のデータレイク戦略の中核技術となっています。

Direct Lake モードとは?

Direct Lake は Microsoft Fabric の Power BI Semantic Model 接続モードの 1 つで、Lakehouse / Warehouse の Delta Parquet データを直接 Power BI で分析する高速モード。従来の Power BI 接続モード比較: 1) Import Mode (データを Power BI にコピー、最速だが Fresh ではない、定期 Refresh 必要)、2) DirectQuery (クエリごとに Source へ、Fresh だが遅い)、3) Direct Lake (Delta Parquet を直接読み込み、Import 並みの速度 + Fresh データ)。動作: Delta Parquet ファイルを Power BI が直接メモリ Load → ユーザークエリ実行 → Lakehouse / Warehouse の最新データで分析。Refresh 不要 (常に最新)、Import より大規模データ対応 (10 億行+ も対応)。Power BI Premium / Fabric Capacity 必須。Fabric の最大の差別化機能の 1 つで、データエンジニアと BI 開発者の連携を大幅に効率化します。

Lakehouse の構築手順は?

Fabric Workspace で Lakehouse 作成: 1) Workspace → New Item → Lakehouse → 名前指定で作成 (数秒で完了)、2) Lakehouse Explorer で Tables (Delta Tables) と Files (Raw Files) の 2 セクションが表示、3) Files にファイルアップロード (CSV・JSON・Parquet・各種形式)、4) Notebook で PySpark コード実行してデータ処理、5) df.write.format('delta').saveAsTable('table_name') で Delta Table 作成、6) SQL Endpoint で T-SQL クエリ実行、7) Power BI Semantic Model 自動作成 (Direct Lake 接続) で BI 分析。代表的な Spark コード例: spark.read.format('csv').load('Files/raw/').filter(F.col('amount') > 0).write.format('delta').saveAsTable('cleaned_data')。Notebook と Lakehouse を統合した Fabric の開発体験は、Databricks に近い感覚で Microsoft エコシステム内で完結する利点があります。

Medallion Architecture を Lakehouse で実装するには?

Fabric Lakehouse での Medallion 実装パターン: 1) Lakehouse Workspace に Bronze / Silver / Gold の 3 つの Lakehouse 作成 (環境分離)、または同一 Lakehouse 内で Schema/Folder 分離、2) Bronze: Files にソースデータをそのまま配置 (CSV・JSON・Parquet)、または Tables にスキーマ最小限の Delta Table、3) Silver: Bronze から PySpark で読み込み → クレンジング・JOIN・型変換 → Delta Table 化、4) Gold: Silver から集計・Aggregate → Star Schema または Wide Table で Delta Table 化、5) Pipeline で Bronze → Silver → Gold の依存関係を Orchestration、6) Power BI Direct Lake で Gold を分析。Fabric Notebook で各段階を実装、Spark Session の Persistent Connection で開発効率向上。Databricks 経験者なら短期間で習熟可能、新規データエンジニアにも分かりやすい構成です。

Capacity Unit (CU) とコスト管理は?

Fabric の課金単位は Capacity Unit (CU)、SKU は F2 (2 CU)・F4・F8・F16・F32・F64・F128・F256・F512・F1024・F2048 (2048 CU)。Lakehouse の Spark 計算リソースは CU から動的割り当て、Pipeline Activity・Power BI Refresh・Notebook 実行などすべての処理が CU を消費。価格例: F64 (本番標準・約 64 万円/月)・F128 (約 130 万円/月)。コスト最適化: 1) 開発環境は F2 / F4 (Pause 可能)・本番のみ F64+、2) Reserved Instance (1 年契約) で約 41% 割引、3) Auto Scale で需要連動、4) Pause 機能で業務時間外停止 (Dev / Stage)、5) Capacity Metrics App で利用パターン分析・Right-sizing、6) Workload 別 Capacity 分離 (Lakehouse Heavy 処理は別 Capacity に)。本番運用では Capacity Metrics で月次 Right-sizing が標準パターンです。

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

Azure 試験対策ページを見る

この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。

Azure

AZ-900 完全ガイド｜Microsoft Azure Fundamentals 出題範囲・学習リソース・合格戦略

Microsoft Azure Fundamentals (AZ-900) の 2026 年 1 月 14 日改訂版に対...

Azure

Azure 認定資格ロードマップ 2026 完全版｜全 26 試験の体系と大型再編 (AI-901/AI-103/SC-500)

Microsoft Azure 認定資格全 26 試験 (現行 23 + 退役 3) の 2026 年版ロードマップ。...

Azure

AI-901 完全ガイド｜Azure AI Fundamentals 新試験

Microsoft Certified: Azure AI Fundamentals (AI-901) の出題範囲・Mi...

Azure

Microsoft Entra ID 入門｜旧 Azure AD から学ぶ ID 管理 (AZ-900/SC-900/AZ-104 必須知識)

Microsoft Entra ID (旧 Azure Active Directory) の入門解説。2023 年 7...

Azure

DP-900 完全ガイド｜Azure Data Fundamentals 出題範囲・学習リソース・合格戦略

Microsoft Azure Data Fundamentals (DP-900) の完全ガイド。4 ドメインの出題範...

Microsoft Fabric Lakehouse 入門｜OneLake・Shortcut・Direct Lake・Medallion 実装

Lakehouse の基本

OneLake と Shortcut

Shortcut の対応データソース

代表的なユースケース

Direct Lake モード

Lakehouse の構築手順

代表的な Spark コード例

Medallion Architecture の実装

Lakehouse vs Warehouse

Capacity Unit (CU) とコスト管理

主要 SKU

コスト最適化施策

運用ベストプラクティス

関連認定試験

よくある質問

この記事で学んだ内容を問題で確認しましょう

この記事の著者

関連記事

Azureの記事一覧 (103件)