Databricks Data Engineer Professional完全解説｜上級試験の攻略法【2026】

Databricks Certified Data Engineer Professional（DEP）は、Databricksの上級データエンジニアリング認定試験です。 Associate試験（DEA）が「各機能を理解しているか」を問うのに対し、DEPは「複雑な要件を満たすパイプラインを設計・実装・運用できるか」を問います。出題はほぼ全てが実務シナリオベースで、Delta Lake・Structured Streaming・Unity Catalog・Jobs Orchestrationの深い理解に加え、本番環境でのトラブルシュート・セキュリティ設計・CI/CDまでカバーする必要があります。

この記事では、DEPの試験仕様・6つの出題ドメインの詳細・DEAとの違い・各ドメインの高難易度トピック・ DEA合格後の学習ロードマップ・長文シナリオ問題の攻略法を体系的に解説します。

試験概要

DEPの試験仕様は以下の通りです。DEAと比較して問題数は同じ60問ですが、制限時間が120分に拡大されており、 1問あたり2分の計算です。長文シナリオを読み解く時間を考慮した設計になっています。

項目	内容
問題数	60問
制限時間	120分
合格ライン	70%（42問以上）
受験料	$200（税別）
言語	英語・日本語対応
出題形式	単一選択・複数選択（シナリオベース中心）
前提資格	なし（DEA合格は不要だが知識は前提）
有効期限	2年間
受験形式	オンライン監督付き / テストセンター

DEA（Associate）との違い

DEAとDEPは同じ「Data Engineer」ラインの試験ですが、求められるスキルレベルが根本的に異なります。 DEAは「各機能が何をするか知っている」レベル、DEPは「複数の機能を組み合わせて要件を満たす設計判断ができる」レベルです。

比較項目	DEA（Associate）	DEP（Professional）
問題数	45問	60問
制限時間	90分	120分
合格ライン	70%	70%
受験料	$200	$200
難易度	基礎〜中級	中級〜上級
出題スタイル	機能の理解を直接問う短文問題が中心	実務シナリオから設計判断を問う長文問題が中心
想定経験	Databricks 6ヶ月以上の利用経験	Databricks＋データエンジニアリング2年以上の実務経験
コード読解	PySpark/SQLの基本構文を読める程度	foreachBatch・DLTパイプライン・Jobs API等の実装コードを読んで正誤を判断

出題ドメインと配点

DEPは6つのドメインから出題されます。Data Processingが最大の25%を占め、 Databricks ToolingとData Modelingが各20%で続きます。 Security and GovernanceとMonitoring and Loggingはそれぞれ10%ですが、出題数が少ない分、1問の失点が合否に直結するため手を抜けません。

ドメイン	配点	出題数（概算）
1. Databricks Tooling	20%	約12問
2. Data Processing	25%	約15問
3. Data Modeling	20%	約12問
4. Security and Governance	10%	約6問
5. Monitoring and Logging	10%	約6問
6. Testing and Deployment	15%	約9問

ドメイン1: Databricks Tooling（20%）

Databricksの開発・運用ツールチェーンに関する深い理解が問われます。 DEAではWorkflowsやDelta Live Tablesの基本概念が問われますが、DEPでは実装レベルの知識が必要です。

Asset Bundles（DABs）

Databricks Asset Bundles（DABs）は、ジョブ・パイプライン・ノートブック・設定ファイルをYAMLテンプレートとして定義し、databricks bundle deploy コマンドでワークスペースにデプロイする仕組みです。試験では「開発→ステージング→本番の3環境にパイプラインをデプロイする最も効率的な方法」のようなシナリオで出題されます。 Bundle定義内でターゲット環境ごとにクラスタ設定やカタログ名をオーバーライドする構成を理解しておく必要があります。

Jobs API と Multi-Task Workflow

REST APIを使ったジョブの作成・実行・監視はDEPの定番トピックです。特に、Multi-Task Workflowで複数タスクの依存関係を定義し、失敗時のリトライポリシー（max_retries、retry_on_timeout）やタスク間のパラメータ受け渡し（task values）が問われます。dbutils.jobs.taskValues.set() と dbutils.jobs.taskValues.get() の使い方は必ず押さえてください。

Repos（Git連携）とCI/CD

Databricks ReposはGitリポジトリをワークスペースにクローンし、ブランチ管理・プルリクエストフローを実現します。 DEPでは「本番ワークスペースへのデプロイフロー」や「開発者がmainブランチに直接pushできないようにするにはどうするか」といった運用設計が問われます。Repos API経由でCI/CDパイプライン（GitHub Actions等）からデプロイを自動化するパターンも出題範囲です。

ドメイン2: Data Processing（25%）

最大配点のドメインで、Structured Streaming・Delta Lake・Auto Loaderの高度な使い方が問われます。 DEAレベルの「readStreamで読んでwriteStreamで書く」から一歩進み、複雑なデータ変換とエラーハンドリングを含むパイプライン設計が求められます。

foreachBatch + MERGE パターン

ストリーミングデータをDeltaテーブルにupsertする場合、foreachBatchでマイクロバッチごとにMERGE INTO を実行するのが標準パターンです。試験では、このパターンのコード片を示して「このコードの問題点は何か」「冪等性を保証するために追加すべき処理は何か」を問う形式が多いです。バッチIDを利用した重複排除や、MERGEのWHEN MATCHED / WHEN NOT MATCHED条件の正確な理解が必要です。

Auto Loader: Directory ListingとFile Notification

Auto Loaderには2つのファイル検出モードがあります。Directory Listingはクラウドストレージのディレクトリを定期的にリストして新規ファイルを検出します。 File NotificationはクラウドイベントサービスAWS SQS / Azure Event Grid / GCS Notificationsを設定し、ファイル到着イベントを受け取ります。 DEPでは「数百万ファイルが蓄積されたディレクトリでAuto Loaderのパフォーマンスが劣化した。対策は？」のようにFile Notificationモードへの切り替えを問う問題が出ます。cloudFiles.useNotifications = true の設定と、必要なクラウド権限（SQSキューの作成権限等）まで理解が必要です。

Change Data Feed（CDF）

Delta TableのChange Data Feedを有効にすると、INSERT/UPDATE/DELETEの変更履歴を下流で読み取れます。table_changes() 関数またはSpark DataFrameの readStream.option("readChangeFeed", "true") で変更データを取得し、下流のテーブルに反映するパイプライン設計が問われます。CDFのレコードには _change_type（insert / update_preimage / update_postimage / delete）と _commit_version、_commit_timestamp が付与される点を正確に覚えてください。

ドメイン3: Data Modeling（20%）

Lakehouse上でのデータモデリング手法が問われます。DEAではMedallion Architecture（Bronze/Silver/Gold）の概念理解が中心ですが、 DEPではSCD Type 2の実装やStar Schemaの設計判断など、具体的なモデリングの選択理由まで問われます。

SCD Type 2（Slowly Changing Dimensions）

顧客マスタや商品マスタのような「過去の状態も保持したい」ディメンションテーブルで使うパターンです。 DEPでは「Delta LakeでSCD Type 2を実装する」シナリオが定番で、 MERGE文で既存レコードのend_dateを更新し、新レコードをINSERTする2段階処理のコードが示されます。WHEN MATCHED AND s.value <> t.value THEN UPDATE SET t.end_date = s.effective_date, t.is_current = falseのような条件式を正確に読めるようにしてください。

Star Schema vs Data Vault

Star Schema（ファクト＋ディメンション）は分析クエリの高速化に適したモデルで、Goldレイヤーでの採用が一般的です。 Data Vaultはハブ・リンク・サテライトの3層構造で、ソースシステムの変更に強い柔軟性を持ちますが、クエリの複雑さが増します。 DEPでは「要件に応じてどちらのモデリング手法を選ぶべきか」を判断させる問題が出ます。「ソースシステムが頻繁に変わる環境ではData Vault」「BI層での集計パフォーマンスが最優先ならStar Schema」のような判断軸を持っておいてください。

ドメイン4: Security and Governance（10%）

Unity Catalogを中心としたデータガバナンス機能が問われます。配点は10%ですが、実務で設定ミスが許されない領域であり、問題の複雑さはDEA比で格段に上がります。

Row-Level Security と Column-Level Security

Row Filterは ALTER TABLE ... SET ROW FILTER で関数を指定し、ユーザーの属性に基づいて行の可視性を制御します。 Column Maskは ALTER TABLE ... ALTER COLUMN ... SET MASK で列の値をマスクします。 DEPでは「営業チームは自分のリージョンのデータのみ閲覧可能にし、個人情報列はマスクする」のような複合シナリオが出題されます。 Row FilterとColumn Maskが同時に適用された場合の評価順序（Row Filterが先）も出題ポイントです。

Dynamic Views

current_user() や is_account_group_member() を条件に含むビューを使って、動的にデータのアクセス制御を行う方法です。Unity CatalogのRow Filter導入前からある手法ですが、 DEPでは「既存のDynamic ViewベースのセキュリティをRow Filter/Column Maskに移行する」シナリオが出ることがあります。

ドメイン5: Monitoring and Logging（10%）

パイプラインの監視・ログ分析に関するドメインです。System Tablesと監査ログの活用が中心です。

System Tables

Databricksの system.billing.usage、system.access.audit、system.compute.clusters 等のシステムテーブルは、コスト分析・セキュリティ監査・パフォーマンス分析に使います。 DEPでは「過去30日間でDBU消費が最も高いジョブを特定するクエリ」「特定ユーザーのデータアクセス履歴を監査するクエリ」のように、System Tablesに対するSQLクエリを読み解く問題が出ます。

監査ログの分析

Unity Catalogの監査ログは system.access.audit テーブルに記録されます。アクション種別（action_name）、対象リソース（request_params）、実行ユーザー（user_identity）を組み合わせて、「誰がいつどのテーブルにアクセスしたか」をクエリで追跡するスキルが求められます。ストリーミングジョブの異常検知（レイテンシ増大・スループット低下）をSystem Tablesで実現するパターンも出題範囲です。

ドメイン6: Testing and Deployment（15%）

本番パイプラインの品質保証とデプロイ戦略に関するドメインです。 DEAではほぼ問われない領域ですが、DEPでは15%の配点があり、実務経験の差が出やすいパートです。

ノートブックテスト

Databricksノートブック内でのユニットテスト・統合テストの実装が問われます。%run でヘルパー関数をインポートし、テスト用のtempビューに対して変換ロジックを実行して結果を検証するパターンが典型です。また、Databricks Connectを使ってローカルIDEからリモートクラスタに接続し、 pytest等のテストフレームワークで検証するアプローチも出題範囲です。

CI/CDパイプライン

GitHub Actions / Azure DevOps / GitLab CIなどのCI/CDツールとDatabricksの連携が問われます。典型的なフローは「PRマージ → CIでユニットテスト実行 → Asset Bundleでステージングにデプロイ → 統合テスト → 本番デプロイ」です。 DEPでは「本番デプロイ時にダウンタイムなしでストリーミングパイプラインを更新するにはどうするか」「ロールバックが必要になった場合の手順は何か」といった運用寄りの設計判断が問われます。

DEA合格後からDEPまでの学習ロードマップ

DEAに合格済みのエンジニアがDEPを目指す場合、3〜4ヶ月の計画的な学習を推奨します。 DEAの知識をベースにしつつ、DEP固有の深い実装知識を積み上げていくアプローチです。

Month 1: Tooling & Processing の基盤固め

Databricks公式のExam Guide（DEP版）を精読し、6ドメインの出題範囲を正確に把握する
Multi-Task Workflowを実際に構築し、タスク間依存関係・リトライ・パラメータ受け渡しを体験する
Auto LoaderのDirectory ListingモードとFile Notificationモードの両方を実際に動かす
foreachBatch + MERGEのパターンでストリーミングupsertを実装する

Month 2: Modeling & Security の深掘り

Delta LakeでSCD Type 2を実装する（MERGE文の条件分岐を手書きできるレベルまで）
Star SchemaとData Vaultの比較を整理し、それぞれが適する要件パターンをまとめる
Unity CatalogでRow Filter・Column Maskを設定し、current_user()による動的制御を検証する
Dynamic Viewsを作成し、Row Filterとの違い・移行パターンを理解する

Month 3: Monitoring & Testing + 横断演習

System Tables（billing.usage、access.audit、compute.clusters）に対する分析クエリを書く
Asset Bundles（DABs）でdev/staging/prod環境へのデプロイを実践する
CI/CDパイプラインのフロー（PR → テスト → デプロイ）をGitHub Actionsで構築する
模擬問題・練習問題を解き始め、弱点ドメインを特定する

Month 4（仕上げ）: 弱点補強 + 時間管理トレーニング

模擬試験を120分制限で通しで解き、時間配分を体に覚えさせる
間違えた問題のドメインを分類し、弱点ドメインに集中学習を投下する
長文シナリオ問題の読解パターンを繰り返し練習する（後述の攻略法を参照）
公式ドキュメントのリリースノートで最新機能の追加・変更を確認する

長文シナリオ問題の攻略法

DEPの最大の特徴は、問題文が長いことです。1問あたり200〜300語の英語（日本語版は同等の文字量）でシナリオが記述され、その中から「本当に問われていること」を抽出する必要があります。以下の4ステップで効率的に解答できます。

Step 1: 最後の質問文を先に読む

シナリオの末尾にある「Which of the following ...」「What should the engineer do ...」を最初に読みます。何が問われているかを先に把握してからシナリオを読むと、不要な情報をスキップでき、読解時間を30〜40%短縮できます。

Step 2: 制約条件にマーカーを置く

シナリオ中の「must」「should not」「minimum cost」「without downtime」「exactly-once」のようなキーワードが正答選択の決め手になります。これらをメモ用紙（試験中にホワイトボード/紙が提供される）に書き出してください。多くの場合、正答と次点の選択肢は「この制約を満たすか否か」の一点で区別されます。

Step 3: 選択肢を消去法で絞る

4つの選択肢のうち、通常2つは明確に不正解です（存在しないAPI、正反対の動作説明など）。残り2つを制約条件と照合して最終判断します。DEPでは「どちらも動くが、要件を最も効率的に満たすのはどちらか」という比較判断が多いため、コスト・パフォーマンス・運用性の3軸で評価する習慣をつけてください。

Step 4: 迷ったらフラグして先へ進む

120分で60問ということは、1問2分が目安です。2分半考えても確信が持てない問題はフラグ（マーク）して次に進んでください。 DEPの試験システムでは全問を回答した後にフラグ付き問題だけをレビューできます。残り時間をフラグ付き問題に集中投下する戦略が、合格ラインの70%到達に効果的です。

問題で確認

Data Processing

問題 1

データエンジニアが、クラウドストレージに到着するCSVファイルをAuto Loaderでリアルタイム取り込みするストリーミングパイプラインを運用している。ファイル数は1日あたり約50万件で増加傾向にあり、最近になってAuto Loaderの起動時に数分間の遅延が発生するようになった。取り込み遅延を最小化しつつ、既存のチェックポイントを維持したい。最も適切な対策はどれか。

Auto Loaderのファイル検出モードをDirectory ListingからFile Notification（cloudFiles.useNotifications = true）に切り替え、クラウドイベントサービスを構成する
Auto Loaderを停止し、COPY INTOコマンドによるバッチ取り込みに切り替える
Auto LoaderのmaxFilesPerTriggerを1に設定して、1回のトリガーで処理するファイル数を制限する
チェックポイントを削除して新しいストリームを開始し、全ファイルを再処理する

正解: A

ファイル数が大量（50万件/日かつ増加傾向）の場合、Directory Listingモードではストレージのファイル一覧取得に時間がかかり、起動時遅延が発生します。File Notificationモードに切り替えると、クラウドイベントサービス（AWS SQS / Azure Event Grid等）経由でファイル到着を通知するため、ディレクトリの全件リストが不要になり遅延が解消されます。チェックポイントはモード切り替え後も維持できます。Bは要件の「リアルタイム取り込み」に反します。Cはファイル処理数を絞るだけで根本原因（ファイル検出の遅延）は解消しません。Dはチェックポイント維持の要件に違反し、全ファイル再処理は不要なコストとダウンタイムを生みます。

よくある質問

DEA（Associate）に合格していなくてもDEP（Professional）を受験できますか？

受験可能です。DatabricksはProfessional試験にAssociate合格を前提条件としていません。ただし、DEPはDEAの知識を前提とした上位試験であり、Delta Lake・Structured Streaming・Unity Catalogの基本概念が身についていないと問題文の意味を取るだけで時間を消費します。実質的にはDEAレベルの知識は必須と考えてください。

DEPの問題は全て長文シナリオ形式ですか？短い知識問題も出ますか？

大半が長文シナリオ形式ですが、全問ではありません。概ね7〜8割が「あなたはデータエンジニアで、以下の要件を満たすパイプラインを構築しています…」のようなシナリオから始まる形式で、残りはAPI引数やSQL構文の理解を直接問う短めの問題です。シナリオ問題は文章量が多いため、読解速度と要件の整理力が合否を分けます。

DEPの学習に実際のDatabricks環境は必要ですか？Community Editionで足りますか？

Community Editionでは不十分です。DEPで頻出するJobs Orchestration、Multi-Task Workflow、Asset Bundles、Unity Catalogのセキュリティ機能、System Tablesなどは有料ワークスペースでしか利用できません。14日間の無料トライアルまたは所属企業のワークスペースを利用して、実際に手を動かす学習を強く推奨します。

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

無料で問題を解いてみる

この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。

Databricks Data Engineer Professional完全解説｜上級試験の攻略法