Databricks Certified Data Engineer Professional(DEP)は、Databricksの上級データエンジニアリング認定試験です。 Associate試験(DEA)が「各機能を理解しているか」を問うのに対し、DEPは「複雑な要件を満たすパイプラインを設計・実装・運用できるか」を問います。 出題はほぼ全てが実務シナリオベースで、Delta Lake・Structured Streaming・Unity Catalog・Jobs Orchestrationの深い理解に加え、 本番環境でのトラブルシュート・セキュリティ設計・CI/CDまでカバーする必要があります。
この記事では、DEPの試験仕様・6つの出題ドメインの詳細・DEAとの違い・各ドメインの高難易度トピック・ DEA合格後の学習ロードマップ・長文シナリオ問題の攻略法を体系的に解説します。
DEPの試験仕様は以下の通りです。DEAと比較して問題数は同じ60問ですが、制限時間が120分に拡大されており、 1問あたり2分の計算です。長文シナリオを読み解く時間を考慮した設計になっています。
| 項目 | 内容 |
|---|---|
| 問題数 | 60問 |
| 制限時間 | 120分 |
| 合格ライン | 70%(42問以上) |
| 受験料 | $200(税別) |
| 言語 | 英語・日本語対応 |
| 出題形式 | 単一選択・複数選択(シナリオベース中心) |
| 前提資格 | なし(DEA合格は不要だが知識は前提) |
| 有効期限 | 2年間 |
| 受験形式 | オンライン監督付き / テストセンター |
DEAとDEPは同じ「Data Engineer」ラインの試験ですが、求められるスキルレベルが根本的に異なります。 DEAは「各機能が何をするか知っている」レベル、DEPは「複数の機能を組み合わせて要件を満たす設計判断ができる」レベルです。
| 比較項目 | DEA(Associate) | DEP(Professional) |
|---|---|---|
| 問題数 | 45問 | 60問 |
| 制限時間 | 90分 | 120分 |
| 合格ライン | 70% | 70% |
| 受験料 | $200 | $200 |
| 難易度 | 基礎〜中級 | 中級〜上級 |
| 出題スタイル | 機能の理解を直接問う短文問題が中心 | 実務シナリオから設計判断を問う長文問題が中心 |
| 想定経験 | Databricks 6ヶ月以上の利用経験 | Databricks+データエンジニアリング2年以上の実務経験 |
| コード読解 | PySpark/SQLの基本構文を読める程度 | foreachBatch・DLTパイプライン・Jobs API等の実装コードを読んで正誤を判断 |
DEPは6つのドメインから出題されます。Data Processingが最大の25%を占め、 Databricks ToolingとData Modelingが各20%で続きます。 Security and GovernanceとMonitoring and Loggingはそれぞれ10%ですが、 出題数が少ない分、1問の失点が合否に直結するため手を抜けません。
| ドメイン | 配点 | 出題数(概算) |
|---|---|---|
| 1. Databricks Tooling | 20% | 約12問 |
| 2. Data Processing | 25% | 約15問 |
| 3. Data Modeling | 20% | 約12問 |
| 4. Security and Governance | 10% | 約6問 |
| 5. Monitoring and Logging | 10% | 約6問 |
| 6. Testing and Deployment | 15% | 約9問 |
Databricksの開発・運用ツールチェーンに関する深い理解が問われます。 DEAではWorkflowsやDelta Live Tablesの基本概念が問われますが、DEPでは実装レベルの知識が必要です。
Databricks Asset Bundles(DABs)は、ジョブ・パイプライン・ノートブック・設定ファイルをYAMLテンプレートとして定義し、databricks bundle deploy コマンドでワークスペースにデプロイする仕組みです。 試験では「開発→ステージング→本番の3環境にパイプラインをデプロイする最も効率的な方法」のようなシナリオで出題されます。 Bundle定義内でターゲット環境ごとにクラスタ設定やカタログ名をオーバーライドする構成を理解しておく必要があります。
REST APIを使ったジョブの作成・実行・監視はDEPの定番トピックです。 特に、Multi-Task Workflowで複数タスクの依存関係を定義し、 失敗時のリトライポリシー(max_retries、retry_on_timeout)やタスク間のパラメータ受け渡し(task values)が問われます。dbutils.jobs.taskValues.set() と dbutils.jobs.taskValues.get() の使い方は必ず押さえてください。
Databricks ReposはGitリポジトリをワークスペースにクローンし、ブランチ管理・プルリクエストフローを実現します。 DEPでは「本番ワークスペースへのデプロイフロー」や「開発者がmainブランチに直接pushできないようにするにはどうするか」 といった運用設計が問われます。Repos API経由でCI/CDパイプライン(GitHub Actions等)からデプロイを自動化するパターンも出題範囲です。
最大配点のドメインで、Structured Streaming・Delta Lake・Auto Loaderの高度な使い方が問われます。 DEAレベルの「readStreamで読んでwriteStreamで書く」から一歩進み、複雑なデータ変換とエラーハンドリングを含むパイプライン設計が求められます。
ストリーミングデータをDeltaテーブルにupsertする場合、foreachBatchでマイクロバッチごとにMERGE INTO を実行するのが標準パターンです。 試験では、このパターンのコード片を示して「このコードの問題点は何か」「冪等性を保証するために追加すべき処理は何か」を問う形式が多いです。 バッチIDを利用した重複排除や、MERGEのWHEN MATCHED / WHEN NOT MATCHED条件の正確な理解が必要です。
Auto Loaderには2つのファイル検出モードがあります。Directory Listingはクラウドストレージのディレクトリを定期的にリストして新規ファイルを検出します。 File NotificationはクラウドイベントサービスAWS SQS / Azure Event Grid / GCS Notificationsを設定し、ファイル到着イベントを受け取ります。 DEPでは「数百万ファイルが蓄積されたディレクトリでAuto Loaderのパフォーマンスが劣化した。対策は?」のようにFile Notificationモードへの切り替えを問う問題が出ます。cloudFiles.useNotifications = true の設定と、必要なクラウド権限(SQSキューの作成権限等)まで理解が必要です。
Delta TableのChange Data Feedを有効にすると、INSERT/UPDATE/DELETEの変更履歴を下流で読み取れます。table_changes() 関数またはSpark DataFrameの readStream.option("readChangeFeed", "true") で変更データを取得し、 下流のテーブルに反映するパイプライン設計が問われます。CDFのレコードには _change_type(insert / update_preimage / update_postimage / delete) と _commit_version、_commit_timestamp が付与される点を正確に覚えてください。
Lakehouse上でのデータモデリング手法が問われます。DEAではMedallion Architecture(Bronze/Silver/Gold)の概念理解が中心ですが、 DEPではSCD Type 2の実装やStar Schemaの設計判断など、具体的なモデリングの選択理由まで問われます。
顧客マスタや商品マスタのような「過去の状態も保持したい」ディメンションテーブルで使うパターンです。 DEPでは「Delta LakeでSCD Type 2を実装する」シナリオが定番で、 MERGE文で既存レコードのend_dateを更新し、新レコードをINSERTする2段階処理のコードが示されます。WHEN MATCHED AND s.value <> t.value THEN UPDATE SET t.end_date = s.effective_date, t.is_current = falseのような条件式を正確に読めるようにしてください。
Star Schema(ファクト+ディメンション)は分析クエリの高速化に適したモデルで、Goldレイヤーでの採用が一般的です。 Data Vaultはハブ・リンク・サテライトの3層構造で、ソースシステムの変更に強い柔軟性を持ちますが、クエリの複雑さが増します。 DEPでは「要件に応じてどちらのモデリング手法を選ぶべきか」を判断させる問題が出ます。 「ソースシステムが頻繁に変わる環境ではData Vault」「BI層での集計パフォーマンスが最優先ならStar Schema」のような判断軸を持っておいてください。
Unity Catalogを中心としたデータガバナンス機能が問われます。配点は10%ですが、 実務で設定ミスが許されない領域であり、問題の複雑さはDEA比で格段に上がります。
Row Filterは ALTER TABLE ... SET ROW FILTER で関数を指定し、ユーザーの属性に基づいて行の可視性を制御します。 Column Maskは ALTER TABLE ... ALTER COLUMN ... SET MASK で列の値をマスクします。 DEPでは「営業チームは自分のリージョンのデータのみ閲覧可能にし、個人情報列はマスクする」のような複合シナリオが出題されます。 Row FilterとColumn Maskが同時に適用された場合の評価順序(Row Filterが先)も出題ポイントです。
current_user() や is_account_group_member() を条件に含むビューを使って、 動的にデータのアクセス制御を行う方法です。Unity CatalogのRow Filter導入前からある手法ですが、 DEPでは「既存のDynamic ViewベースのセキュリティをRow Filter/Column Maskに移行する」シナリオが出ることがあります。
パイプラインの監視・ログ分析に関するドメインです。System Tablesと監査ログの活用が中心です。
Databricksの system.billing.usage、system.access.audit、system.compute.clusters 等のシステムテーブルは、コスト分析・セキュリティ監査・パフォーマンス分析に使います。 DEPでは「過去30日間でDBU消費が最も高いジョブを特定するクエリ」「特定ユーザーのデータアクセス履歴を監査するクエリ」 のように、System Tablesに対するSQLクエリを読み解く問題が出ます。
Unity Catalogの監査ログは system.access.audit テーブルに記録されます。 アクション種別(action_name)、対象リソース(request_params)、 実行ユーザー(user_identity)を組み合わせて、 「誰がいつどのテーブルにアクセスしたか」をクエリで追跡するスキルが求められます。 ストリーミングジョブの異常検知(レイテンシ増大・スループット低下)をSystem Tablesで実現するパターンも出題範囲です。
本番パイプラインの品質保証とデプロイ戦略に関するドメインです。 DEAではほぼ問われない領域ですが、DEPでは15%の配点があり、実務経験の差が出やすいパートです。
Databricksノートブック内でのユニットテスト・統合テストの実装が問われます。%run でヘルパー関数をインポートし、テスト用のtempビューに対して変換ロジックを実行して 結果を検証するパターンが典型です。また、Databricks Connectを使ってローカルIDEからリモートクラスタに接続し、 pytest等のテストフレームワークで検証するアプローチも出題範囲です。
GitHub Actions / Azure DevOps / GitLab CIなどのCI/CDツールとDatabricksの連携が問われます。 典型的なフローは「PRマージ → CIでユニットテスト実行 → Asset Bundleでステージングにデプロイ → 統合テスト → 本番デプロイ」です。 DEPでは「本番デプロイ時にダウンタイムなしでストリーミングパイプラインを更新するにはどうするか」 「ロールバックが必要になった場合の手順は何か」といった運用寄りの設計判断が問われます。
DEAに合格済みのエンジニアがDEPを目指す場合、3〜4ヶ月の計画的な学習を推奨します。 DEAの知識をベースにしつつ、DEP固有の深い実装知識を積み上げていくアプローチです。
DEPの最大の特徴は、問題文が長いことです。1問あたり200〜300語の英語(日本語版は同等の文字量)でシナリオが記述され、 その中から「本当に問われていること」を抽出する必要があります。以下の4ステップで効率的に解答できます。
シナリオの末尾にある「Which of the following ...」「What should the engineer do ...」を最初に読みます。 何が問われているかを先に把握してからシナリオを読むと、不要な情報をスキップでき、読解時間を30〜40%短縮できます。
シナリオ中の「must」「should not」「minimum cost」「without downtime」「exactly-once」のようなキーワードが正答選択の決め手になります。 これらをメモ用紙(試験中にホワイトボード/紙が提供される)に書き出してください。 多くの場合、正答と次点の選択肢は「この制約を満たすか否か」の一点で区別されます。
4つの選択肢のうち、通常2つは明確に不正解です(存在しないAPI、正反対の動作説明など)。 残り2つを制約条件と照合して最終判断します。DEPでは「どちらも動くが、要件を最も効率的に満たすのはどちらか」 という比較判断が多いため、コスト・パフォーマンス・運用性の3軸で評価する習慣をつけてください。
120分で60問ということは、1問2分が目安です。2分半考えても確信が持てない問題はフラグ(マーク)して次に進んでください。 DEPの試験システムでは全問を回答した後にフラグ付き問題だけをレビューできます。 残り時間をフラグ付き問題に集中投下する戦略が、合格ラインの70%到達に効果的です。
Data Processing
問題 1
データエンジニアが、クラウドストレージに到着するCSVファイルをAuto Loaderでリアルタイム取り込みするストリーミングパイプラインを運用している。ファイル数は1日あたり約50万件で増加傾向にあり、最近になってAuto Loaderの起動時に数分間の遅延が発生するようになった。取り込み遅延を最小化しつつ、既存のチェックポイントを維持したい。最も適切な対策はどれか。
正解: A
ファイル数が大量(50万件/日かつ増加傾向)の場合、Directory Listingモードではストレージのファイル一覧取得に時間がかかり、起動時遅延が発生します。File Notificationモードに切り替えると、クラウドイベントサービス(AWS SQS / Azure Event Grid等)経由でファイル到着を通知するため、ディレクトリの全件リストが不要になり遅延が解消されます。チェックポイントはモード切り替え後も維持できます。Bは要件の「リアルタイム取り込み」に反します。Cはファイル処理数を絞るだけで根本原因(ファイル検出の遅延)は解消しません。Dはチェックポイント維持の要件に違反し、全ファイル再処理は不要なコストとダウンタイムを生みます。
DEA(Associate)に合格していなくてもDEP(Professional)を受験できますか?
受験可能です。DatabricksはProfessional試験にAssociate合格を前提条件としていません。ただし、DEPはDEAの知識を前提とした上位試験であり、Delta Lake・Structured Streaming・Unity Catalogの基本概念が身についていないと問題文の意味を取るだけで時間を消費します。実質的にはDEAレベルの知識は必須と考えてください。
DEPの問題は全て長文シナリオ形式ですか?短い知識問題も出ますか?
大半が長文シナリオ形式ですが、全問ではありません。概ね7〜8割が「あなたはデータエンジニアで、以下の要件を満たすパイプラインを構築しています…」のようなシナリオから始まる形式で、残りはAPI引数やSQL構文の理解を直接問う短めの問題です。シナリオ問題は文章量が多いため、読解速度と要件の整理力が合否を分けます。
DEPの学習に実際のDatabricks環境は必要ですか?Community Editionで足りますか?
Community Editionでは不十分です。DEPで頻出するJobs Orchestration、Multi-Task Workflow、Asset Bundles、Unity Catalogのセキュリティ機能、System Tablesなどは有料ワークスペースでしか利用できません。14日間の無料トライアルまたは所属企業のワークスペースを利用して、実際に手を動かす学習を強く推奨します。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Databricks資格一覧|全7試験・難易度・勉強法
Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...
Databricks試験の難易度ランキング|全7資格を徹底比較
Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...
Databricks資格の勉強方法|最短合格ルートと学習時間の目安
Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...
Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略
Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...
Databricks ML Associate完全解説|MLflow・AutoML対策
Databricks Certified Machine Learning Associate試験を徹底解説。4つの出題...