Databricks Data Engineer試験(Associate / Professional)は、 Delta Lake・Spark SQL・ETLパイプライン・データガバナンスなど幅広い知識が問われます。 この記事では出題ドメインごとの配点表を示した上で、代表的な出題パターンの練習問題を掲載し、各分野で求められる知識のレベルと解答の着眼点を解説します。
DEAは45問・120分の試験で、以下の5ドメインから出題されます。2026年3月改定でUnity Catalog関連の比重が増加し、従来のHive Metastore前提の問題は出題範囲外になりました。
| ドメイン | 配点比率 | 主なトピック |
|---|---|---|
| ETL with Spark SQL & Python | 約30% | DataFrame読み書き・Spark SQL構文・データ変換・UDF |
| Delta Lake | 約25% | MERGE・VACUUM・Time Travel・Liquid Clustering・CDC |
| 増分データ処理 | 約20% | Auto Loader・Structured Streaming・COPY INTO |
| 本番パイプライン | 約15% | DLT Expectations・LakeFlow Jobs・マルチタスクWorkflow |
| データガバナンス | 約10% | Unity Catalog GRANT・3レベル名前空間・リネージ |
DEPは60問・120分の上位試験で、問題文が長いシナリオ形式が中心です。設計判断・トラブルシューティング・パフォーマンス最適化の実践力が問われます。
| ドメイン | 配点比率 | 主なトピック |
|---|---|---|
| データ処理 | 約30% | 複雑なETL設計・SCD Type 2・スキーマ進化・エラーハンドリング |
| データモデリング | 約20% | Medallionアーキテクチャ設計・スタースキーマ・非正規化判断 |
| セキュリティ/ガバナンス | 約20% | 動的ビュー・行レベルセキュリティ・列マスキング・外部ロケーション |
| モニタリング/ロギング | 約15% | System Tables・DLTイベントログ・Spark UIの読み方 |
| テスト/デプロイ | 約15% | CI/CDパイプライン・Databricks Asset Bundles・環境分離 |
Data Engineer試験の出題は各ドメインから均等ではなく、上位2ドメイン(ETL + Delta Lake)だけで全体の50〜55%を占めます。ドメイン別に学習することで3つの効果が得られます。
MERGE INTOは複数のWHEN MATCHED / WHEN NOT MATCHED節を記述でき、上から順に評価されます。DEA・DEP共通で最頻出の構文であり、条件付きDELETE・UPDATE SET *・INSERT *の組み合わせを正確に追えるかが問われます。特にSCD Type 1(最新値で上書き)とType 2(履歴保持)のMERGEパターンはDEPで必出です。
cloudFilesフォーマットのAuto Loaderは、スキーマ進化モード(addNewColumns / failOnNewColumns / rescue / none)ごとに新規カラム到着時の挙動が異なります。試験では「新しいカラムを持つJSONが到着した場合に何が起こるか」を問うパターンが頻出です。rescueモードでは未知カラムが_rescued_dataに格納される点も押さえましょう。
Unity Catalogの権限はCATALOG → SCHEMA → TABLE/VIEWの3レベルで管理され、GRANT USAGEは「そのレベルにアクセスする権限」のみを付与します。CATALOGのUSAGEだけでは配下のテーブルにSELECTできない点、GRANT SELECT ON SCHEMA ... TO ... で配下の全テーブルにSELECTが付与される点がよく出題されます。
Delta Live Tablesのデータ品質制約(Expectation)は3つのアクション(ON VIOLATION WARN / DROP ROW / FAIL)を持ち、それぞれ「行を出力して警告のみ」「行を除外してメトリクスに記録」「パイプライン停止」の動作をします。DROP ROW時にイベントログのどこに除外数が記録されるか(flow_progress.data_quality.dropped_records)まで問われることがあります。
マルチタスクWorkflowではタスク間の依存関係(depends_on)・リトライポリシー(max_retries / retry_on_timeout)・通知設定が出題されます。タスクAの失敗で依存タスクBがスキップされる挙動、条件分岐タスク(if/else task)の設定方法がDEP頻出パターンです。
以下ではDelta Lake・増分データ処理・データガバナンスの各ドメインから代表的な出題パターンを1問ずつ掲載しています。まず自力で解答してから解説を確認しましょう。
Delta Lake
問題 1
以下のMERGE文を実行した場合の動作として正しいものはどれですか? MERGE INTO silver USING bronze ON silver.id = bronze.id WHEN MATCHED AND bronze.op = 'DELETE' THEN DELETE WHEN MATCHED THEN UPDATE SET * WHEN NOT MATCHED AND bronze.op != 'DELETE' THEN INSERT *
正解: B
Delta LakeのMERGE文はWHEN MATCHED / WHEN NOT MATCHED節を上から順に評価します。最初のWHEN MATCHEDはbronze.op='DELETE'の条件付きで一致行を削除、2番目のWHEN MATCHEDは残りの一致行を更新、WHEN NOT MATCHEDにはAND bronze.op != 'DELETE'の条件が付いており、不一致行のうちopが'DELETE'でないものだけを挿入します。WHEN NOT MATCHED節にもAND条件を付けられるため構文エラーにはなりません(Cは誤り)。このパターンはCDC(Change Data Capture)イベントをsilverレイヤーに反映する典型的な実装で、DEA・DEP双方で頻出です。
増分データ処理
問題 2
Auto Loader(cloudFiles)でschemaEvolutionMode='rescue'を設定した場合、既存スキーマにないカラムを含むJSONファイルが到着したときの動作として正しいものはどれですか?
正解: A
schemaEvolutionMode='rescue'ではスキーマの自動拡張を行わず、既存スキーマに合致しないカラムやデータ型の値を_rescued_dataカラムにJSON文字列として退避します。データを失わずにスキーマ安定性を保てる点がrescueモードの利点です。Bの動作はaddNewColumnsモード、Cの動作はfailOnNewColumnsモードに該当します。rescueモードは本番パイプラインで予期しないスキーマ変更を安全に処理したい場合に適しており、DEA試験でAuto Loaderの各モードの違いを問う問題として頻出です。
データガバナンス
問題 3
Unity Catalogで以下のGRANT文を実行した後、analyst_groupが実行可能な操作はどれですか? GRANT USAGE ON CATALOG prod_catalog TO analyst_group; GRANT USAGE ON SCHEMA prod_catalog.sales TO analyst_group; GRANT SELECT ON SCHEMA prod_catalog.sales TO analyst_group;
正解: B
Unity Catalogの権限は階層構造に基づき、上位レベルのUSAGEがないと下位レベルにアクセスできません。この例ではCATALOGレベルのUSAGE(prod_catalogへのアクセス権)、SCHEMAレベルのUSAGE(salesスキーマへのアクセス権)、SCHEMAレベルのSELECT(salesスキーマ配下の全テーブルへのSELECT権)の3つが付与されています。GRANT SELECT ON SCHEMAはスキーマ配下の現在および将来作成されるすべてのテーブルにSELECT権を一括付与します。ただしprod_catalogの他のスキーマ(例:prod_catalog.marketing)にはUSAGE権がないためアクセスできません。GRANTの実行順序に制約はなく、Dは誤りです。
まず配点表を参照し、高配点ドメイン(ETL・Delta Lake)に学習時間の50%以上を割り当てます。この2ドメインでスコアの過半数が決まるため、ここで安定的に正答できれば合格ラインに到達しやすくなります。残り50%を増分データ処理・パイプライン・ガバナンスに配分しましょう。
問題集をドメインごとに解き、正答率を記録します。正答率70%未満のドメインが弱点ドメインです。弱点ドメインは公式ドキュメントの該当セクションを読み直し、Community Editionでコードを実行して挙動を確認してから再度問題を解きましょう。
DEA・DEPともにコードスニペットを読んで動作を推測する問題が出題されます。MERGE文・Auto Loaderの設定・DLTのExpectation定義など、コードを見て「実行結果はどうなるか」を即座に判断できる力が合格の鍵です。Community Editionで実際にコードを実行し、自分の予測と結果を照合する練習を繰り返しましょう。
DEA(Data Engineer Associate)とDEP(Data Engineer Professional)では出題ドメインの配点がどう異なりますか?
DEAはDelta Lake操作・ETL with Spark SQL・増分データ処理・本番パイプライン・データガバナンスの5ドメインで構成され、ETL with Spark SQLが最大配点(約30%)です。DEPはデータ処理・データモデリング・セキュリティ/ガバナンス・モニタリング/ロギング・テスト/デプロイの5ドメインで構成され、データ処理とモデリングが合計で約50%を占めます。DEPはシナリオ問題が中心で問題文が長く、複数ドメインの知識を横断的に組み合わせた設計判断が問われます。
ドメイン別に学習する場合、どのドメインから着手すべきですか?
配点比率が最も高くかつ他ドメインの基礎になるETL / Data Processing(Spark SQL・PySpark)から始めるのが最効率です。Sparkの読み書き操作を習得した上でDelta Lake(MERGE・VACUUM・Time Travel)に進み、その後データガバナンス(Unity Catalog GRANT・リネージ)→パイプライン(DLT Expectations・Workflows)の順に学習すると知識が積み上がりやすく、ドメイン間の関連性も把握できます。
ドメイン別問題演習と模擬試験は並行して行うべきですか?
まずドメイン別の問題演習で各分野の知識を固め、苦手分野を特定・補強してから模擬試験に進む方法が効果的です。ドメイン別演習で正答率80%を超えたら模擬試験に移行し、本番と同じ120分の時間制約で通しで解く練習をしましょう。模擬試験で新たに苦手が見つかったら再びドメイン別に戻る、というサイクルを繰り返すのが合格への最短ルートです。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Databricks資格一覧|全7試験・難易度・勉強法
Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...
Databricks試験の難易度ランキング|全7資格を徹底比較
Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...
Databricks資格の勉強方法|最短合格ルートと学習時間の目安
Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...
Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略
Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...
Databricks Data Engineer Professional完全解説|上級試験の攻略法
Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...