Databricks

Databricks Data Engineer問題集|ドメイン別の練習問題と

2026-03-21
更新: 2026-03-27
NicheeLab編集部

Databricks Data Engineer試験(Associate / Professional)は、 Delta Lake・Spark SQL・ETLパイプライン・データガバナンスなど幅広い知識が問われます。 この記事では出題ドメインごとの配点表を示した上で、代表的な出題パターンの練習問題を掲載し、各分野で求められる知識のレベルと解答の着眼点を解説します。

DEA(Data Engineer Associate)出題ドメインと配点

DEAは45問・120分の試験で、以下の5ドメインから出題されます。2026年3月改定でUnity Catalog関連の比重が増加し、従来のHive Metastore前提の問題は出題範囲外になりました。

ドメイン配点比率主なトピック
ETL with Spark SQL & Python約30%DataFrame読み書き・Spark SQL構文・データ変換・UDF
Delta Lake約25%MERGE・VACUUM・Time Travel・Liquid Clustering・CDC
増分データ処理約20%Auto Loader・Structured Streaming・COPY INTO
本番パイプライン約15%DLT Expectations・LakeFlow Jobs・マルチタスクWorkflow
データガバナンス約10%Unity Catalog GRANT・3レベル名前空間・リネージ

DEP(Data Engineer Professional)出題ドメインと配点

DEPは60問・120分の上位試験で、問題文が長いシナリオ形式が中心です。設計判断・トラブルシューティング・パフォーマンス最適化の実践力が問われます。

ドメイン配点比率主なトピック
データ処理約30%複雑なETL設計・SCD Type 2・スキーマ進化・エラーハンドリング
データモデリング約20%Medallionアーキテクチャ設計・スタースキーマ・非正規化判断
セキュリティ/ガバナンス約20%動的ビュー・行レベルセキュリティ・列マスキング・外部ロケーション
モニタリング/ロギング約15%System Tables・DLTイベントログ・Spark UIの読み方
テスト/デプロイ約15%CI/CDパイプライン・Databricks Asset Bundles・環境分離

ドメイン別学習の効果

Data Engineer試験の出題は各ドメインから均等ではなく、上位2ドメイン(ETL + Delta Lake)だけで全体の50〜55%を占めます。ドメイン別に学習することで3つの効果が得られます。

  • 弱点の可視化:ドメインごとの正答率を計測すると、どの分野の理解が浅いか一目瞭然になります。例えばDelta Lakeは得意でも増分データ処理が弱い場合、Auto LoaderとStructured Streamingに集中投資できます。
  • 配点ウェイトに基づく時間配分:配点30%のETLドメインと10%のガバナンスドメインに同じ学習時間を割くのは非効率です。配点表を基準にして高配点ドメインから優先的に固めるのがスコア最大化の鍵です。
  • パターン認識の強化:ドメインごとに頻出パターンが存在します。Delta LakeならMERGEの条件分岐、Auto Loaderならスキーマ進化モード、DLTならExpectationのアクション種別など、パターンを認識できれば本番でも迷いにくくなります。

各ドメインの代表的な出題パターン

Delta Lake MERGE — 条件分岐と実行順序

MERGE INTOは複数のWHEN MATCHED / WHEN NOT MATCHED節を記述でき、上から順に評価されます。DEA・DEP共通で最頻出の構文であり、条件付きDELETE・UPDATE SET *・INSERT *の組み合わせを正確に追えるかが問われます。特にSCD Type 1(最新値で上書き)とType 2(履歴保持)のMERGEパターンはDEPで必出です。

Auto Loader — schemaEvolutionModeの挙動

cloudFilesフォーマットのAuto Loaderは、スキーマ進化モード(addNewColumns / failOnNewColumns / rescue / none)ごとに新規カラム到着時の挙動が異なります。試験では「新しいカラムを持つJSONが到着した場合に何が起こるか」を問うパターンが頻出です。rescueモードでは未知カラムが_rescued_dataに格納される点も押さえましょう。

Unity Catalog GRANT — 最小権限と階層伝播

Unity Catalogの権限はCATALOG → SCHEMA → TABLE/VIEWの3レベルで管理され、GRANT USAGEは「そのレベルにアクセスする権限」のみを付与します。CATALOGのUSAGEだけでは配下のテーブルにSELECTできない点、GRANT SELECT ON SCHEMA ... TO ... で配下の全テーブルにSELECTが付与される点がよく出題されます。

DLT Expectations — WARN / DROP ROW / FAIL

Delta Live Tablesのデータ品質制約(Expectation)は3つのアクション(ON VIOLATION WARN / DROP ROW / FAIL)を持ち、それぞれ「行を出力して警告のみ」「行を除外してメトリクスに記録」「パイプライン停止」の動作をします。DROP ROW時にイベントログのどこに除外数が記録されるか(flow_progress.data_quality.dropped_records)まで問われることがあります。

Workflows — 依存関係とリトライポリシー

マルチタスクWorkflowではタスク間の依存関係(depends_on)・リトライポリシー(max_retries / retry_on_timeout)・通知設定が出題されます。タスクAの失敗で依存タスクBがスキップされる挙動、条件分岐タスク(if/else task)の設定方法がDEP頻出パターンです。

ドメイン別 練習問題(3問)

以下ではDelta Lake・増分データ処理・データガバナンスの各ドメインから代表的な出題パターンを1問ずつ掲載しています。まず自力で解答してから解説を確認しましょう。

Delta Lake

問題 1

以下のMERGE文を実行した場合の動作として正しいものはどれですか? MERGE INTO silver USING bronze ON silver.id = bronze.id WHEN MATCHED AND bronze.op = 'DELETE' THEN DELETE WHEN MATCHED THEN UPDATE SET * WHEN NOT MATCHED AND bronze.op != 'DELETE' THEN INSERT *

  1. bronze.op='DELETE'の行を含むすべての一致行が削除され、不一致行はすべて挿入される
  2. idが一致しbronze.op='DELETE'の行はsilverから削除、一致するが'DELETE'でない行はUPDATE、不一致かつ'DELETE'でない行のみINSERTされる
  3. MERGEのWHEN NOT MATCHED節にAND条件は記述できないためSyntaxErrorが発生する
  4. bronze.op='DELETE'の行はsilverに挿入され、それ以外の一致行が削除される

正解: B

Delta LakeのMERGE文はWHEN MATCHED / WHEN NOT MATCHED節を上から順に評価します。最初のWHEN MATCHEDはbronze.op='DELETE'の条件付きで一致行を削除、2番目のWHEN MATCHEDは残りの一致行を更新、WHEN NOT MATCHEDにはAND bronze.op != 'DELETE'の条件が付いており、不一致行のうちopが'DELETE'でないものだけを挿入します。WHEN NOT MATCHED節にもAND条件を付けられるため構文エラーにはなりません(Cは誤り)。このパターンはCDC(Change Data Capture)イベントをsilverレイヤーに反映する典型的な実装で、DEA・DEP双方で頻出です。

増分データ処理

問題 2

Auto Loader(cloudFiles)でschemaEvolutionMode='rescue'を設定した場合、既存スキーマにないカラムを含むJSONファイルが到着したときの動作として正しいものはどれですか?

  1. 既存スキーマにないカラムの値は_rescued_dataカラムにJSON文字列として格納される
  2. 既存スキーマにないカラムが自動的にスキーマに追加され、過去データはnullで埋められる
  3. スキーマ不一致エラーが発生しストリームが停止する
  4. 既存スキーマにないカラムは無視され、一切保存されない

正解: A

schemaEvolutionMode='rescue'ではスキーマの自動拡張を行わず、既存スキーマに合致しないカラムやデータ型の値を_rescued_dataカラムにJSON文字列として退避します。データを失わずにスキーマ安定性を保てる点がrescueモードの利点です。Bの動作はaddNewColumnsモード、Cの動作はfailOnNewColumnsモードに該当します。rescueモードは本番パイプラインで予期しないスキーマ変更を安全に処理したい場合に適しており、DEA試験でAuto Loaderの各モードの違いを問う問題として頻出です。

データガバナンス

問題 3

Unity Catalogで以下のGRANT文を実行した後、analyst_groupが実行可能な操作はどれですか? GRANT USAGE ON CATALOG prod_catalog TO analyst_group; GRANT USAGE ON SCHEMA prod_catalog.sales TO analyst_group; GRANT SELECT ON SCHEMA prod_catalog.sales TO analyst_group;

  1. prod_catalog配下のすべてのスキーマのすべてのテーブルに対してSELECTを実行できる
  2. prod_catalog.salesスキーマ配下の全テーブルに対してSELECTを実行できるが、他のスキーマにはアクセスできない
  3. prod_catalog.salesスキーマのメタデータは閲覧できるが、テーブルのデータは参照できない
  4. GRANTの順序が不正のためエラーが発生し、いずれの権限も付与されない

正解: B

Unity Catalogの権限は階層構造に基づき、上位レベルのUSAGEがないと下位レベルにアクセスできません。この例ではCATALOGレベルのUSAGE(prod_catalogへのアクセス権)、SCHEMAレベルのUSAGE(salesスキーマへのアクセス権)、SCHEMAレベルのSELECT(salesスキーマ配下の全テーブルへのSELECT権)の3つが付与されています。GRANT SELECT ON SCHEMAはスキーマ配下の現在および将来作成されるすべてのテーブルにSELECT権を一括付与します。ただしprod_catalogの他のスキーマ(例:prod_catalog.marketing)にはUSAGE権がないためアクセスできません。GRANTの実行順序に制約はなく、Dは誤りです。

ドメイン別学習の進め方

ステップ1:配点ウェイトに応じた優先度設定

まず配点表を参照し、高配点ドメイン(ETL・Delta Lake)に学習時間の50%以上を割り当てます。この2ドメインでスコアの過半数が決まるため、ここで安定的に正答できれば合格ラインに到達しやすくなります。残り50%を増分データ処理・パイプライン・ガバナンスに配分しましょう。

ステップ2:ドメインごとの正答率を計測

問題集をドメインごとに解き、正答率を記録します。正答率70%未満のドメインが弱点ドメインです。弱点ドメインは公式ドキュメントの該当セクションを読み直し、Community Editionでコードを実行して挙動を確認してから再度問題を解きましょう。

ステップ3:コードの実行結果を予測する訓練

DEA・DEPともにコードスニペットを読んで動作を推測する問題が出題されます。MERGE文・Auto Loaderの設定・DLTのExpectation定義など、コードを見て「実行結果はどうなるか」を即座に判断できる力が合格の鍵です。Community Editionで実際にコードを実行し、自分の予測と結果を照合する練習を繰り返しましょう。

よくある質問(FAQ)

DEA(Data Engineer Associate)とDEP(Data Engineer Professional)では出題ドメインの配点がどう異なりますか?

DEAはDelta Lake操作・ETL with Spark SQL・増分データ処理・本番パイプライン・データガバナンスの5ドメインで構成され、ETL with Spark SQLが最大配点(約30%)です。DEPはデータ処理・データモデリング・セキュリティ/ガバナンス・モニタリング/ロギング・テスト/デプロイの5ドメインで構成され、データ処理とモデリングが合計で約50%を占めます。DEPはシナリオ問題が中心で問題文が長く、複数ドメインの知識を横断的に組み合わせた設計判断が問われます。

ドメイン別に学習する場合、どのドメインから着手すべきですか?

配点比率が最も高くかつ他ドメインの基礎になるETL / Data Processing(Spark SQL・PySpark)から始めるのが最効率です。Sparkの読み書き操作を習得した上でDelta Lake(MERGE・VACUUM・Time Travel)に進み、その後データガバナンス(Unity Catalog GRANT・リネージ)→パイプライン(DLT Expectations・Workflows)の順に学習すると知識が積み上がりやすく、ドメイン間の関連性も把握できます。

ドメイン別問題演習と模擬試験は並行して行うべきですか?

まずドメイン別の問題演習で各分野の知識を固め、苦手分野を特定・補強してから模擬試験に進む方法が効果的です。ドメイン別演習で正答率80%を超えたら模擬試験に移行し、本番と同じ120分の時間制約で通しで解く練習をしましょう。模擬試験で新たに苦手が見つかったら再びドメイン別に戻る、というサイクルを繰り返すのが合格への最短ルートです。

Data Engineer問題集で実力チェック

DEA 550問・DEP 400問以上の日本語練習問題で合格力を鍛えよう

無料で問題を解く

Databricks Data Engineer の関連記事

Data Engineer Associate 完全ガイド

DEAの出題範囲・難易度・対策を徹底解説

Data Engineer Professional 完全ガイド

DEPの出題範囲・難易度・対策を徹底解説

Databricks試験 2026年改定情報

DEA / DEPの最新改定内容まとめ

Databricks無料問題集

6,800問以上の日本語練習問題

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

無料で問題を解いてみる
この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。


関連記事
Databricks

Databricks資格一覧|全7試験・難易度・勉強法

Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...

Databricks

Databricks試験の難易度ランキング|全7資格を徹底比較

Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...

Databricks

Databricks資格の勉強方法|最短合格ルートと学習時間の目安

Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...

Databricks

Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略

Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...

Databricks

Databricks Data Engineer Professional完全解説|上級試験の攻略法

Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...

Databricksの記事一覧 (109件)
© 2026 NicheeLab All rights reserved.