Databricks認定試験を受験するにあたって、実際にどんな問題が出るのかを事前に知っておくことは非常に重要です。この記事では、 全7試験の出題形式に基づくサンプル問題を掲載し、詳細な解答解説とともに紹介します。
4択問題・複数選択問題・コード読解問題の3タイプそれぞれの特徴を理解し、 試験本番に向けた準備に役立ててください。まずは問題を解いてみて、 自分の実力と弱点を把握しましょう。
Databricks試験は全7試験共通で、以下の3つの出題形式で構成されています。各形式の特徴と攻略ポイントを押さえておきましょう。
全体の約70%を占める最も多い出題パターンです。4つの選択肢から正解を1つ選びます。 問題文は日本語対応試験では日本語で表示されますが、 コードスニペット部分は英語のまま出題されます。 「明らかに間違い」の選択肢が1〜2個含まれることが多いため、消去法が有効です。
正解が2つ以上ある問題で、「2つ選べ」「3つ選べ」のように正解数が明示されます。 部分点はなく、指定された数をすべて正しく選んだ場合のみ正解です。 確実に知っている選択肢から固め、残りを比較検討する戦略が有効です。
PySpark・Spark SQL・Delta Lakeのコードスニペットが提示され、正しい出力や動作を選ぶ形式です。各試験でのコード問題の比率は以下のとおりです。
| 試験名 | コード問題の比率 | 出題されるコード |
|---|---|---|
| Spark Developer Associate | 約30〜35% | PySpark DataFrame API、Spark SQL、Structured Streaming |
| Data Engineer Associate(DEA) | 約10〜15% | Delta Lake DML、Auto Loader設定、DLTパイプライン |
| Data Engineer Professional(DEP) | 約15〜20% | 高度なSpark SQL、Delta Lake最適化、ストリーミング |
| Machine Learning Associate(MLA) | 約10〜15% | MLflow API、Feature Store、scikit-learn連携 |
| GenAI Engineer Associate | 約10% | LangChain、Vector Search API、Embedding設定 |
| Data Analyst Associate(DAA) | 約5〜10% | SQL Window関数、CTEクエリ |
| Machine Learning Professional(MLP) | 約15〜20% | Pandas UDF、分散学習コード、MLOpsパイプライン |
DEAはDelta Lake・ELT・データパイプラインの基礎知識を問う試験です。Auto LoaderとMERGE INTOが頻出トピックです。
DEA - Auto Loader
問題 1
Auto Loaderを使用してクラウドストレージからJSON形式のファイルを読み込む際、スキーマ推論を有効にした場合のスキーマ進化の動作について正しい説明はどれですか?
正解: B
Auto Loaderのスキーマ推論(cloudFiles.inferColumnTypes = true)は、schemaLocationに指定したディレクトリにスキーマ情報をJSON形式で保存します。新しいカラムが検出された場合、デフォルト動作(rescuedDataColumn有効時を除く)ではストリームを停止し、ユーザーにスキーマの変更を確認させます。Aの「自動的にスキーマを更新」はmergeSchema=trueを明示的に設定した場合の動作です。CはJSON・CSV・Parquet・Avro等に対応しているため誤りです。Dは型推論が行われるため誤りです。
DEA - MERGE INTO
問題 2
Delta LakeテーブルへのMERGE INTO文で、既存レコードの更新と新規レコードの挿入を同時に行う場合、WHEN MATCHED句にさらに条件を追加する方法として正しいものはどれですか?
正解: A
MERGE INTOのWHEN MATCHED句に追加条件を付ける場合は「WHEN MATCHED AND <条件> THEN ...」の構文を使用します。これにより、マッチした行の中でもさらに条件を絞ってUPDATEやDELETEを適用できます。WHERE句(B・D)はMERGE文のWHEN句内では使えません。IFキーワード(C)もMERGE文の構文には存在しません。UPDATE SET * はソースのすべてのカラムでターゲットを更新する省略記法です。
MLAはMLflow・Feature Store・AutoMLの知識を問う試験です。MLflowの実験管理とFeature Engineeringが中心的なトピックです。
MLA - Feature Store
問題 3
Unity Catalog上のFeature Engineering(旧Feature Store)でフィーチャーテーブルを作成する際、オンラインストアへの自動同期を設定する方法として正しいものはどれですか?
正解: C
Unity Catalog上のFeature Engineering(旧Feature Store)では、fe.publish_table()メソッドを使用してフィーチャーテーブルをオンラインストア(DynamoDB、Cosmos DB等)に公開します。公開時にオンラインストア名、エンドポイント、認証情報を指定します。Aのonline_store_specパラメータはcreate_table()には存在しません。BのTBLPROPERTIESによる設定はオンラインストア同期には対応していません。DのCREATE ONLINE TABLE文はDatabricks SQLの構文ではありません。
Spark DeveloperはDataFrame APIのコード問題が最大の特徴で、Catalyst Optimizerの動作理解も求められます。
Spark - Catalyst Optimizer
問題 4
次のPySparkコードについて、Catalyst Optimizerの最適化後の実行計画に関する説明として正しいものはどれですか? df = spark.read.parquet("/data/sales") result = df.filter(df.amount > 100).select("product_id", "amount").filter(df.region == "JP")
正解: B
Catalyst Optimizerは論理最適化フェーズで複数のFilter条件を結合(CombineFilters)し、さらにPredicate Pushdownによってフィルタ条件をデータソースレベルまで押し下げます。Parquetフォーマットはカラム単位の読み込み(Column Pruning)をサポートしており、selectで指定したproduct_idとamount、filterで使用するregionのカラムのみがディスクから読み込まれます。Aのように記述順にそのまま実行されることはなく、Catalyst Optimizerが最適な実行計画を生成します。DはParquetがPredicate Pushdownを完全にサポートしている点で誤りです。
GenAI EngineerはRAG・Vector Search・LLMアプリ開発の知識を問う最新試験です。
GenAI - Vector Search
問題 5
Databricks Vector SearchのDelta Sync Indexについて正しい説明はどれですか?
正解: A
Delta Sync Indexは、ソースとなるDelta Lakeテーブルの変更(INSERT/UPDATE/DELETE)をChange Data Feed経由で自動検出し、ベクトルインデックスを増分更新します。テーブルが更新されるたびにインデックスが自動的に最新状態に同期されるため、手動のリインデックスが不要です。BはDirect Vector Access Indexとのレイテンシ比較が一概にはできないため誤りです。Cはcompute_embeddingsオプションでDatabricksのEmbeddingモデルに自動計算を委任できるため誤りです。Dは元テーブルが削除されるとインデックスも無効になるため誤りです。
Databricks試験の4択問題では、明らかに誤りの選択肢が1〜2個含まれるケースが多いです。 まず確実に間違っている選択肢を除外し、残った2択で判断する戦略が有効です。 特にコード問題では、構文エラーのある選択肢を先に除外しましょう。
コード読解問題では、焦って全体を見るのではなく、 1行ずつ上から順番にデータの変化をトレースしていくのが最も確実な方法です。 特にgroupByやjoinの前後でデータの行数・列数がどう変わるかに注目しましょう。
Databricks試験では、複数の選択肢が技術的に正しい場合があります。 その場合、「最も適切」「最もベストプラクティスに沿った」回答を選ぶことが求められます。 公式ドキュメントの推奨事項やDatabricksのベストプラクティスを理解しておくことが、 こうした問題での正答率を上げるポイントです。
Associate試験は45問/90分(1問2分)、Professional試験は59問/120分(1問約2分)です。 迷った問題にはフラグを立ててスキップし、確実に解ける問題から先に片付けましょう。 見直し時間として10〜15分は確保しておくのが理想的です。
Databricks試験にはどんな出題形式がありますか?
Databricks試験の出題形式は3種類です。4択問題(Single Choice)が約70%で最も多く、複数選択問題(Multiple Response)が約20%、コード読解問題が約10%を占めます。ドラッグ&ドロップや実技試験はありません。コード問題はPySpark・Spark SQL・Delta Lakeのコードスニペットが出題され、正しい出力や動作を選択する形式です。Spark Developer試験ではコード問題の比率が約30〜35%まで上がります。
複数選択問題では正解数が事前に分かりますか?
はい、複数選択問題では「2つ選べ」「3つ選べ」のように正解数が明示されます。指定された数より多く選択することはできないUIになっています。部分点はなく、すべて正しく選択した場合のみ正解となります。対策としては、まず明らかに誤りの選択肢を消去法で除外し、残りの選択肢を比較検討するのが効果的です。
サンプル問題と本番試験の難易度に差はありますか?
公式Practice Examのサンプル問題は本番と同程度の難易度に設定されています。ただし公式は各試験につき1セット(約45問)しか提供されないため、出題パターンの網羅性は不十分です。本番試験では、より実務的なシナリオに基づく問題や、複数の概念を組み合わせた応用問題が出題されることがあります。サンプル問題で形式を理解した後、問題集で幅広いパターンに触れておくことが重要です。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Databricks資格一覧|全7試験・難易度・勉強法
Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...
Databricks試験の難易度ランキング|全7資格を徹底比較
Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...
Databricks資格の勉強方法|最短合格ルートと学習時間の目安
Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...
Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略
Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...
Databricks Data Engineer Professional完全解説|上級試験の攻略法
Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...