Databricks

Databricks試験の問題例|全7資格の出題形式と解答

2026-03-20
更新: 2026-03-27
NicheeLab編集部

Databricks認定試験を受験するにあたって、実際にどんな問題が出るのかを事前に知っておくことは非常に重要です。この記事では、 全7試験の出題形式に基づくサンプル問題を掲載し、詳細な解答解説とともに紹介します。

4択問題・複数選択問題・コード読解問題の3タイプそれぞれの特徴を理解し、 試験本番に向けた準備に役立ててください。まずは問題を解いてみて、 自分の実力と弱点を把握しましょう。

Databricks試験の出題形式

Databricks試験は全7試験共通で、以下の3つの出題形式で構成されています。各形式の特徴と攻略ポイントを押さえておきましょう。

4択問題(Single Choice)— 約70%

全体の約70%を占める最も多い出題パターンです。4つの選択肢から正解を1つ選びます。 問題文は日本語対応試験では日本語で表示されますが、 コードスニペット部分は英語のまま出題されます。 「明らかに間違い」の選択肢が1〜2個含まれることが多いため、消去法が有効です。

複数選択問題(Multiple Response)— 約20%

正解が2つ以上ある問題で、「2つ選べ」「3つ選べ」のように正解数が明示されます。 部分点はなく、指定された数をすべて正しく選んだ場合のみ正解です。 確実に知っている選択肢から固め、残りを比較検討する戦略が有効です。

コード読解問題 — 試験により10〜35%

PySpark・Spark SQL・Delta Lakeのコードスニペットが提示され、正しい出力や動作を選ぶ形式です。各試験でのコード問題の比率は以下のとおりです。

試験名コード問題の比率出題されるコード
Spark Developer Associate約30〜35%PySpark DataFrame API、Spark SQL、Structured Streaming
Data Engineer Associate(DEA)約10〜15%Delta Lake DML、Auto Loader設定、DLTパイプライン
Data Engineer Professional(DEP)約15〜20%高度なSpark SQL、Delta Lake最適化、ストリーミング
Machine Learning Associate(MLA)約10〜15%MLflow API、Feature Store、scikit-learn連携
GenAI Engineer Associate約10%LangChain、Vector Search API、Embedding設定
Data Analyst Associate(DAA)約5〜10%SQL Window関数、CTEクエリ
Machine Learning Professional(MLP)約15〜20%Pandas UDF、分散学習コード、MLOpsパイプライン

Data Engineer Associate(DEA)の問題例

DEAはDelta Lake・ELT・データパイプラインの基礎知識を問う試験です。Auto LoaderとMERGE INTOが頻出トピックです。

DEA - Auto Loader

問題 1

Auto Loaderを使用してクラウドストレージからJSON形式のファイルを読み込む際、スキーマ推論を有効にした場合のスキーマ進化の動作について正しい説明はどれですか?

  1. 新しいカラムがファイルに含まれている場合、Auto Loaderは自動的にターゲットテーブルのスキーマを更新し、新カラムを追加する
  2. スキーマ推論ではcloudFiles.schemaLocationに指定したディレクトリにスキーマ情報を保存し、新しいカラムの検出時にストリームを停止してユーザーに通知する
  3. Auto Loaderのスキーマ推論はCSVファイルにのみ対応しており、JSONファイルでは使用できない
  4. スキーマ推論を有効にすると、すべてのカラムがSTRING型として読み込まれる

正解: B

Auto Loaderのスキーマ推論(cloudFiles.inferColumnTypes = true)は、schemaLocationに指定したディレクトリにスキーマ情報をJSON形式で保存します。新しいカラムが検出された場合、デフォルト動作(rescuedDataColumn有効時を除く)ではストリームを停止し、ユーザーにスキーマの変更を確認させます。Aの「自動的にスキーマを更新」はmergeSchema=trueを明示的に設定した場合の動作です。CはJSON・CSV・Parquet・Avro等に対応しているため誤りです。Dは型推論が行われるため誤りです。

DEA - MERGE INTO

問題 2

Delta LakeテーブルへのMERGE INTO文で、既存レコードの更新と新規レコードの挿入を同時に行う場合、WHEN MATCHED句にさらに条件を追加する方法として正しいものはどれですか?

  1. WHEN MATCHED AND source.updated_at > target.updated_at THEN UPDATE SET *
  2. WHEN MATCHED WHERE source.updated_at > target.updated_at THEN UPDATE SET *
  3. WHEN MATCHED THEN UPDATE SET * IF source.updated_at > target.updated_at
  4. WHEN MATCHED THEN UPDATE SET * WHERE source.updated_at > target.updated_at

正解: A

MERGE INTOのWHEN MATCHED句に追加条件を付ける場合は「WHEN MATCHED AND <条件> THEN ...」の構文を使用します。これにより、マッチした行の中でもさらに条件を絞ってUPDATEやDELETEを適用できます。WHERE句(B・D)はMERGE文のWHEN句内では使えません。IFキーワード(C)もMERGE文の構文には存在しません。UPDATE SET * はソースのすべてのカラムでターゲットを更新する省略記法です。

Machine Learning Associate(MLA)の問題例

MLAはMLflow・Feature Store・AutoMLの知識を問う試験です。MLflowの実験管理とFeature Engineeringが中心的なトピックです。

MLA - Feature Store

問題 3

Unity Catalog上のFeature Engineering(旧Feature Store)でフィーチャーテーブルを作成する際、オンラインストアへの自動同期を設定する方法として正しいものはどれですか?

  1. fe.create_table()のonline_store_specパラメータにオンラインストアの接続情報を指定する
  2. ALTER TABLE文でTBLPROPERTIES('online_store' = 'true')を設定する
  3. fe.publish_table()でオンラインストアの名前とエンドポイントを指定して公開する
  4. Databricks SQLでCREATE ONLINE TABLE文を実行する

正解: C

Unity Catalog上のFeature Engineering(旧Feature Store)では、fe.publish_table()メソッドを使用してフィーチャーテーブルをオンラインストア(DynamoDB、Cosmos DB等)に公開します。公開時にオンラインストア名、エンドポイント、認証情報を指定します。Aのonline_store_specパラメータはcreate_table()には存在しません。BのTBLPROPERTIESによる設定はオンラインストア同期には対応していません。DのCREATE ONLINE TABLE文はDatabricks SQLの構文ではありません。

Spark Developer の問題例

Spark DeveloperはDataFrame APIのコード問題が最大の特徴で、Catalyst Optimizerの動作理解も求められます。

Spark - Catalyst Optimizer

問題 4

次のPySparkコードについて、Catalyst Optimizerの最適化後の実行計画に関する説明として正しいものはどれですか? df = spark.read.parquet("/data/sales") result = df.filter(df.amount > 100).select("product_id", "amount").filter(df.region == "JP")

  1. 2つのfilterは記述順にそのまま順次実行される
  2. Catalyst Optimizerが2つのfilter条件を1つに結合(Predicate Pushdown)し、さらにselect対象のカラムのみをParquetから読み込む(Column Pruning)
  3. Catalyst Optimizerはfilterの順序を逆転させるが、結合はしない
  4. Parquetフォーマットではfilterのプッシュダウンは実行されない

正解: B

Catalyst Optimizerは論理最適化フェーズで複数のFilter条件を結合(CombineFilters)し、さらにPredicate Pushdownによってフィルタ条件をデータソースレベルまで押し下げます。Parquetフォーマットはカラム単位の読み込み(Column Pruning)をサポートしており、selectで指定したproduct_idとamount、filterで使用するregionのカラムのみがディスクから読み込まれます。Aのように記述順にそのまま実行されることはなく、Catalyst Optimizerが最適な実行計画を生成します。DはParquetがPredicate Pushdownを完全にサポートしている点で誤りです。

GenAI Engineer の問題例

GenAI EngineerはRAG・Vector Search・LLMアプリ開発の知識を問う最新試験です。

GenAI - Vector Search

問題 5

Databricks Vector SearchのDelta Sync Indexについて正しい説明はどれですか?

  1. Delta Sync IndexはDelta Lakeテーブルの変更を自動的に検出し、ベクトルインデックスを増分更新する
  2. Delta Sync IndexはDirect Vector Access Indexより検索レイテンシが常に低い
  3. Delta Sync Indexを使用する場合、エンベディング計算はユーザーが事前に実行してカラムに格納する必要がある
  4. Delta Sync Indexは一度作成すると元テーブルの削除後も独立して動作する

正解: A

Delta Sync Indexは、ソースとなるDelta Lakeテーブルの変更(INSERT/UPDATE/DELETE)をChange Data Feed経由で自動検出し、ベクトルインデックスを増分更新します。テーブルが更新されるたびにインデックスが自動的に最新状態に同期されるため、手動のリインデックスが不要です。BはDirect Vector Access Indexとのレイテンシ比較が一概にはできないため誤りです。Cはcompute_embeddingsオプションでDatabricksのEmbeddingモデルに自動計算を委任できるため誤りです。Dは元テーブルが削除されるとインデックスも無効になるため誤りです。

問題を解くコツ

消去法を徹底活用する

Databricks試験の4択問題では、明らかに誤りの選択肢が1〜2個含まれるケースが多いです。 まず確実に間違っている選択肢を除外し、残った2択で判断する戦略が有効です。 特にコード問題では、構文エラーのある選択肢を先に除外しましょう。

コード問題は1行ずつトレースする

コード読解問題では、焦って全体を見るのではなく、 1行ずつ上から順番にデータの変化をトレースしていくのが最も確実な方法です。 特にgroupByやjoinの前後でデータの行数・列数がどう変わるかに注目しましょう。

「最も適切」を選ぶ意識を持つ

Databricks試験では、複数の選択肢が技術的に正しい場合があります。 その場合、「最も適切」「最もベストプラクティスに沿った」回答を選ぶことが求められます。 公式ドキュメントの推奨事項やDatabricksのベストプラクティスを理解しておくことが、 こうした問題での正答率を上げるポイントです。

時間配分を意識する

Associate試験は45問/90分(1問2分)、Professional試験は59問/120分(1問約2分)です。 迷った問題にはフラグを立ててスキップし、確実に解ける問題から先に片付けましょう。 見直し時間として10〜15分は確保しておくのが理想的です。

よくある質問(FAQ)

Databricks試験にはどんな出題形式がありますか?

Databricks試験の出題形式は3種類です。4択問題(Single Choice)が約70%で最も多く、複数選択問題(Multiple Response)が約20%、コード読解問題が約10%を占めます。ドラッグ&ドロップや実技試験はありません。コード問題はPySpark・Spark SQL・Delta Lakeのコードスニペットが出題され、正しい出力や動作を選択する形式です。Spark Developer試験ではコード問題の比率が約30〜35%まで上がります。

複数選択問題では正解数が事前に分かりますか?

はい、複数選択問題では「2つ選べ」「3つ選べ」のように正解数が明示されます。指定された数より多く選択することはできないUIになっています。部分点はなく、すべて正しく選択した場合のみ正解となります。対策としては、まず明らかに誤りの選択肢を消去法で除外し、残りの選択肢を比較検討するのが効果的です。

サンプル問題と本番試験の難易度に差はありますか?

公式Practice Examのサンプル問題は本番と同程度の難易度に設定されています。ただし公式は各試験につき1セット(約45問)しか提供されないため、出題パターンの網羅性は不十分です。本番試験では、より実務的なシナリオに基づく問題や、複数の概念を組み合わせた応用問題が出題されることがあります。サンプル問題で形式を理解した後、問題集で幅広いパターンに触れておくことが重要です。

もっと問題を解いてみよう

6,800問以上の日本語問題で本番さながらの練習ができます

無料で問題を解く

Databricks試験の関連記事

Databricks無料問題集

6,800問以上の日本語練習問題

Databricks資格一覧

全7試験の内容・難易度を完全解説

Databricks試験の難易度ランキング

全7試験を難易度順に徹底比較

Databricks資格の勉強方法

最短合格ルートと学習時間の目安

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

無料で問題を解いてみる
この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。


関連記事
Databricks

Databricks資格一覧|全7試験・難易度・勉強法

Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...

Databricks

Databricks試験の難易度ランキング|全7資格を徹底比較

Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...

Databricks

Databricks資格の勉強方法|最短合格ルートと学習時間の目安

Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...

Databricks

Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略

Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...

Databricks

Databricks Data Engineer Professional完全解説|上級試験の攻略法

Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...

Databricksの記事一覧 (109件)
© 2026 NicheeLab All rights reserved.