Databricks認定資格は全7試験。$200/回の受験料を無駄にしないためには、出題範囲の正確な把握→ドメイン別学習→問題演習→弱点補強の4ステップを確実に回すことが最短ルートです。 この記事では、キャリアパス別の受験順序、試験ごとの学習時間、公式リソースの使い方、 よくある失敗パターン、試験当日の注意点まで、合格に必要な情報を網羅します。
7試験を闇雲に受けるのは非効率です。自分のキャリア方向に合わせて順番を組み立てると、前の試験の知識が次の試験に直結するため学習効率が大幅に上がります。
| キャリアパス | ステップ1 | ステップ2 | ステップ3 |
|---|---|---|---|
| データエンジニア | Data Engineer Associate | Data Engineer Professional | Spark Developer |
| MLエンジニア | ML Associate | ML Professional | GenAI Engineer |
| データアナリスト | Data Analyst Associate | Data Engineer Associate | ML Associate |
データエンジニアパスでは、DEAでDelta Lake・ELT・Unity Catalogの基礎を固め、DEPでAPPLY CHANGES API・Liquid Clustering・System Tablesなど高度なトピックに進みます。Spark Developerは3番目に回すと、DEA/DEPで身についたSpark知識がそのまま活きます。
MLエンジニアパスでは、MLAでMLflow・AutoML・Feature Storeを押さえ、MLPで分散学習(TorchDistributor)・Lakehouse Monitoring・本番デプロイ設計を習得。GenAI Engineerは最後にすると、MLAで学んだModel ServingやVector Searchの知識が土台になります。
アナリストパスでは、DAAでDatabricks SQL・Query Profile・Photonの基礎を固め、DEAでETLパイプラインの理解を広げ、最終的にMLAで分析+ML双方のスキルセットを証明できます。
以下は「初めてその領域を学ぶ場合」と「実務経験がある場合」の学習時間目安です。実務経験者でもExam Guideの確認と問題演習は省略せず、最低限の時間を確保してください。
| 試験名 | 問題数 / 時間 | 未経験からの目安 | 実務経験者の目安 | 合格ライン |
|---|---|---|---|---|
| Data Engineer Associate | 45問 / 90分 | 80〜120時間(6〜8週間) | 30〜50時間(2〜4週間) | 70%(約32問) |
| Data Analyst Associate | 45問 / 90分 | 60〜90時間(4〜6週間) | 20〜40時間(2〜3週間) | 70%(約32問) |
| ML Associate | 48問 / 90分 | 80〜120時間(6〜8週間) | 30〜50時間(3〜4週間) | 70%(約34問) |
| Spark Developer | 45問 / 90分 | 80〜100時間(5〜7週間) | 30〜50時間(3〜4週間) | 70%(約32問) |
| GenAI Engineer | 45問 / 90分 | 60〜100時間(4〜6週間) | 30〜50時間(2〜4週間) | 70%(約32問) |
| Data Engineer Professional | 59問 / 120分 | 100〜150時間(8〜12週間) | 60〜80時間(4〜6週間) | 70%(約42問) |
| ML Professional | 59問 / 120分 | 120〜180時間(10〜14週間) | 60〜100時間(5〜8週間) | 70%(約42問) |
Databricksの試験対策で最も信頼できるのは公式リソースです。以下の4つを軸に学習を進めると、出題範囲からズレるリスクを最小化できます。
| リソース | URL / 入手方法 | 活用ポイント |
|---|---|---|
| Exam Guide(PDF) | 各試験の公式ページからDL | 出題ドメインと配点比率を最初に確認。学習計画の土台にする |
| Practice Exam | Databricks Academy(無料登録) | 本番と同形式の問題で出題レベルを把握。学習の序盤と仕上げに2回解く |
| Community Edition | community.cloud.databricks.com | 無料でnotebook実行可能。コードを動かして理解を定着させる |
| 公式ドキュメント | docs.databricks.com | 各トピックの正確な仕様確認。試験の正解根拠は基本的にここ |
Exam Guideは試験ごとに出題ドメインの比率が記載されています。例えばData Engineer Associateなら「ELT with Spark SQL and Python」が29%で最大比率です。配点の高いドメインから優先的に学習すると、限られた時間で合格ラインに届きやすくなります。
闇雲にドキュメントを読んでも効率が悪く、問題集だけ解いても応用が効きません。以下の4ステップを順に踏むのが最短ルートです。
公式サイトからExam Guide PDFをダウンロードし、出題ドメインと配点比率を一覧化します。各ドメインの「何が問われるか」を日本語でメモに書き出しておくと、学習中に迷子になりません。
# DEA Exam Guideの出題ドメイン例
Domain 1: Databricks Lakehouse Platform — 10%
Domain 2: ELT with Spark SQL and Python — 29% ← 最重点
Domain 3: Incremental Data Processing — 18%
Domain 4: Production Pipelines — 16%
Domain 5: Data Governance — 17%
→ Domain 2と3だけで全体の47%。ここを落とすと合格は厳しい。配点比率の高いドメインから順に、公式ドキュメントを読みながらCommunity Editionで実際にコードを動かします。DEAの場合、以下のトピックは最低限手を動かして確認すべきです。
-- Domain 2: ELT — Delta Lakeの基本操作を手で確認
CREATE TABLE bronze_orders
USING DELTA
AS SELECT * FROM json.`/databricks-datasets/samples/orders/`;
-- MERGE INTO でupsert(試験頻出パターン)
MERGE INTO silver_orders AS target
USING bronze_orders AS source
ON target.order_id = source.order_id
WHEN MATCHED THEN UPDATE SET *
WHEN NOT MATCHED THEN INSERT *;
-- Domain 3: Auto Loaderの基本構文
spark.readStream
.format("cloudFiles")
.option("cloudFiles.format", "json")
.option("cloudFiles.schemaLocation", "/checkpoints/schema")
.load("/data/raw/events/")
.writeStream
.option("checkpointLocation", "/checkpoints/events")
.trigger(availableNow=True)
.toTable("bronze_events")公式Practice Examと問題集を使い、最低200問以上を解きます。正解・不正解だけでなく、各選択肢がなぜ正解/不正解かを説明できるレベルまで復習してください。間違えた問題はドメインごとに分類し、弱点ドメインを特定します。
問題演習で正答率が低かったドメインに絞り、公式ドキュメントを再読+コード実行で補強します。特にProfessional試験では「なぜその設計を選ぶのか」を説明できるレベルが必要です。
不合格者のパターンは驚くほど共通しています。以下の5つは意識的に避けてください。
| 失敗パターン | 具体的な問題 | 対策 |
|---|---|---|
| 古い情報で勉強する | 2023年のブログ記事をベースに学習し、Hive Metastore前提の知識で解答。Unity Catalog必須の問題を落とす | 公式ドキュメント(docs.databricks.com)を一次情報にする。ブログはサブ教材として割り切る |
| 用語変更を見落とす | 「Feature Store」→「Feature Engineering in Unity Catalog」、「Repos」→「Git folders」などの名称変更を知らず、選択肢で迷う | Exam Guideの最新版を確認し、名称変更一覧を自分で作っておく |
| コードを動かさない | ドキュメントを読むだけで理解した気になり、MERGE INTO / Auto Loader / DLTの構文問題で解けない | Community Editionで最低20個のnotebookを作り、主要APIを全部手で動かす |
| 配点比率を無視する | 全ドメインに均等に時間を割き、配点10%の領域に2週間使ってしまう | Exam Guideの配点比率に比例して学習時間を配分する |
| 問題を解きっぱなしにする | 300問解いたが復習しておらず、同じ間違いを繰り返す | 間違えた問題はドメイン別に記録し、2周目以降で再挑戦して定着させる |
Databricksは機能の名称変更を頻繁に行います。古い名称がそのまま選択肢に出て惑わされるケースがあるため、以下の対応表を押さえてください。
| 旧名称 | 新名称(2026年現在) | 影響する試験 |
|---|---|---|
| Feature Store | Feature Engineering in Unity Catalog | MLA / MLP |
| Repos | Git folders | DEA / DEP |
| Delta Live Tables(DLT) | Lakeflow Declarative Pipelines | DEA / DEP |
| Databricks Jobs | Lakeflow Jobs | DEA / DEP |
| Mosaic AI Model Serving | Model Serving endpoints | MLA / MLP / GenAI |
| Partner Connect | Databricks Marketplace / Integration Hub | DEA / DAA |
Databricks試験はすべてPSI(Pearson VUE系列の試験配信サービス)を使ったオンライン受験です。技術面の準備不足で試験開始が遅れたり、受験資格を失ったりするケースが報告されています。
Data Engineer Associate — Incremental Data Processing
問題 1
データエンジニアが、S3バケットに継続的に到着するJSONファイルをDelta Lakeテーブルに取り込むパイプラインを構築しています。新規ファイルのみを自動検出し、スキーマの進化にも対応する必要があります。最も適切な方法はどれですか。
正解: B
Auto Loader(cloudFiles形式)は、クラウドストレージの新規ファイルを自動検出し、Structured Streamingとして取り込む仕組みです。schemaLocationを指定するとスキーマ推論結果がチェックポイントとして保存され、スキーマの進化にも自動対応します。COPY INTOもファイル取り込みに使えますが、新規ファイルの自動検出とスキーマ進化の両方を備えるAuto Loaderが最適です。spark.read.json()はバッチ読み込みであり差分検出機能がなく、外部テーブルは差分管理の仕組みを持ちません。
ML Associate — Model Lifecycle Management
問題 2
MLエンジニアが、MLflowで記録された複数の実験ランの中から、本番デプロイに適したモデルを選定するワークフローを構築しています。以下のコードの空欄に入る最も適切な組み合わせはどれですか。
正解: A
MLflowでのモデル選定→本番化の標準ワークフローは、search_runs()で実験ランのメトリクスを比較し、最適なモデルをregister_model()でModel Registryに登録、Championエイリアス(旧Productionステージに相当)を設定する流れです。Unity Catalog統合後のModel Registryでは、ステージ(Production/Staging)ではなくエイリアス(Champion/Challenger)を使う点が試験で問われます。
Data Analyst Associate — Query Optimization
問題 3
Databricks SQLアナリストが、売上データの月次レポートクエリのパフォーマンスを改善する必要があります。Query Profileを確認したところ、1つのステージでScan時間が全体の85%を占めていました。テーブルサイズは500GB、フィルタ条件は常にorder_dateの範囲指定です。最も効果的な改善策はどれですか。
正解: B
Scan時間が85%を占めるのは、フィルタ条件に対してデータスキッピングが効いていないことを示しています。order_dateでLiquid Clusteringを設定すると、同じ日付範囲のデータが物理的に近接配置され、不要なファイルのスキャンをスキップできます。SELECT *の修正はI/O量の削減に有効ですがScan時間が支配的な場合は根本解決にならず、Warehouseサイズの拡大はコスト増で対症療法に過ぎません。マテリアライズドビューは毎回異なる日付範囲で検索する場合にはキャッシュヒット率が低下します。
Databricks認定試験の勉強時間はどのくらい必要ですか?
実務経験の有無で大きく変わります。Associate試験はSpark/SQL実務経験ありなら2〜4週間(30〜60時間)、未経験なら6〜8週間(80〜120時間)が目安です。Professional試験はAssociate取得済みでも4〜8週間(60〜100時間)が必要です。Community Editionでのハンズオンに時間をかけるほど定着率は上がります。
独学だけでDatabricks認定試験に合格できますか?
合格可能です。公式Exam Guide→公式ドキュメント→Practice Exam→問題集の順に進めれば、独学でAssociate試験は十分合格圏に入ります。ただしProfessional試験は実務レベルの設計判断が問われるため、Community Editionでのハンズオンやユースケースの深い理解が不可欠です。有料トレーニングは必須ではありませんが、体系的に学びたい場合はDatabricks Academyの無料コースが良い出発点です。
Databricks試験で不合格になった場合、再受験はいつできますか?
不合格から14日後に再受験が可能です。再受験にも$200が必要です。再受験回数に制限はありませんが、不合格だった場合はスコアレポートでドメインごとの正答率を確認し、弱点ドメインを集中補強してから再挑戦してください。同じ準備で2回目を受けても結果は変わりにくいです。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Databricks資格一覧|全7試験・難易度・勉強法
Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...
Databricks試験の難易度ランキング|全7資格を徹底比較
Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...
Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略
Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...
Databricks Data Engineer Professional完全解説|上級試験の攻略法
Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...
Databricks ML Associate完全解説|MLflow・AutoML対策
Databricks Certified Machine Learning Associate試験を徹底解説。4つの出題...