Databricks Certified Data Engineer Associateは、Lakehouse上でのデータエンジニアリングスキルを証明する認定試験です。 Spark SQL・Python・Delta Lake・DLT・Unity Catalogの実践的理解が問われ、 Databricks認定の中で最も受験者数が多い試験でもあります。
この記事では、5つの出題ドメインの配点比率と頻出トピック、 実際の出題パターンに基づくサンプル問題、そして2ヶ月で合格するための学習ロードマップを解説します。
まず試験の基本情報を整理します。受験前に確認すべき項目をすべてまとめました。
| 項目 | 内容 |
|---|---|
| 正式名称 | Databricks Certified Data Engineer Associate |
| 問題数 | 45問(すべて選択式) |
| 試験時間 | 90分 |
| 合格ライン | 70%(32問以上の正解が目安) |
| 受験料 | $200 (USD) |
| 試験言語 | 英語・日本語を含む複数言語対応 |
| 受験方法 | オンライン監督付き(Webassessor経由) |
| 有効期限 | 取得日から2年間 |
| 前提条件 | なし(推奨: Spark・Databricks 6ヶ月以上の経験) |
| 再受験ポリシー | 不合格後14日間のクールダウン期間 |
45問を90分で解くため、1問あたり平均2分です。 「最も適切なものを選べ」形式が大半で、明らかに間違いの選択肢を消去法で外し、 残り2択まで絞る判断力が求められます。 時間配分としては、確信のある問題は60秒以内で通過し、迷う問題にフラグを付けて最後に見直すのが定石です。
試験は5つのドメインから構成され、配点比率が公式に公開されています。 比率を把握することで、どのドメインに学習時間を重点配分すべきかが明確になります。
| ドメイン | 配点比率 | 問題数の目安 |
|---|---|---|
| 1. Databricks Lakehouse Platform | 24% | 約11問 |
| 2. ELT with Spark SQL and Python | 29% | 約13問 |
| 3. Incremental Data Processing | 22% | 約10問 |
| 4. Production Pipelines | 16% | 約7問 |
| 5. Data Governance | 9% | 約4問 |
ドメイン2(ELT)とドメイン1(Lakehouse Platform)だけで全体の53%を占めます。 この2ドメインを確実に得点源にすることが合格への最短ルートです。 逆にドメイン5(Data Governance)は9%(約4問)なので、深追いより基本事項の確認に留めるのが効率的です。
Lakehouseアーキテクチャの基礎概念と、Databricksプラットフォームの操作に関するドメインです。 「Data WarehouseとData Lakeの違い」「Lakehouseがそれらをどう統合するか」という概念問題から、 クラスタ・ノートブック・Reposの操作に関する実務問題まで幅広く出題されます。
最大の配点比率を持つドメインで、Spark SQLとPySparkによるELT処理の実践力が問われます。 コードの読み書きが直接出題されるため、座学だけでは対応が難しく、ハンズオン経験の差がスコアに直結します。
バッチ一括処理ではなく、新規・変更データだけを効率的に処理するインクリメンタル処理のドメインです。 Auto Loader・Structured Streaming・CDCの3トピックが中心で、 「どの場面でどの手法を使うか」の判断力が試されます。
開発したパイプラインを本番運用に乗せるためのドメインです。 Databricks Workflows(旧Jobs)とDelta Live Tables(DLT)が中心トピックです。
配点比率は最小ですが、Unity Catalogの基礎知識は確実に問われます。 4問程度と少ないため、深い実装知識より「何ができるか」の概念理解が重要です。
以下は、平日1〜2時間・休日3〜4時間の学習ペースを想定した8週間のロードマップです。 Sparkやデータエンジニアリングの基礎知識がある前提で設計しています。
| 期間 | 学習内容 | 目標 |
|---|---|---|
| Week 1-2 | Lakehouse概念 / Delta Lake基礎 / クラスタ操作 | Community Editionでノートブック作成・Delta操作・タイムトラベルを実行できる |
| Week 3-4 | Spark SQL / PySpark / MERGE INTO / UDF | CTASでテーブル作成、MERGE INTOでUPSERT、WINDOW関数を自力で書ける |
| Week 5-6 | Auto Loader / Structured Streaming / DLT | cloudFilesでファイル取り込み、DLTパイプラインをExpectations付きで構築できる |
| Week 7 | Workflows / Unity Catalog / GRANT・REVOKE | マルチタスクジョブの作成、カタログ・スキーマ・テーブルの権限設定を理解 |
| Week 8 | Practice Exam / 弱点補強 / 模擬試験 | 公式Practice Examで80%以上のスコア、弱点ドメインの補強完了 |
学習リソースとしては、Databricks Academy(無料のLearning Path)、 公式Practice Exam(受験登録後にWebassessorからアクセス可能)、 そしてCommunity Edition上でのハンズオン演習の3つを軸に進めてください。 座学→ハンズオン→問題演習のサイクルを各トピックで回すのが最も定着率が高い学習法です。
実際に試験を受けた合格者のフィードバックから、試験の傾向を整理します。
Data Engineer Associateに合格したら、次のステップとして2つの資格が有力です。
| 資格名 | 位置づけ | 追加で求められるスキル |
|---|---|---|
| Data Engineer Professional (DEP) | DEAの上位資格。本番運用レベルの設計判断力を証明 | Schema Evolution戦略、マルチホップアーキテクチャの最適化、ストリーミングの障害復旧、高度なDLT設計 |
| Machine Learning Associate (MLA) | ML領域への横展開。データ基盤+ML基礎の両方を証明 | MLflow実験管理、Feature Store、AutoML、モデルサービング、Spark MLlib基礎 |
DEA → DEP のパスはデータエンジニアとしての深化、DEA → MLA のパスはMLエンジニアへのキャリア拡張を意味します。 どちらもDEAで学んだDelta Lake・Spark・Unity Catalogの知識がそのまま基盤になるため、 DEAの学習内容を忘れないうちに次の試験に進むのが効率的です。 目安として、DEA合格後2〜3ヶ月以内に次の試験を受けるペースが推奨されます。
Incremental Data Processing
問題 1
データエンジニアがクラウドストレージ上のランディングゾーンに継続的に到着するCSVファイルをDeltaテーブルに取り込むパイプラインを構築している。ファイル数は日々増加し、現在10万ファイルを超えている。新規ファイルのみを効率的に処理したい。最も適切なアプローチはどれか。
正解: B
Auto Loader(cloudFiles)はクラウドストレージの新規ファイルを自動検知し、チェックポイントで処理済みファイルを追跡するため、ファイル数が増えても効率が劣化しません。COPY INTOは毎回ファイル一覧をスキャンするため10万ファイル超の環境ではオーバーヘッドが大きくなります。バッチ全件読み込み+ANTI JOINは処理コストが高く非効率です。外部テーブル参照はDeltaの利点(ACIDトランザクション・タイムトラベル)を活かせません。
Data Engineer Associate試験はどの程度の実務経験があれば合格できますか?
Databricksの公式目安は6ヶ月以上のSpark・Databricks実務経験ですが、実際にはCommunity Editionで3〜4週間集中的にハンズオンを積めば未経験からでも合格可能です。特にAuto Loader・DLT・Unity Catalogの3トピックは座学だけでは理解しにくいため、必ずノートブック上でコードを動かして挙動を確認してください。合格者の多くは「公式ドキュメント+Practice Exam+ハンズオン」の3本柱で学習しています。
ELT with Spark SQLドメイン(29%)で頻出のSQL構文は何ですか?
MERGE INTO・COPY INTO・CTAS(CREATE TABLE AS SELECT)・CTE(WITH句)が頻出です。特にMERGE INTOはCDC処理やSCDタイプ1/2のシナリオで出題されやすく、WHEN MATCHED / WHEN NOT MATCHEDの分岐条件を正確に書けるかが問われます。また、higher-order functions(TRANSFORM・FILTER・EXISTS)やJSON/配列のネスト構造をSpark SQLで処理する問題も増えています。Python UDFとSQL UDFの使い分け(パフォーマンスへの影響)も押さえておきましょう。
Data Engineer AssociateとProfessionalの出題範囲はどう違いますか?
Associateは「各機能を正しく理解しているか」を問う知識ベースの試験です。一方Professionalは「本番環境で発生する複雑なシナリオに対して最適な設計判断ができるか」を問います。具体的には、Associateでは「Auto Loaderの基本的な動作」が出ますが、Professionalでは「Auto LoaderのSchema Evolution設定とrescuedDataColumnの使い分け」のような実践的判断が求められます。Associateに合格してからProfessionalに進むのが一般的なパスで、間にML Associateを挟む人も多いです。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Databricks資格一覧|全7試験・難易度・勉強法
Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...
Databricks試験の難易度ランキング|全7資格を徹底比較
Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...
Databricks資格の勉強方法|最短合格ルートと学習時間の目安
Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...
Databricks Data Engineer Professional完全解説|上級試験の攻略法
Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...
Databricks ML Associate完全解説|MLflow・AutoML対策
Databricks Certified Machine Learning Associate試験を徹底解説。4つの出題...