Databricks

Databricks ML Professional完全解説|最難関試験の攻略法

2026-03-21
更新: 2026-03-27
NicheeLab編集部

Databricks Machine Learning Professional(MLP)は、全7試験の中で最も難易度が高い認定資格です。 本番環境でのMLパイプライン設計・分散学習の実装・モデルモニタリング戦略まで問われ、 長文シナリオ形式の出題が中心です。この記事では、3つの出題ドメインの詳細な攻略法と、 ML Associate合格後の効率的な学習ロードマップを解説します。

試験概要

項目内容
試験名Databricks Certified Machine Learning Professional
問題数60問
試験時間120分(1問あたり平均2分)
合格ライン70%(42問以上正解)
受験料$200(税別)
言語英語のみ
前提条件なし(ML Associate合格を強く推奨)
有効期間2年間
問題形式単一選択・複数選択(長文シナリオ中心)

120分で60問を解く必要があるため、1問あたりの平均時間は2分です。 ただし、シナリオ問題は問題文の読み取りだけで1分以上かかるケースがあるため、 知識問題は30秒〜1分で処理し、シナリオ問題に3分程度を確保する時間配分が有効です。

3つの出題ドメインと配点

ドメイン配点主要トピック
ML Solution Design33%アーキテクチャ設計、要件分析、ツール選定
ML Model Implementation33%分散学習、Feature Serving、ハイパーパラメータ最適化
ML Pipeline and Production34%CI/CD for ML、Model Monitoring、A/Bテスト

3ドメインの配点はほぼ均等ですが、ML Pipeline and Productionが1%高く、 実務的な判断力を最も重視する試験設計になっています。 どのドメインも20問前後が出題されるため、苦手ドメインを作らないことが合格の鍵です。

ドメイン1: ML Solution Design(33%)

ビジネス要件からMLソリューションのアーキテクチャを設計する能力を測定します。 「どのツール・手法を選ぶか」ではなく、「なぜその選択が最適か」を問う問題が中心です。

出題される高難易度トピック

  • バッチ推論 vs リアルタイム推論の選択基準:レイテンシ要件・スループット・コスト・データ鮮度の4軸で判断する。リアルタイム推論が必要なケース(不正検知、レコメンデーション)とバッチ推論で十分なケース(日次レポート、マーケティングスコアリング)の区別
  • Feature Storeのオンライン/オフライン設計:オフラインFeature Store(バッチ学習用)とオンラインFeature Store(リアルタイム推論用)の同期戦略、Point-in-time correctnessの確保方法
  • MLアーキテクチャパターン:Lambda Architecture(バッチ+ストリーム)とKappa Architecture(ストリームのみ)の使い分け、Feature Pipeline / Training Pipeline / Inference Pipelineの分離設計

ドメイン2: ML Model Implementation(33%)

モデルの実装・トレーニング・最適化に関する深い技術知識を問います。 単一ノードの機械学習ではなく、分散環境での実装パターンが中心です。

分散学習の出題ポイント

  • Horovod:データ並列分散学習フレームワーク。HorovodRunner(np=4)でワーカー数を指定し、AllReduceアルゴリズムで勾配を同期する。TensorFlow・PyTorchの両方で使用可能
  • DeepSpeed:ZeROオプティマイザーによるメモリ効率化が特徴。Stage 1(オプティマイザ状態分割)→ Stage 2(勾配分割)→ Stage 3(パラメータ分割)の3段階でメモリ消費量を削減する
  • torch.distributed:PyTorchのネイティブ分散学習API。TorchDistributorを使ってDatabricksクラスタ上で実行する

Feature Servingの出題ポイント

  • Unity Catalog配下のFeature TableからModel Servingエンドポイントへの自動ルックアップ
  • FeatureFunctionを使ったリアルタイム特徴量計算(推論時に動的に計算)
  • オンラインテーブルとオフラインテーブルの同期タイミング設定(Triggered / Continuous)

ハイパーパラメータ最適化

  • HyperoptのSparkTrialsで複数ノードに並列分散してベイズ最適化を実行する方法
  • Optuna vs Hyperoptの使い分け(Optunaはpruning機能が充実、HyperoptはSpark連携が容易)
  • 早期打ち切り(Early Stopping)の実装:max_evalsloss_thresholdの設定

ドメイン3: ML Pipeline and Production(34%)

配点が最も高く、本番環境でのMLシステム運用全般を問います。 コードを書く問題よりも、設計判断・運用戦略に関するシナリオ問題が多いのが特徴です。

Model Monitoring

  • データドリフト検出:PSI(Population Stability Index)で入力特徴量の分布変化を定量化する。PSI < 0.1は安定、0.1〜0.25は要注意、> 0.25は大幅ドリフトと判定する
  • コンセプトドリフト:入力データの分布は変わらないが、入力と正解ラベルの関係性が変化する現象。予測精度の低下で検出し、ラベルデータの再取得と再トレーニングで対処する
  • Lakehouse Monitoringとの連携:推論テーブルに予測結果を記録し、Lakehouse Monitoringで統計ドリフトを自動検出。アラートをWorkflowsのジョブトリガーに接続して再トレーニングを自動化する

A/Bテスト設計

  • Model Servingのトラフィックルーティングで、Champion(現行モデル)に90%、Challenger(新モデル)に10%のトラフィックを割り当てる設定方法
  • 統計的有意性の判定:サンプルサイズの見積もり、p値の閾値設定、Multi-armed Banditアプローチとの比較
  • ビジネスメトリクス(CTR, 収益)とMLメトリクス(AUC, RMSE)の乖離への対処

CI/CD for ML

  • Databricks Asset Bundle(DAB)を使った環境間デプロイ:dev → staging → prodの3環境構成、YAML設定での環境変数切り替え
  • モデル再トレーニングパイプラインの自動化:Workflowsでのスケジュール実行、データ品質チェックゲート、モデル評価ゲートの設計
  • Model Registryでのエイリアス管理:Champion/Challengerエイリアスの切り替え、ロールバック手順、承認フローの設計

MLA合格後の学習ロードマップ(4〜6ヶ月)

期間学習内容推奨リソース
月1〜2分散学習(Horovod, DeepSpeed, TorchDistributor)の実装演習Databricks公式ドキュメント・Academy無料コース
月2〜3Feature Store設計・Model Serving・A/Bテスト構築公式ハンズオンラボ・Community Editionでの実装
月3〜4CI/CD for ML・Lakehouse Monitoring・パイプライン自動化DAB公式ドキュメント・GitHub上のテンプレート
月5〜6模擬試験の反復・弱点ドメインの補強・シナリオ問題演習公式Practice Exam・NicheeLab問題集

長文シナリオ問題の攻略法

ML Professionalでは、60問中40問以上が長文シナリオ形式です。 3〜5行の状況説明と制約条件が提示され、最適な設計判断を選ぶ形式です。

解答テクニック

  • 制約条件を先に読む:問題文の最後に「コストを最小化したい」「レイテンシ100ms以下」等の制約が書かれることが多い。制約を先に把握してから状況説明を読むと効率的
  • 消去法を活用する:4択中2つは明らかに不適切な選択肢(コスト無視・技術的に不可能等)。残り2つから制約条件に基づいて判断する
  • 「最も適切」を選ぶ:複数の選択肢が技術的に正しいケースがある。その場合は制約条件(コスト・レイテンシ・運用負荷・スケーラビリティ)への適合度で判断する

問題で確認

Databricks

問題 1

本番環境のMLモデルで、月次モニタリングにより予測精度が前月比15%低下していることが判明しました。入力特徴量の分布変化が確認されています。MLエンジニアが最初に実行すべきアクションはどれですか?

  1. すべての過去データを使ってモデルを即座に再トレーニングする
  2. PSI(Population Stability Index)を計算し、ドリフトが発生している具体的な特徴量を特定する
  3. Model Servingエンドポイントのコンピュートリソースを2倍に増加させる
  4. 前バージョンのモデルにChampionエイリアスを切り替えてロールバックする

正解: B

精度低下の原因がデータドリフトであることが示唆されているため、まずPSI(Population Stability Index)を計算して具体的にどの特徴量がドリフトしているかを特定する必要があります。PSI > 0.25の特徴量を特定することで、再トレーニング時のFeature Engineering方針やデータ収集戦略を適切に決定できます。選択肢Aの即座の再トレーニングは、ドリフトの根本原因を特定せずに実行しても効果が限定的です。選択肢Cのコンピュートリソース増加は精度低下の解決策にはなりません。選択肢Dのロールバックは一時的な応急措置としては有効ですが、前バージョンのモデルも同じドリフトの影響を受ける可能性があり、最初に取るべきアクションとしては原因分析が優先されます。

よくある質問

ML AssociateとML Professionalの難易度差はどの程度ですか?

ML Associateはscikit-learn・MLflowの基本操作が中心で、単一ノードでのモデル訓練の知識で対応できます。ML Professionalは本番MLパイプラインの設計・分散学習(Horovod/DeepSpeed)・モデル監視・A/Bテスト設計まで問われ、長文シナリオ問題(3〜5行の状況説明+制約条件)が大半を占めます。Associate合格者でもProfessionalでは正答率が40%程度に落ちるという報告が多く、追加で4〜6ヶ月の学習が必要です。

ML Professionalの合格に必要な学習期間と準備方法は?

ML Associate合格者で本番ML運用の経験がある場合、4〜6ヶ月が目安です。学習の優先順位は、(1) ML Pipeline and Production(配点34%)のCI/CD for ML・モデルモニタリング、(2) ML Model Implementation(33%)の分散学習・Feature Serving、(3) ML Solution Design(33%)のアーキテクチャ設計問題の順です。公式Exam Guideの各ドメインを2週間ずつ集中して学び、残り期間で模擬試験を繰り返す方法が効率的です。

ML Professionalで最も落とされやすいドメインはどれですか?

受験者の多くが「ML Pipeline and Production」(配点34%)を最難関と報告しています。CI/CD for ML・Model Monitoring・A/Bテスト設計はML知識だけでなくDevOps・統計的検定(PSI, KS検定)の理解も求められます。特にモデルドリフト検出の手法選択(PSI vs KS検定 vs Chi-Square検定)と、ドリフト検出後の対処フロー(再トレーニング vs ロールバック vs Feature Engineering見直し)の判断問題で正答率が低い傾向にあります。

Databricks資格の関連記事

Machine Learning Associate 完全解説

MLP の前段認定。MLflow / Feature Store

Generative AI Engineer Associate 完全解説

生成 AI / RAG / Vector Search の新試験

Databricks 試験の難易度ランキング

MLP は最難関と位置付け

Databricks 資格一覧

全 7 試験の出題範囲と合格ライン

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

無料で問題を解いてみる
この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。


関連記事
Databricks

Databricks資格一覧|全7試験・難易度・勉強法

Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...

Databricks

Databricks試験の難易度ランキング|全7資格を徹底比較

Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...

Databricks

Databricks資格の勉強方法|最短合格ルートと学習時間の目安

Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...

Databricks

Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略

Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...

Databricks

Databricks Data Engineer Professional完全解説|上級試験の攻略法

Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...

Databricksの記事一覧 (109件)
© 2026 NicheeLab All rights reserved.