Databricks Machine Learning Professional(MLP)は、全7試験の中で最も難易度が高い認定資格です。 本番環境でのMLパイプライン設計・分散学習の実装・モデルモニタリング戦略まで問われ、 長文シナリオ形式の出題が中心です。この記事では、3つの出題ドメインの詳細な攻略法と、 ML Associate合格後の効率的な学習ロードマップを解説します。
| 項目 | 内容 |
|---|---|
| 試験名 | Databricks Certified Machine Learning Professional |
| 問題数 | 60問 |
| 試験時間 | 120分(1問あたり平均2分) |
| 合格ライン | 70%(42問以上正解) |
| 受験料 | $200(税別) |
| 言語 | 英語のみ |
| 前提条件 | なし(ML Associate合格を強く推奨) |
| 有効期間 | 2年間 |
| 問題形式 | 単一選択・複数選択(長文シナリオ中心) |
120分で60問を解く必要があるため、1問あたりの平均時間は2分です。 ただし、シナリオ問題は問題文の読み取りだけで1分以上かかるケースがあるため、 知識問題は30秒〜1分で処理し、シナリオ問題に3分程度を確保する時間配分が有効です。
| ドメイン | 配点 | 主要トピック |
|---|---|---|
| ML Solution Design | 33% | アーキテクチャ設計、要件分析、ツール選定 |
| ML Model Implementation | 33% | 分散学習、Feature Serving、ハイパーパラメータ最適化 |
| ML Pipeline and Production | 34% | CI/CD for ML、Model Monitoring、A/Bテスト |
3ドメインの配点はほぼ均等ですが、ML Pipeline and Productionが1%高く、 実務的な判断力を最も重視する試験設計になっています。 どのドメインも20問前後が出題されるため、苦手ドメインを作らないことが合格の鍵です。
ビジネス要件からMLソリューションのアーキテクチャを設計する能力を測定します。 「どのツール・手法を選ぶか」ではなく、「なぜその選択が最適か」を問う問題が中心です。
モデルの実装・トレーニング・最適化に関する深い技術知識を問います。 単一ノードの機械学習ではなく、分散環境での実装パターンが中心です。
HorovodRunner(np=4)でワーカー数を指定し、AllReduceアルゴリズムで勾配を同期する。TensorFlow・PyTorchの両方で使用可能FeatureFunctionを使ったリアルタイム特徴量計算(推論時に動的に計算)SparkTrialsで複数ノードに並列分散してベイズ最適化を実行する方法max_evalsとloss_thresholdの設定配点が最も高く、本番環境でのMLシステム運用全般を問います。 コードを書く問題よりも、設計判断・運用戦略に関するシナリオ問題が多いのが特徴です。
| 期間 | 学習内容 | 推奨リソース |
|---|---|---|
| 月1〜2 | 分散学習(Horovod, DeepSpeed, TorchDistributor)の実装演習 | Databricks公式ドキュメント・Academy無料コース |
| 月2〜3 | Feature Store設計・Model Serving・A/Bテスト構築 | 公式ハンズオンラボ・Community Editionでの実装 |
| 月3〜4 | CI/CD for ML・Lakehouse Monitoring・パイプライン自動化 | DAB公式ドキュメント・GitHub上のテンプレート |
| 月5〜6 | 模擬試験の反復・弱点ドメインの補強・シナリオ問題演習 | 公式Practice Exam・NicheeLab問題集 |
ML Professionalでは、60問中40問以上が長文シナリオ形式です。 3〜5行の状況説明と制約条件が提示され、最適な設計判断を選ぶ形式です。
Databricks
問題 1
本番環境のMLモデルで、月次モニタリングにより予測精度が前月比15%低下していることが判明しました。入力特徴量の分布変化が確認されています。MLエンジニアが最初に実行すべきアクションはどれですか?
正解: B
精度低下の原因がデータドリフトであることが示唆されているため、まずPSI(Population Stability Index)を計算して具体的にどの特徴量がドリフトしているかを特定する必要があります。PSI > 0.25の特徴量を特定することで、再トレーニング時のFeature Engineering方針やデータ収集戦略を適切に決定できます。選択肢Aの即座の再トレーニングは、ドリフトの根本原因を特定せずに実行しても効果が限定的です。選択肢Cのコンピュートリソース増加は精度低下の解決策にはなりません。選択肢Dのロールバックは一時的な応急措置としては有効ですが、前バージョンのモデルも同じドリフトの影響を受ける可能性があり、最初に取るべきアクションとしては原因分析が優先されます。
ML AssociateとML Professionalの難易度差はどの程度ですか?
ML Associateはscikit-learn・MLflowの基本操作が中心で、単一ノードでのモデル訓練の知識で対応できます。ML Professionalは本番MLパイプラインの設計・分散学習(Horovod/DeepSpeed)・モデル監視・A/Bテスト設計まで問われ、長文シナリオ問題(3〜5行の状況説明+制約条件)が大半を占めます。Associate合格者でもProfessionalでは正答率が40%程度に落ちるという報告が多く、追加で4〜6ヶ月の学習が必要です。
ML Professionalの合格に必要な学習期間と準備方法は?
ML Associate合格者で本番ML運用の経験がある場合、4〜6ヶ月が目安です。学習の優先順位は、(1) ML Pipeline and Production(配点34%)のCI/CD for ML・モデルモニタリング、(2) ML Model Implementation(33%)の分散学習・Feature Serving、(3) ML Solution Design(33%)のアーキテクチャ設計問題の順です。公式Exam Guideの各ドメインを2週間ずつ集中して学び、残り期間で模擬試験を繰り返す方法が効率的です。
ML Professionalで最も落とされやすいドメインはどれですか?
受験者の多くが「ML Pipeline and Production」(配点34%)を最難関と報告しています。CI/CD for ML・Model Monitoring・A/Bテスト設計はML知識だけでなくDevOps・統計的検定(PSI, KS検定)の理解も求められます。特にモデルドリフト検出の手法選択(PSI vs KS検定 vs Chi-Square検定)と、ドリフト検出後の対処フロー(再トレーニング vs ロールバック vs Feature Engineering見直し)の判断問題で正答率が低い傾向にあります。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Databricks資格一覧|全7試験・難易度・勉強法
Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...
Databricks試験の難易度ランキング|全7資格を徹底比較
Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...
Databricks資格の勉強方法|最短合格ルートと学習時間の目安
Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...
Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略
Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...
Databricks Data Engineer Professional完全解説|上級試験の攻略法
Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...