Databricks ML試験(Associate / Professional)は、 MLflow・AutoML・Feature Store・分散学習・Model Servingなど 機械学習のライフサイクル全体をカバーする試験です。 この記事では出題ドメインごとの配点表と代表的な出題パターンを整理し、 ドメイン別の練習問題3問を詳細な解説付きで掲載しています。
MLAは45問・120分の試験で、Databricks上でのML実装スキルを問います。2026年改定でUnity Catalog統合のModel Registryとエイリアスの出題比率が上昇しました。
| ドメイン | 配点比率 | 主なトピック |
|---|---|---|
| MLflow | 約30% | Experiment Tracking・autolog・Model Registry・エイリアス・Signature |
| EDA & 特徴量エンジニアリング | 約20% | pandas/Spark DataFrame・欠損値処理・カテゴリ変数・Feature Store |
| モデル学習 & 評価 | 約20% | scikit-learn・分類/回帰の評価指標・過学習対策・AutoML |
| モデルデプロイ | 約15% | バッチ推論・Model Serving REST API・A/Bテスト概念 |
| 分散学習 & スケーリング | 約15% | Pandas API on Spark・HyperoptのSparkTrials・pandas UDF |
MLPは60問・120分の上位試験で、本番MLシステムの設計・運用力が問われます。シナリオ形式の長文問題が中心で、複数ドメインの知識を横断した設計判断を求められます。
| ドメイン | 配点比率 | 主なトピック |
|---|---|---|
| MLOps & モデルライフサイクル | 約30% | CI/CD for ML・エイリアスによるモデル昇格・Webhookトリガー |
| 分散学習 & 大規模データ | 約20% | TorchDistributor・Horovod・DeepSpeed・データ並列/モデル並列 |
| Feature Engineering & モニタリング | 約20% | Feature Store Point-in-Time Lookup・Lakehouse Monitoring・ドリフト検出 |
| Model Serving & 推論最適化 | 約15% | Serverless Serving・GPU Serving・バッチ推論 vs リアルタイム推論 |
| 実験管理 & 再現性 | 約15% | MLflow Projects・環境再現(Conda/Docker)・ハイパーパラメータ管理 |
mlflow.autolog()は対応ライブラリ(scikit-learn・XGBoost・LightGBM・PyTorch等)の パラメータ・メトリクス・モデルを自動記録します。試験では 「autolog()で記録されないもの」を問うパターンが頻出です。 カスタムビジネスメトリクス(例:利益率やコスト加重スコア)は mlflow.log_metric()で手動記録する必要がある点が狙われます。
Databricks AutoMLは各試行のコードを完全なノートブックとして生成する 「ガラスボックス」方式が最大の特徴です。試験では 「AutoMLが自動で行うこと」と「行わないこと」の境界が問われます。 アルゴリズム選定・前処理・ハイパーパラメータ探索は自動、 外部データの取得・カスタム損失関数の定義・本番デプロイは手動です。
Feature Engineering in Unity Catalogのcreate_training_set()では lookup_keyでトレーニングデータと特徴量テーブルのジョインキーを指定します。 MLPではPoint-in-Time Lookup(timestamp_lookup_key)の出題が増えており、 トレーニング時点での正確な特徴量値を取得するユースケースが問われます。
HyperoptのSparkTrialsを使うとハイパーパラメータ探索をSparkワーカーで並列化できます。 MLAではSparkTrialsの基本的な使い方、MLPではTorchDistributorを使った PyTorchの分散学習(データ並列)の設定と、GPU数に応じたバッチサイズ調整が出題されます。
Databricks Model Servingには、CPU Serverless・GPU Serving・ External Models(OpenAI等の外部LLMのプロキシ)の3種類があります。 低レイテンシのリアルタイム推論にはServerless Serving、 大規模バッチ処理にはscore_batch()によるバッチ推論という使い分けが頻出です。
MLflow・Feature Store・分散学習から各1問を掲載しています。解答後に解説を確認し、関連知識も合わせて復習しましょう。
MLflow
問題 1
MLflow Model Registry in Unity Catalogで、本番モデルを新バージョンに切り替える推奨手順はどれですか?
正解: B
Unity Catalog統合のModel Registryでは、従来のStagingやProductionといったステージではなく、エイリアス(Aliases)を使ってモデルバージョンを管理します。推奨フローは、新バージョンにchallengerエイリアスを設定 → A/Bテストまたはシャドーテストで品質を検証 → 問題なければchampionエイリアスを新バージョンに付け替える、という手順です。エイリアスの付け替えは即座に反映され、models:/model_name@championのようにエイリアス指定でモデルを参照しているServingエンドポイントは自動的に新バージョンを使用します。Aの方法はWorkspace Model Registryの旧方式であり、Unity Catalog統合版では推奨されません。
Feature Store
問題 2
Feature Engineering in Unity Catalogでtimestamp_lookup_keyを指定してcreate_training_set()を呼び出す理由はどれですか?
正解: B
timestamp_lookup_keyはPoint-in-Time Lookupを実現するパラメータです。時系列データの機械学習では、「ある時点の予測に、その時点より未来の特徴量を使ってはいけない」というデータリーケージの制約があります。timestamp_lookup_keyにイベント発生時刻のカラムを指定すると、各トレーニング行のタイムスタンプ時点で利用可能だった最新の特徴量値のみがジョインされ、未来の情報の混入を防止します。例えばユーザーの購買予測で、予測対象日より前に計算されたユーザー特徴量のみを使用するケースです。これはMLPで特に頻出のトピックです。
分散学習
問題 3
HyperoptでSparkTrialsを使用した場合と、Trials(シングルノード)を使用した場合の最も重要な違いはどれですか?
正解: B
SparkTrialsはHyperoptの並列化バックエンドで、各ハイパーパラメータの試行(trial)をSparkワーカーノードに分散して並列実行します。例えばmax_evals=100のTPE探索をSparkTrials(parallelism=10)で実行すると、最大10並列で試行が実行され、シングルノードの約1/10の時間で完了します。一方Trialsはドライバノードで逐次実行するため、100試行すべてが直列に実行されます。探索アルゴリズム(TPE・ランダム等)はどちらでも指定可能なためAは誤り、GPU/CPU制約もなくCも誤りです。Databricks上ではmlflow.autolog()と組み合わせると、SparkTrials/Trials両方の結果がMLflowに自動記録されます。
MLflowはMLAの約30%、MLPでもMLOpsドメインの基盤として全体の30%以上に関わる最重要トピックです。 Community Editionでmlflow.start_run()・log_param()・log_metric()・log_model()を実行し、 MLflow UIでの結果確認、autolog()の動作、Model Registryへの登録とエイリアス設定まで一通り体験しましょう。
分類タスクのAccuracy・Precision・Recall・F1・AUC-ROCと、 回帰タスクのRMSE・MAE・R²の使い分けは確実に覚えましょう。 特に不均衡データでAccuracyが不適切な理由(多数クラスを全て予測すれば高Accuracy)と、 Precision-Recallのトレードオフ(閾値の調整でどちらかが向上すると他方が低下)は頻出です。
データ準備 → 特徴量エンジニアリング → モデル学習 → 評価 → デプロイ → モニタリング の各フェーズでDatabricksのどの機能を使うかをマッピングできるようにしましょう。 Feature Store → AutoML/MLflow → Model Registry → Model Serving → Lakehouse Monitoring という流れを理解することで、MLPのシナリオ問題で適切な設計判断ができます。
MLAとMLPの出題ドメインは重複していますか?
MLA(ML Associate)とMLP(ML Professional)は出題ドメインが一部重複しますが、問われる深さが異なります。MLAはMLflowの基本操作・AutoMLの活用・Feature Storeの概念・基本的な評価指標など「Databricksで機械学習を実行できるか」を問う試験です。MLPはMLOpsの設計判断・分散学習の最適化・モデルサービングのスケーリング・A/Bテスト設計など「本番環境でMLシステムを設計・運用できるか」を問うため、MLAの知識を前提としつつ実務的なシナリオ問題が中心になります。
MLflow Model Registry in Unity CatalogとWorkspace Model Registryの違いは何ですか?
Workspace Model Registryはワークスペース単位のモデル管理で、Staging→Production→Archivedのステージ遷移でライフサイクルを管理します。Unity Catalog統合のModel Registryはアカウント全体でモデルを共有でき、ステージの代わりにエイリアス(champion/challengerなど任意の名前)でバージョンを参照します。2026年現在、DatabricksはUnity Catalog統合のModel Registryを推奨しており、試験でもエイリアスベースの管理が出題の中心です。
ML試験の学習でCommunity Editionはどこまで使えますか?
Community Editionではシングルノードクラスタが無料で使えるため、MLflow Tracking(実験記録・autolog)・scikit-learn/XGBoostのモデル学習・Feature Storeの基本操作・AutoMLの実行を実際に試せます。ただしModel Serving(エンドポイント作成)・分散学習(マルチノード)・Serverlessコンピュートは利用できないため、これらのトピックは公式ドキュメントと問題演習で補完する必要があります。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Databricks資格一覧|全7試験・難易度・勉強法
Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...
Databricks試験の難易度ランキング|全7資格を徹底比較
Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...
Databricks資格の勉強方法|最短合格ルートと学習時間の目安
Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...
Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略
Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...
Databricks Data Engineer Professional完全解説|上級試験の攻略法
Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...