Databricks

Databricks ML問題集｜MLflow・AutoML・Feature Storeの練習問題

2026-03-21

更新: 2026-03-27

NicheeLab編集部

Databricks ML試験（Associate / Professional）は、 MLflow・AutoML・Feature Store・分散学習・Model Servingなど機械学習のライフサイクル全体をカバーする試験です。この記事では出題ドメインごとの配点表と代表的な出題パターンを整理し、ドメイン別の練習問題3問を詳細な解説付きで掲載しています。

MLA（ML Associate）出題ドメインと配点

MLAは45問・120分の試験で、Databricks上でのML実装スキルを問います。2026年改定でUnity Catalog統合のModel Registryとエイリアスの出題比率が上昇しました。

ドメイン	配点比率	主なトピック
MLflow	約30%	Experiment Tracking・autolog・Model Registry・エイリアス・Signature
EDA & 特徴量エンジニアリング	約20%	pandas/Spark DataFrame・欠損値処理・カテゴリ変数・Feature Store
モデル学習 & 評価	約20%	scikit-learn・分類/回帰の評価指標・過学習対策・AutoML
モデルデプロイ	約15%	バッチ推論・Model Serving REST API・A/Bテスト概念
分散学習 & スケーリング	約15%	Pandas API on Spark・HyperoptのSparkTrials・pandas UDF

MLP（ML Professional）出題ドメインと配点

MLPは60問・120分の上位試験で、本番MLシステムの設計・運用力が問われます。シナリオ形式の長文問題が中心で、複数ドメインの知識を横断した設計判断を求められます。

ドメイン	配点比率	主なトピック
MLOps & モデルライフサイクル	約30%	CI/CD for ML・エイリアスによるモデル昇格・Webhookトリガー
分散学習 & 大規模データ	約20%	TorchDistributor・Horovod・DeepSpeed・データ並列/モデル並列
Feature Engineering & モニタリング	約20%	Feature Store Point-in-Time Lookup・Lakehouse Monitoring・ドリフト検出
Model Serving & 推論最適化	約15%	Serverless Serving・GPU Serving・バッチ推論 vs リアルタイム推論
実験管理 & 再現性	約15%	MLflow Projects・環境再現（Conda/Docker）・ハイパーパラメータ管理

ドメイン別の代表出題パターン

MLflow Tracking — autologとカスタムログの使い分け

mlflow.autolog()は対応ライブラリ（scikit-learn・XGBoost・LightGBM・PyTorch等）のパラメータ・メトリクス・モデルを自動記録します。試験では「autolog()で記録されないもの」を問うパターンが頻出です。カスタムビジネスメトリクス（例：利益率やコスト加重スコア）は mlflow.log_metric()で手動記録する必要がある点が狙われます。

AutoML API — ガラスボックスアプローチの特徴

Databricks AutoMLは各試行のコードを完全なノートブックとして生成する「ガラスボックス」方式が最大の特徴です。試験では「AutoMLが自動で行うこと」と「行わないこと」の境界が問われます。アルゴリズム選定・前処理・ハイパーパラメータ探索は自動、外部データの取得・カスタム損失関数の定義・本番デプロイは手動です。

Feature Store — lookup_keyとPoint-in-Time Lookup

Feature Engineering in Unity Catalogのcreate_training_set()では lookup_keyでトレーニングデータと特徴量テーブルのジョインキーを指定します。 MLPではPoint-in-Time Lookup（timestamp_lookup_key）の出題が増えており、トレーニング時点での正確な特徴量値を取得するユースケースが問われます。

分散学習 — SparkTrialsとTorchDistributor

HyperoptのSparkTrialsを使うとハイパーパラメータ探索をSparkワーカーで並列化できます。 MLAではSparkTrialsの基本的な使い方、MLPではTorchDistributorを使った PyTorchの分散学習（データ並列）の設定と、GPU数に応じたバッチサイズ調整が出題されます。

Model Serving — エンドポイントの種類と選定

Databricks Model Servingには、CPU Serverless・GPU Serving・ External Models（OpenAI等の外部LLMのプロキシ）の3種類があります。低レイテンシのリアルタイム推論にはServerless Serving、大規模バッチ処理にはscore_batch()によるバッチ推論という使い分けが頻出です。

ドメイン別練習問題（3問）

MLflow・Feature Store・分散学習から各1問を掲載しています。解答後に解説を確認し、関連知識も合わせて復習しましょう。

MLflow

問題 1

MLflow Model Registry in Unity Catalogで、本番モデルを新バージョンに切り替える推奨手順はどれですか？

新バージョンにStagingステージを設定し、テスト後にProductionに遷移させる
新バージョンにchallengerエイリアスを設定してA/Bテストを行い、問題なければchampionエイリアスを新バージョンに付け替える
本番エンドポイントを停止し、新バージョンのモデルファイルを手動で上書きする
新バージョンのモデルを別の名前で登録し、クライアント側のURL設定を変更する

正解: B

Unity Catalog統合のModel Registryでは、従来のStagingやProductionといったステージではなく、エイリアス（Aliases）を使ってモデルバージョンを管理します。推奨フローは、新バージョンにchallengerエイリアスを設定 → A/Bテストまたはシャドーテストで品質を検証 → 問題なければchampionエイリアスを新バージョンに付け替える、という手順です。エイリアスの付け替えは即座に反映され、models:/model_name@championのようにエイリアス指定でモデルを参照しているServingエンドポイントは自動的に新バージョンを使用します。Aの方法はWorkspace Model Registryの旧方式であり、Unity Catalog統合版では推奨されません。

Feature Store

問題 2

Feature Engineering in Unity Catalogでtimestamp_lookup_keyを指定してcreate_training_set()を呼び出す理由はどれですか？

特徴量テーブルのタイムスタンプカラムをトレーニングデータのラベルとして使用するため
トレーニング時点でのイベント発生時刻以前の最新特徴量値を正確に取得し、データリーケージを防止するため
特徴量テーブルの古いバージョンを自動的に削除してストレージを節約するため
トレーニングデータを時系列順にソートしてモデルの学習効率を向上させるため

正解: B

timestamp_lookup_keyはPoint-in-Time Lookupを実現するパラメータです。時系列データの機械学習では、「ある時点の予測に、その時点より未来の特徴量を使ってはいけない」というデータリーケージの制約があります。timestamp_lookup_keyにイベント発生時刻のカラムを指定すると、各トレーニング行のタイムスタンプ時点で利用可能だった最新の特徴量値のみがジョインされ、未来の情報の混入を防止します。例えばユーザーの購買予測で、予測対象日より前に計算されたユーザー特徴量のみを使用するケースです。これはMLPで特に頻出のトピックです。

分散学習

問題 3

HyperoptでSparkTrialsを使用した場合と、Trials（シングルノード）を使用した場合の最も重要な違いはどれですか？

SparkTrialsはBayesian最適化を使用し、Trialsはランダムサーチのみを使用する
SparkTrialsはハイパーパラメータの各試行をSparkワーカーで並列実行し、Trialsはドライバノードで逐次実行する
SparkTrialsはGPUクラスタ専用で、TrialsはCPUクラスタ専用である
SparkTrialsはMLflowに結果を記録するが、Trialsは記録しない

正解: B

SparkTrialsはHyperoptの並列化バックエンドで、各ハイパーパラメータの試行（trial）をSparkワーカーノードに分散して並列実行します。例えばmax_evals=100のTPE探索をSparkTrials(parallelism=10)で実行すると、最大10並列で試行が実行され、シングルノードの約1/10の時間で完了します。一方Trialsはドライバノードで逐次実行するため、100試行すべてが直列に実行されます。探索アルゴリズム（TPE・ランダム等）はどちらでも指定可能なためAは誤り、GPU/CPU制約もなくCも誤りです。Databricks上ではmlflow.autolog()と組み合わせると、SparkTrials/Trials両方の結果がMLflowに自動記録されます。

ML試験のドメイン別学習戦略

MLflowを最優先で習得する

MLflowはMLAの約30%、MLPでもMLOpsドメインの基盤として全体の30%以上に関わる最重要トピックです。 Community Editionでmlflow.start_run()・log_param()・log_metric()・log_model()を実行し、 MLflow UIでの結果確認、autolog()の動作、Model Registryへの登録とエイリアス設定まで一通り体験しましょう。

評価指標の使い分けを整理する

分類タスクのAccuracy・Precision・Recall・F1・AUC-ROCと、回帰タスクのRMSE・MAE・R²の使い分けは確実に覚えましょう。特に不均衡データでAccuracyが不適切な理由（多数クラスを全て予測すれば高Accuracy）と、 Precision-Recallのトレードオフ（閾値の調整でどちらかが向上すると他方が低下）は頻出です。

MLOpsライフサイクル全体を俯瞰する

データ準備 → 特徴量エンジニアリング → モデル学習 → 評価 → デプロイ → モニタリングの各フェーズでDatabricksのどの機能を使うかをマッピングできるようにしましょう。 Feature Store → AutoML/MLflow → Model Registry → Model Serving → Lakehouse Monitoring という流れを理解することで、MLPのシナリオ問題で適切な設計判断ができます。

よくある質問（FAQ）

MLAとMLPの出題ドメインは重複していますか？

MLA（ML Associate）とMLP（ML Professional）は出題ドメインが一部重複しますが、問われる深さが異なります。MLAはMLflowの基本操作・AutoMLの活用・Feature Storeの概念・基本的な評価指標など「Databricksで機械学習を実行できるか」を問う試験です。MLPはMLOpsの設計判断・分散学習の最適化・モデルサービングのスケーリング・A/Bテスト設計など「本番環境でMLシステムを設計・運用できるか」を問うため、MLAの知識を前提としつつ実務的なシナリオ問題が中心になります。

MLflow Model Registry in Unity CatalogとWorkspace Model Registryの違いは何ですか？

Workspace Model Registryはワークスペース単位のモデル管理で、Staging→Production→Archivedのステージ遷移でライフサイクルを管理します。Unity Catalog統合のModel Registryはアカウント全体でモデルを共有でき、ステージの代わりにエイリアス（champion/challengerなど任意の名前）でバージョンを参照します。2026年現在、DatabricksはUnity Catalog統合のModel Registryを推奨しており、試験でもエイリアスベースの管理が出題の中心です。

ML試験の学習でCommunity Editionはどこまで使えますか？

Community Editionではシングルノードクラスタが無料で使えるため、MLflow Tracking（実験記録・autolog）・scikit-learn/XGBoostのモデル学習・Feature Storeの基本操作・AutoMLの実行を実際に試せます。ただしModel Serving（エンドポイント作成）・分散学習（マルチノード）・Serverlessコンピュートは利用できないため、これらのトピックは公式ドキュメントと問題演習で補完する必要があります。

ML問題集で実力チェック

MLA 550問・MLP 400問以上の日本語練習問題で合格力を鍛えよう

無料で問題を解く →

Databricks ML の関連記事

ML Associate 完全ガイド

MLAの出題範囲・難易度・対策を徹底解説

ML Professional 完全ガイド

MLPの出題範囲・難易度・対策を徹底解説

MLflow完全ガイド

Experiment Tracking・Model Registryを網羅解説

Databricks無料問題集

6,800問以上の日本語練習問題

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

無料で問題を解いてみる

この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。

Databricks

Databricks資格一覧｜全7試験・難易度・勉強法

Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...

Databricks

Databricks試験の難易度ランキング｜全7資格を徹底比較

Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...

Databricks

Databricks資格の勉強方法｜最短合格ルートと学習時間の目安

Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...

Databricks

Databricks Data Engineer Associate完全解説｜出題範囲・問題例・合格戦略

Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...

Databricks

Databricks Data Engineer Professional完全解説｜上級試験の攻略法

Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...

Databricks ML問題集｜MLflow・AutoML・Feature Storeの練習問題

MLA（ML Associate）出題ドメインと配点

MLP（ML Professional）出題ドメインと配点

ドメイン別の代表出題パターン

MLflow Tracking — autologとカスタムログの使い分け

AutoML API — ガラスボックスアプローチの特徴

Feature Store — lookup_keyとPoint-in-Time Lookup

分散学習 — SparkTrialsとTorchDistributor

Model Serving — エンドポイントの種類と選定

ドメイン別 練習問題（3問）

ML試験のドメイン別学習戦略

MLflowを最優先で習得する

評価指標の使い分けを整理する

MLOpsライフサイクル全体を俯瞰する

よくある質問（FAQ）

この記事で学んだ内容を問題で確認しましょう

この記事の著者

関連記事

Databricksの記事一覧 (109件)

ドメイン別練習問題（3問）