Snowflake

SnowPro Advanced: Data Scientist

2026-03-26
更新: 2026-03-27
NicheeLab編集部

SnowPro Advanced: Data Scientist Certificationは、Snowflake上での機械学習ワークフロー(特徴量エンジニアリング・モデル構築・評価・デプロイ)に関する高度な知識を証明する試験です。 Snowpark ML・DataFrame API・Feature Store・Model Registry・ML Pipelineなど、Snowflakeネイティブの ML機能が中心に出題されます。

試験概要

項目詳細
問題数65問(単一選択・複数選択)
試験時間115分
合格ライン750点 / 1000点満点
受験料$375 USD
前提条件SnowPro Core認定(有効期間内)
受験方法Pearson VUE(テストセンター or オンライン)
認定有効期間2年間
推奨経験Snowflakeでの機械学習実務2年以上、Python/Scikit-learn経験

出題ドメインと配点

ドメイン配点主要トピック
1. Data Preparation & Feature Engineering25%Snowpark DataFrame、特徴量変換、Feature Store、データ品質
2. Model Development25%Snowpark ML(モデル学習・チューニング)、ML Functions、Snowpark Python UDF
3. Model Deployment & Scoring20%Model Registry、UDFデプロイ、バッチ推論、リアルタイム推論
4. Model Evaluation & Monitoring15%評価指標、モデルドリフト検出、A/Bテスト、モニタリング
5. ML Pipeline & Operations15%Tasks/DAGによるパイプライン自動化、CI/CD、再現性

Snowpark DataFrame API

Snowpark DataFrameはSnowflake内でPythonを使ったデータ処理を可能にするAPIです。処理はSnowflakeのコンピュートエンジン上で実行されるため、データ移動なしに大規模データを操作できます。

操作DataFrameメソッドSQLとの対応
テーブル読み込みsession.table("db.schema.table")FROM db.schema.table
列選択.select(col("c1"), col("c2"))SELECT c1, c2
フィルタ.filter(col("c1") > 100)WHERE c1 > 100
集約.group_by("c1").agg(avg("c2"))GROUP BY c1
結合.join(df2, "key")JOIN df2 ON key
書き込み.write.save_as_table("target")CREATE TABLE AS SELECT

Snowpark DataFrameは遅延評価(Lazy Evaluation)で動作します。.collect() / .show() / .save_as_table() などのアクションメソッドが呼ばれるまで実際のSQL実行は発生しません。この仕組みにより、複数の変換をチェーンした後にSnowflakeが最適なクエリプランを生成できます。

Snowpark ML

Snowpark MLはSnowflake内で機械学習のライフサイクル全体を実行するためのPythonライブラリです。

前処理・特徴量変換

  • snowflake.ml.modeling.preprocessing:StandardScaler、MinMaxScaler、OrdinalEncoder、OneHotEncoder、LabelEncoder
  • Scikit-learn互換のfit/transform/fit_transformインターフェースを提供
  • 変換処理はSnowflakeのウェアハウス上でプッシュダウン実行される

モデル学習

  • snowflake.ml.modeling:RandomForestClassifier、XGBClassifier、LogisticRegressionなどScikit-learn/XGBoost/LightGBM互換モデル
  • fit()メソッドでSnowflake DataFrameを直接入力としてモデルを学習
  • 学習処理はSnowflakeウェアハウスのPythonサンドボックスで実行される

ハイパーパラメータチューニング

  • GridSearchCV:パラメータグリッドの全組み合わせを評価
  • RandomizedSearchCV:ランダムサンプリングで効率的に探索
  • 交差検証(Cross Validation)もSnowflake内で実行

Feature Store

Snowflake Feature Storeは特徴量の一元管理・再利用・バージョニングを提供する機能です。

機能説明
Feature View特徴量の定義をSQLまたはDataFrame変換として登録
Entity特徴量が紐づくビジネスエンティティ(例: customer_id)
ポイントインタイム正確性学習時のタイムスタンプに合わせた正確な特徴量取得(データリーケージ防止)
バージョニング特徴量定義の変更履歴を管理
学習/推論の一貫性同一のFeature Viewから学習データと推論データを生成

Model Registry

Snowflake Model Registryはモデルのバージョン管理・メタデータ記録・デプロイ管理を提供します。

  • モデルをSnowflakeスキーマ内のオブジェクトとして登録
  • 各バージョンにメトリクス(accuracy・F1スコア等)を記録
  • モデルをUDFとしてデプロイし、SQLからバッチ推論を実行
  • Snowpark Container Servicesと連携してリアルタイム推論エンドポイントを構築

Snowflake ML Functions

SQLだけで利用できるビルトイン機械学習関数です。Python不要で基本的なMLタスクを実行できます。

関数用途入力
FORECAST時系列予測タイムスタンプ + 数値カラム
ANOMALY_DETECTION異常検知タイムスタンプ + 数値カラム
CONTRIBUTION_EXPLORER主要因分析カテゴリカル + 数値カラム
TOP_INSIGHTSデータセグメント分析カテゴリカル + 数値カラム

モデル評価

  • 分類モデル:Accuracy、Precision、Recall、F1-score、AUC-ROC、Confusion Matrix
  • 回帰モデル:MSE、RMSE、MAE、R-squared
  • 交差検証:K-Fold Cross Validationによる汎化性能の評価
  • モデルドリフト検出:学習データと推論データの特徴量分布の変化をモニタリング

ML Pipeline の自動化

Snowflake TasksとDAG(有向非巡回グラフ)を組み合わせてMLパイプラインを自動化できます。

  • データ取り込み → 特徴量変換 → モデル学習 → 評価 → デプロイの各ステップをTasksで定義
  • CRONスケジュールまたはStreamトリガーでパイプラインを定期実行
  • Snowpark Pythonストアドプロシージャで複雑なML処理をカプセル化
  • Feature Store + Model Registryと組み合わせて再現性のあるパイプラインを構築

問題で確認

SnowPro Advanced: Data Scientist

問題 1

Snowflake Feature Storeのポイントインタイム正確性(Point-in-Time Correctness)が解決する問題はどれですか?

  1. モデルの推論速度が遅い問題
  2. 学習データに将来の情報が混入するデータリーケージ問題
  3. 特徴量の欠損値が多い問題
  4. モデルのハイパーパラメータ選択が難しい問題

正解: B

ポイントインタイム正確性は、学習データを作成する際に各レコードのタイムスタンプ時点で利用可能だった特徴量のみを取得する機能です。これにより、将来の情報が学習データに混入するデータリーケージ(Data Leakage)を防ぎ、モデルの本番環境での性能と学習時の性能の乖離を防止します。

よくある質問

SnowPro Advanced Data Scientist試験にPythonのコーディング問題は出ますか?

実際にコードを書いて実行する問題は出ませんが、Snowpark PythonのDataFrame API・Snowpark ML APIのコードスニペットを読んで挙動を判断する問題が出ます。たとえば、session.table().filter().group_by()のチェーン呼び出しの結果を問う問題や、Snowpark MLのGridSearchCVのパラメータ設定に関する問題が想定されます。PandasやScikit-learnの基本知識も前提として求められます。

Snowpark MLとSnowflake ML Functionsの違いは何ですか?

Snowpark MLはPython APIでモデルのトレーニング・ハイパーパラメータチューニング・特徴量エンジニアリングをSnowflake内で実行するライブラリです。一方、Snowflake ML FunctionsはビルトインのSQL関数として提供される機械学習機能(FORECAST / ANOMALY_DETECTION / CONTRIBUTION_EXPLORER等)で、SQLだけでMLタスクを実行できます。試験では両者の使い分けシナリオが出題されます。

Feature StoreとModel Registryはそれぞれどのような場面で問われますか?

Feature Storeは特徴量の一元管理・再利用・バージョニング・ポイントインタイム正確性に関して出題されます。「学習時と推論時で同じ特徴量変換を保証するにはどうすべきか」というシナリオが典型例です。Model Registryはモデルのバージョン管理・ステージ管理(Development/Production)・メタデータ記録に関して出題され、「本番環境にデプロイするモデルバージョンをどう管理するか」というシナリオが頻出です。

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

無料で問題を解いてみる
この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。


関連記事
Snowflake

Snowflake資格一覧|全11試験(SnowPro)の難易度・費用

Snowflake認定資格(SnowPro)全11試験の一覧・難易度・費用・出題範囲を徹底解説。...

Snowflake

Snowflake試験の難易度ランキング|全11資格を徹底比較

Snowflake(SnowPro)認定全11試験の難易度をランキング形式で比較。学習時間・合格に必要なスキルから分析。...

Snowflake

Snowflake資格の勉強方法|効率的な学習ルートと合格のコツ

Snowflake認定資格(SnowPro)に最短で合格するための勉強方法。公式リソース・学習スケジュールを徹底ガイド。...

Snowflake

SnowPro Core試験完全解説|出題範囲・問題例・合格戦略

SnowPro Core Certification(COF-C03)を徹底解説。出題範囲・100問の試験形式・合格ライ...

Snowflake

SnowPro Platform Associate完全解説|入門試験の攻略

SnowPro Associate: Platform Certification(SOL-C01)を徹底解説。最も簡単...

Snowflakeの記事一覧 (102件)
© 2026 NicheeLab All rights reserved.