SnowPro Advanced: Data Scientist Certificationは、Snowflake上での機械学習ワークフロー(特徴量エンジニアリング・モデル構築・評価・デプロイ)に関する高度な知識を証明する試験です。 Snowpark ML・DataFrame API・Feature Store・Model Registry・ML Pipelineなど、Snowflakeネイティブの ML機能が中心に出題されます。
| 項目 | 詳細 |
|---|---|
| 問題数 | 65問(単一選択・複数選択) |
| 試験時間 | 115分 |
| 合格ライン | 750点 / 1000点満点 |
| 受験料 | $375 USD |
| 前提条件 | SnowPro Core認定(有効期間内) |
| 受験方法 | Pearson VUE(テストセンター or オンライン) |
| 認定有効期間 | 2年間 |
| 推奨経験 | Snowflakeでの機械学習実務2年以上、Python/Scikit-learn経験 |
| ドメイン | 配点 | 主要トピック |
|---|---|---|
| 1. Data Preparation & Feature Engineering | 25% | Snowpark DataFrame、特徴量変換、Feature Store、データ品質 |
| 2. Model Development | 25% | Snowpark ML(モデル学習・チューニング)、ML Functions、Snowpark Python UDF |
| 3. Model Deployment & Scoring | 20% | Model Registry、UDFデプロイ、バッチ推論、リアルタイム推論 |
| 4. Model Evaluation & Monitoring | 15% | 評価指標、モデルドリフト検出、A/Bテスト、モニタリング |
| 5. ML Pipeline & Operations | 15% | Tasks/DAGによるパイプライン自動化、CI/CD、再現性 |
Snowpark DataFrameはSnowflake内でPythonを使ったデータ処理を可能にするAPIです。処理はSnowflakeのコンピュートエンジン上で実行されるため、データ移動なしに大規模データを操作できます。
| 操作 | DataFrameメソッド | SQLとの対応 |
|---|---|---|
| テーブル読み込み | session.table("db.schema.table") | FROM db.schema.table |
| 列選択 | .select(col("c1"), col("c2")) | SELECT c1, c2 |
| フィルタ | .filter(col("c1") > 100) | WHERE c1 > 100 |
| 集約 | .group_by("c1").agg(avg("c2")) | GROUP BY c1 |
| 結合 | .join(df2, "key") | JOIN df2 ON key |
| 書き込み | .write.save_as_table("target") | CREATE TABLE AS SELECT |
Snowpark DataFrameは遅延評価(Lazy Evaluation)で動作します。.collect() / .show() / .save_as_table() などのアクションメソッドが呼ばれるまで実際のSQL実行は発生しません。この仕組みにより、複数の変換をチェーンした後にSnowflakeが最適なクエリプランを生成できます。
Snowpark MLはSnowflake内で機械学習のライフサイクル全体を実行するためのPythonライブラリです。
Snowflake Feature Storeは特徴量の一元管理・再利用・バージョニングを提供する機能です。
| 機能 | 説明 |
|---|---|
| Feature View | 特徴量の定義をSQLまたはDataFrame変換として登録 |
| Entity | 特徴量が紐づくビジネスエンティティ(例: customer_id) |
| ポイントインタイム正確性 | 学習時のタイムスタンプに合わせた正確な特徴量取得(データリーケージ防止) |
| バージョニング | 特徴量定義の変更履歴を管理 |
| 学習/推論の一貫性 | 同一のFeature Viewから学習データと推論データを生成 |
Snowflake Model Registryはモデルのバージョン管理・メタデータ記録・デプロイ管理を提供します。
SQLだけで利用できるビルトイン機械学習関数です。Python不要で基本的なMLタスクを実行できます。
| 関数 | 用途 | 入力 |
|---|---|---|
| FORECAST | 時系列予測 | タイムスタンプ + 数値カラム |
| ANOMALY_DETECTION | 異常検知 | タイムスタンプ + 数値カラム |
| CONTRIBUTION_EXPLORER | 主要因分析 | カテゴリカル + 数値カラム |
| TOP_INSIGHTS | データセグメント分析 | カテゴリカル + 数値カラム |
Snowflake TasksとDAG(有向非巡回グラフ)を組み合わせてMLパイプラインを自動化できます。
SnowPro Advanced: Data Scientist
問題 1
Snowflake Feature Storeのポイントインタイム正確性(Point-in-Time Correctness)が解決する問題はどれですか?
正解: B
ポイントインタイム正確性は、学習データを作成する際に各レコードのタイムスタンプ時点で利用可能だった特徴量のみを取得する機能です。これにより、将来の情報が学習データに混入するデータリーケージ(Data Leakage)を防ぎ、モデルの本番環境での性能と学習時の性能の乖離を防止します。
SnowPro Advanced Data Scientist試験にPythonのコーディング問題は出ますか?
実際にコードを書いて実行する問題は出ませんが、Snowpark PythonのDataFrame API・Snowpark ML APIのコードスニペットを読んで挙動を判断する問題が出ます。たとえば、session.table().filter().group_by()のチェーン呼び出しの結果を問う問題や、Snowpark MLのGridSearchCVのパラメータ設定に関する問題が想定されます。PandasやScikit-learnの基本知識も前提として求められます。
Snowpark MLとSnowflake ML Functionsの違いは何ですか?
Snowpark MLはPython APIでモデルのトレーニング・ハイパーパラメータチューニング・特徴量エンジニアリングをSnowflake内で実行するライブラリです。一方、Snowflake ML FunctionsはビルトインのSQL関数として提供される機械学習機能(FORECAST / ANOMALY_DETECTION / CONTRIBUTION_EXPLORER等)で、SQLだけでMLタスクを実行できます。試験では両者の使い分けシナリオが出題されます。
Feature StoreとModel Registryはそれぞれどのような場面で問われますか?
Feature Storeは特徴量の一元管理・再利用・バージョニング・ポイントインタイム正確性に関して出題されます。「学習時と推論時で同じ特徴量変換を保証するにはどうすべきか」というシナリオが典型例です。Model Registryはモデルのバージョン管理・ステージ管理(Development/Production)・メタデータ記録に関して出題され、「本番環境にデプロイするモデルバージョンをどう管理するか」というシナリオが頻出です。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Snowflake資格一覧|全11試験(SnowPro)の難易度・費用
Snowflake認定資格(SnowPro)全11試験の一覧・難易度・費用・出題範囲を徹底解説。...
Snowflake試験の難易度ランキング|全11資格を徹底比較
Snowflake(SnowPro)認定全11試験の難易度をランキング形式で比較。学習時間・合格に必要なスキルから分析。...
Snowflake資格の勉強方法|効率的な学習ルートと合格のコツ
Snowflake認定資格(SnowPro)に最短で合格するための勉強方法。公式リソース・学習スケジュールを徹底ガイド。...
SnowPro Core試験完全解説|出題範囲・問題例・合格戦略
SnowPro Core Certification(COF-C03)を徹底解説。出題範囲・100問の試験形式・合格ライ...
SnowPro Platform Associate完全解説|入門試験の攻略
SnowPro Associate: Platform Certification(SOL-C01)を徹底解説。最も簡単...