カテゴリ列の不正値は、ダッシュボードの指標崩れや下流ETLの例外を招きます。dbtのaccepted_valuesテストは、あらかじめ許容する値の集合を宣言し、それ以外を検出するための汎用テストです。
この記事では、公式ドキュメントに基づく安定的な使い方、落ちやすい罠、他手法との使い分け、CIへの組み込みまでを一気通貫で解説します。試験対策の観点からも、問われやすい比較ポイントを押さえます。
accepted_valuesテストは、列の値が指定したリストに含まれているかを検証します。典型例は、注文ステータス、顧客区分、国コード、言語コードなどの有限集合をとるカテゴリ列です。列の意味が変わる前に逸脱を検知できるため、スキーマドリフトの早期発見に有効です。
スキーマYAMLに許容集合を宣言するだけで機能し、軽量で高速です。データベース制約が実運用で有効化されていないDWH(例: 外部キーが非強制)でも、dbtテストとしてアプリケーション側で担保できます。
データ整備とaccepted_valuesの配置
最小構成のaccepted_valuesテスト例(schema.yml)
version: 2
models:
- name: dim_customer
description: 顧客ディメンション
columns:
- name: status
description: 顧客の現在ステータス
tests:
- accepted_values:
values: ['active', 'inactive', 'prospect']
quote: true
列配下でaccepted_valuesを指定すると、その列に対してリスト外の値が失敗として検出されます。数値キーなどはquoteをfalseにしてSQLリテラルとして扱います。欠損を無視したい場合はwhereで条件を絞ります。
テストの重大度はconfigで調整できます。severityをwarnにするとテストは失敗せず警告になります。重大度や一部の細かな閾値設定はdbtのバージョン差分があります。必要に応じてdbt公式ドキュメントを確認してください。
整数ID、NULL除外、警告運用の例
version: 2
models:
- name: fct_orders
columns:
- name: status_id
tests:
- accepted_values:
values: [1, 2, 3, 4]
quote: false
where: "status_id is not null"
config:
severity: warn
よくある失敗は、前段での整形不足(大文字小文字・空白・別名)により、同義語が別値として扱われるケースです。stagingで正規化(trim、lower)した列に対してaccepted_valuesを当てると安定します。
NULLを許可するかどうかは設計判断です。NULLも許容したい場合はwhereで除外するか、別途not_nullテストを併用して方針を明確にします。
stagingでの正規化とテストの組み合わせ例
-- models/stg_orders.sql
with src as (
select
order_id,
lower(trim(status)) as status_norm,
*
from {{ ref('raw_orders') }}
)
select * from src;
# models/stg_orders.yml
version: 2
models:
- name: stg_orders
columns:
- name: status_norm
tests:
- accepted_values:
values: ['pending','shipped','canceled']
quote: true
静的な有限集合ならaccepted_valuesが最短距離です。一方、集合が業務マスタで管理される場合は、マスタ表との整合をrelationshipsテストで担保する方が保守性に優れます。DWHのネイティブ制約(CHECK/FOREIGN KEY)は製品により非強制または最適化無視されることがあるため、dbtテストでの担保が現実的です。
試験では、accepted_valuesとrelationshipsの使いどころ、変更時の運用(PRでリスト更新 vs マスタ更新)が問われやすいです。
| 手法 | 適用場面 | 強みと注意点 |
|---|---|---|
| accepted_values | 静的な有限集合(status, tier, channel) | YAMLで完結・高速。変更はPRで見えやすい。集合が肥大化すると管理負荷が増す。 |
| relationshipsテスト | マスタ表が真実のソースの場合 | 集合を表データで一元管理。新規値はマスタ追加で反映。参照側の欠損は直ちに検出。 |
| DBのCHECK/外部キー制約 | 製品が強制し、運用で有効化できる場合 | エンジン側で恒久担保。ただし多くのDWHでは非強制またはコスト高のため実運用で無効化されがち。 |
マスタ表と整合を取るrelationshipsテスト例
version: 2
models:
- name: fct_orders
columns:
- name: status
tests:
- relationships:
to: {{ ref('dim_status') }}
field: status
to_field: status_code
失敗行を後から確認したい場合はstore_failuresを有効化します。専用スキーマに失敗行テーブルが作成され、原因分析が容易になります。重大度は環境ごとに調整し、開発はwarn、本番はerrorとする運用が現実的です。
CIでは、変更に関連するモデルだけをテスト対象に絞ると高速です。タグや状態選択子を組み合わせ、PRでの差分テストを実現します。
dbt_project.ymlでのデフォルトとCLI例
# dbt_project.yml(抜粋)
tests:
+store_failures: true
+schema: dbt_test__audit
+severity: error
# CLI例(CI向け)
# 変更のあったモデルとその下流のみをテスト
$ dbt test -m state:modified+
# 重要度の高いテストだけ
$ dbt test -s tag:critical
Analytics Engineer試験では、accepted_valuesとrelationshipsの適材適所、whereやquoteの使いどころ、NULLの扱い方が頻出です。問題文中のヒント(マスタ表があるか、列が整数か、NULLを許容するか)を見落とさないことが肝心です。
YAML上の記述位置にも注意します。列配下に書く場合はcolumn_nameは不要です。数値リストはquote: false、文字列はquote: trueが基本線です。
ミニ演習用の正答例
version: 2
models:
- name: dim_subscription
columns:
- name: plan
tests:
- accepted_values:
values: ['free','standard','pro']
quote: true
where: "plan is not null"
Analytics Engineer
問題 1
注文テーブルのstatus列に対し、'pending', 'shipped', 'canceled' のみを許容したい。将来的に新しい業務ステータスが追加される可能性があるが、まずは逸脱を早期に検知したい。最も適切な対応はどれか。
正解: A
静的な有限集合を素早く担保するにはaccepted_valuesが適切です。将来の変更はPRでvaluesを更新してレビュー可能にします。マスタ表がないのにrelationshipsへ置換するのは不適切で、ダッシュボード側でのフィルタに依存するのも品質担保になりません。quoteは文字列でtrueが基本です。
NULLを許容したい場合、accepted_valuesはどう書けばよいですか?
accepted_valuesのwhereで対象行を絞り、NULLを除外します。例: where: "status is not null"。逆にNULLを禁止したい場合はnot_nullテストを併用して明示します。
許容値の数が多く、YAMLに直書きすると管理が大変です。どうすべきですか?
業務マスタとしてseedやディメンション表を用意し、relationshipsテストで参照整合性を担保する方法が保守的です。集合が頻繁に変わるならaccepted_valuesよりrelationshipsが適しています。
重大度(warn/error)や失敗行の永続化はどこで設定しますか?
テスト個別にはtestsのconfigでseverityやstore_failuresを設定できます。全体のデフォルトはdbt_project.ymlのtestsセクションで指定します。バージョンにより細かな挙動が異なる場合があるため、利用中のdbtバージョンの公式ドキュメントで確認してください。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
dbt Model の基礎: SQL で定義する変換の最小単位
Analytics Engineer 向けに、dbt Model の定義、マテリアライゼーション、依存関係、インクリメン...
dbt Analytics Engineer 試験ガイド: 出題範囲・配点・申込の実務視点
dbt Analytics Engineer 認定の出題範囲、配点の考え方、申込から受験までの流れを、公式ドキュメントの...
dbt Cloud と dbt Core の違いと選び方:Analytics Engineer 試験に効く要点
dbt Cloud と dbt Core の機能差を、実務と資格対策の両面から整理。スケジューリング、IDE、RBAC、...
dbt プロジェクト構造ガイド: models / seeds / macros の実務レイアウト
Analytics Engineer 向けに、dbt プロジェクトのディレクトリ構造と命名規約、dbt_project....
dbt_project.yml の読み方:主要設定と命名を最短で掴む
dbt_project.yml の必須キー、命名解決(database.schema.identifier)、設定優先度...