dbt のテストは大きく2種類。YAMLで再利用可能に宣言する汎用テストと、SQLで1件ずつ不正行を返す個別テストです。
試験では「どのテストをどこに定義し、どう実行され、失敗時にどう扱うか」を押さえておくと得点源になります。実務ではコストを意識しつつ、最低限の品質保証ラインを設けるのが鍵です。
dbt のテストは、失敗行を返すSELECTを内部的に実行し、行が1件以上返れば失敗、0件なら成功と判定します。汎用テストはYAMLに宣言して同じパターンを複数モデル・列へ適用でき、個別テストはtests/ 以下にSQLとして作成します。
テストは通常、モデルのビルド後に dbt test で実行します。CIでは dbt build によってモデルの構築とテストが一連で行われる運用が一般的です。失敗時の挙動は severity 設定により error か warn を選べます。
dbt プロジェクト内でのテスト位置付け
基本コマンド: モデルとテストの実行
# モデルとテストを一括
$ dbt build -s +marts.customer --fail-fast
# テストのみ、タグで絞る
$ dbt test -s tag:data_quality
# 個別テストファイルを直接指定
$ dbt test -s tests/no_future_booking.sql汎用テストは models/*.yml に宣言します。代表的な組み込みテストは not_null、unique、accepted_values、relationships です。宣言的に書けるため、保守性・再利用性に優れ、スキーマ品質の下限を素早く固められます。
独自の汎用テストは macro として定義できます。macro 名がテスト名となり、YAMLから列やモデルを引数として呼び出せます。
| 観点 | 汎用テスト(generic) | 個別テスト(singular) | 試験での覚え方 |
|---|---|---|---|
| 定義場所 | YAML (schema.yml) | tests/*.sql | 宣言的(YAML)か命令的(SQL)か |
| 用途 | 整合性・制約の共通チェック | ビジネス特有・複合条件の検証 | 迷ったらまず汎用で共通化 |
| 再利用性 | 高い。多数列へ適用容易 | 低め。ケースごとにSQL作成 | DRYは汎用テストで担保 |
| 可読性 | 高い。要件がYAMLに列挙 | SQL次第。レビューコスト増 | 試験は宣言的定義を重視 |
| メンテナンス | モデルリネーム時も追従しやすい | 依存SQLの追随が必要 | 変更耐性は汎用が優位 |
| 実行性能 | 単純条件が多く相対的に軽い | 結合や集計で重くなりやすい | 大規模データは汎用優先 |
YAML での汎用テスト定義とカスタム汎用テスト例
# models/schema.yml
version: 2
models:
- name: customers
columns:
- name: customer_id
tests:
- not_null
- unique
- name: status
tests:
- accepted_values:
values: ["active", "inactive"]
- name: orders
columns:
- name: customer_id
tests:
- relationships:
to: ref('customers')
field: customer_id
- not_null:
config:
severity: warn
# macros/tests/not_future_date.sql (カスタム汎用テスト)
{% test not_future_date(model, column_name) %}
select *
from {{ model }}
where {{ column_name }} > current_date
{% endtest %}
# 使用例 (models/payments.yml)
version: 2
models:
- name: payments
columns:
- name: paid_at
tests:
- not_future_date個別テストは tests/ ディレクトリにSQLファイルで作成します。クエリが返す行が“失敗”です。ビジネス固有のルールや複数モデルに跨る複雑な整合性チェックを記述するのに向いています。
Jinja で ref や source を使えるため、モデルに追従する形で安全に参照できます。重い結合やウィンドウ関数を多用する場合は、対象期間の絞り込みやインデックス的なクラスタリングキーを活用してコストを抑えます。
個別テストの例: 重複注文と未来日の禁止
-- tests/no_duplicate_orders.sql
with dup as (
select order_id, count(*) as c
from {{ ref('orders') }}
group by 1
having count(*) > 1
)
select * from dup
-- tests/no_future_bookings.sql
select *
from {{ ref('bookings') }}
where booking_date > current_datedbt test は選択ルールに従って対象のテストだけを実行できます。タグ、モデル名、パスでの絞り込みが実務で便利です。CIでは変更差分だけを走らせる選択も有効です。
結果は標準出力に加えて target/run_results.json に詳細が保存されます。store_failures を有効にすると、失敗行がアダプタ依存の命名規則でウェアハウス上のテーブルに保存され、後から調査できます。
選択と失敗行保存の実例
# 重要タグのみを検証
$ dbt test -s tag:critical --fail-fast
# 変更のあったモデルとそのテストのみ(例: state:modified を使う場合)
$ dbt test -s state:modified+
# プロファイル/環境で失敗行を保存
# dbt_project.yml 例
tests:
+store_failures: true
+severity: errorテストは「最小のコストで最大の安心」を狙います。全テーブル全列にテストを貼るのではなく、ビジネスに直結する指標・キー・外部参照から優先します。汎用テストで下限を固め、漏れたドメイン固有条件だけ個別テストで補います。
アンチパターンは、集計系モデルに対して広範囲なフルスキャン個別テストを常時回すことや、重複した検証ロジックを汎用テストと個別テストの両方に書くことです。テストの実行時間がSLAを侵食しないよう、頻度やスケジュールも設計に含めます。
失敗を警告に留める設定例(段階的導入)
# models/core.yml
version: 2
models:
- name: customers
columns:
- name: email
tests:
- unique:
config:
severity: warn # 初期は警告で監視
- not_null:
config:
severity: error # 必須はエラーで厳格に試験では、汎用テストと個別テストの違い、YAML/SQLでの定義、relationships や accepted_values の意味、severity と store_failures の挙動、dbt build と dbt test の使い分けが頻出です。挙動は公式ドキュメントに準拠して覚えます。
また、ref/source を介した依存解決や、選択フラグで対象を絞る基本操作も正答率に直結します。選択記法(+/@/tag/path/state)のうち、最低限 tag と path、単純な + の意味は押さえておきましょう。
最小セットでの暗記用スニペット
# relationships の最小例
tests:
- relationships:
to: ref('dim_customers')
field: customer_id
# accepted_values の最小例
tests:
- accepted_values:
values: ["A", "B"]Analytics Engineer
問題 1
orders テーブルの customer_id が customers テーブルの customer_id に必ず存在することを dbt の汎用テストで検証したい。最も適切な定義はどれか。
正解: A
参照整合性は汎用テスト relationships を子側(orders)の対象列に宣言し、to で親モデル(ref('customers'))、field で親のキー列(customer_id)を指定して検証するのが公式かつ再利用可能な方法です。他の選択肢は実現可能性や保守性の面で不適切です。
dbt build と dbt test の違いは?どちらを使うべき?
dbt build はモデルの構築(run)・テスト(test)・スナップショットなどを依存順で一括実行します。CI/本番検証では build が便利です。ローカルで既存モデルに対しテストだけ回したい場合は dbt test を使います。
severity=warn は本当に失敗を無視してよいのか?
warn はジョブを失敗させませんが、run_results.json には失敗として残ります。初期導入や移行直後に有効ですが、ビジネス上クリティカルな検証は最終的に error に引き上げることを推奨します。
store_failures を有効にすると何が起きる?コスト影響は?
失敗行がウェアハウス上の専用テーブルに保存され、再調査や可視化に役立ちます。一方でテーブル作成・書き込みが増えるため、ストレージとクエリコストが上がります。重要なテストや暫定運用に限定して使うのが現実的です。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
dbt Model の基礎: SQL で定義する変換の最小単位
Analytics Engineer 向けに、dbt Model の定義、マテリアライゼーション、依存関係、インクリメン...
dbt Analytics Engineer 試験ガイド: 出題範囲・配点・申込の実務視点
dbt Analytics Engineer 認定の出題範囲、配点の考え方、申込から受験までの流れを、公式ドキュメントの...
dbt Cloud と dbt Core の違いと選び方:Analytics Engineer 試験に効く要点
dbt Cloud と dbt Core の機能差を、実務と資格対策の両面から整理。スケジューリング、IDE、RBAC、...
dbt プロジェクト構造ガイド: models / seeds / macros の実務レイアウト
Analytics Engineer 向けに、dbt プロジェクトのディレクトリ構造と命名規約、dbt_project....
dbt_project.yml の読み方:主要設定と命名を最短で掴む
dbt_project.yml の必須キー、命名解決(database.schema.identifier)、設定優先度...