Databricks認定試験では、Delta Lake・Unity Catalog・MLflow・Sparkなどの 専門用語が頻出します。用語の正確な理解は合格の基盤です。 この記事では、試験に出る重要用語を100個厳選して7カテゴリの一覧表で整理しています。学習の辞書としてお使いください。
Delta LakeはDatabricksのストレージレイヤーであり、全試験で最も出題頻度が高い分野です。 トランザクション管理・データ品質・パフォーマンス最適化の用語を押さえましょう。
| 用語 | 英語名 | 定義 |
|---|---|---|
| デルタレイク | Delta Lake | Parquetファイル上にACIDトランザクション・スキーマ管理・Time Travelを追加するオープンソースのストレージレイヤー。Databricksのデフォルトテーブルフォーマット |
| トランザクションログ | Transaction Log (_delta_log) | テーブルへの全変更をJSONで記録するDelta Lakeの中核。10コミットごとにParquetチェックポイントが自動作成される |
| タイムトラベル | Time Travel | VERSION AS OFまたはTIMESTAMP AS OFで過去のテーブル状態を参照・復元する機能。デフォルト保持期間30日 |
| オプティマイズ | OPTIMIZE | 小さなファイルを大きなファイルにコンパクション(統合)するコマンド。Z-ORDERと組み合わせてクエリ性能を向上させる |
| Zオーダー | Z-ORDER | 指定列の値が近いデータを同じファイルに集約し、フィルタリングクエリのファイルスキップ率を向上させるデータ配置最適化 |
| リキッドクラスタリング | Liquid Clustering | Z-ORDERの進化版。CLUSTER BY句で指定し、書き込み時に自動クラスタリングが適用される。手動OPTIMIZEが不要 |
| バキューム | VACUUM | 不要な古いデータファイルを物理削除するコマンド。デフォルト7日以上古いファイルを削除。実行後はその期間のTime Travel不可 |
| スキーマ進化 | Schema Evolution | mergeSchema=trueオプションで新しい列を自動追加する機能。既存データにはnullが入る |
| スキーマ強制 | Schema Enforcement | テーブルスキーマに合わないデータの書き込みを拒否する機能。Delta Lakeではデフォルト有効 |
| マージ | MERGE INTO | ソースとターゲットを結合条件で照合し、一致すれば更新/削除、不一致なら挿入を行うUpsert操作。SCD実装にも使用 |
| 変更データフィード | Change Data Feed (CDF) | テーブルへのINSERT/UPDATE/DELETEを変更データとして読み取る機能。増分処理パイプラインの構築に使用 |
| メダリオンアーキテクチャ | Medallion Architecture | Bronze(生データ)→Silver(クレンジング済み)→Gold(集計・分析用)の3層でデータ品質を段階的に向上させる設計パターン |
| デルタライブテーブルズ | Delta Live Tables (DLT) | 宣言的なパイプライン定義フレームワーク。@dlt.tableデコレータで変換を定義し、依存解決・品質チェックを自動化 |
| エクスペクテーション | Expectations | DLTのデータ品質制約。@dlt.expect(警告)、@dlt.expect_or_drop(削除)、@dlt.expect_or_fail(停止)の3種類 |
| フォトン | Photon | C++実装のベクトル化クエリエンジン。Sparkの標準エンジンと比較して最大12倍のパフォーマンス向上 |
| デルタクローン | Delta Clone | テーブルのコピーを作成する機能。SHALLOW CLONE(メタデータのみコピー)とDEEP CLONE(データも完全コピー)の2種類 |
| 制約 | Delta Constraints | CHECK制約(条件式を満たさない行の挿入を拒否)とNOT NULL制約(null値を拒否)でデータ品質を保証 |
| マテリアライズドビュー | Materialized View | クエリ結果を物理保存するビュー。アクセス時に再計算されず、事前計算された結果が返されるため高速 |
| ストリーミングテーブル | Streaming Table | DLTで定義されるAppend-onlyのテーブル。spark.readStreamで増分データを処理する |
| 予測最適化 | Predictive Optimization | テーブルの使用パターンを学習し、OPTIMIZE・VACUUM・統計収集を最適なタイミングで自動実行する機能 |
Unity CatalogはDatabricksの統合ガバナンスレイヤーで、DEA・DEP試験で頻出します。 3レベル名前空間・アクセス制御・データリネージの概念を理解しましょう。
| 用語 | 英語名 | 定義 |
|---|---|---|
| ユニティカタログ | Unity Catalog | データ・AI資産のアクセス制御・監査・リネージ・ディスカバリーを一元管理する統合ガバナンスソリューション |
| メタストア | Metastore | Unity Catalogの最上位コンテナ。リージョンごとに1つ作成され、カタログ→スキーマ→テーブルの階層を管理 |
| カタログ | Catalog | 3レベル名前空間(catalog.schema.table)の最上位。本番/開発環境の分離などに使用 |
| スキーマ | Schema (Database) | 3レベル名前空間の2番目。テーブル・ビュー・関数を論理グループ化する単位。SQLの「データベース」と同義 |
| 外部ロケーション | External Location | Unity Catalog管理下のクラウドストレージパス。S3やADLSへのアクセスをUnity Catalog経由で制御 |
| ストレージ資格情報 | Storage Credential | クラウドストレージへのアクセスに使用するIAMロールやサービスプリンシパル。外部ロケーションと紐付けて使用 |
| マネージドテーブル | Managed Table | データとメタデータの両方をDatabricksが管理するテーブル。DROP TABLE実行時にデータも削除される |
| 外部テーブル | External Table | メタデータのみUnity Catalogが管理し、データは外部ストレージに存在するテーブル。DROP TABLE実行時もデータは残る |
| データリネージ | Data Lineage | データの起源と変換履歴を自動追跡・可視化する機能。テーブル間の依存関係を自動記録し影響分析に活用 |
| 権限付与・剥奪 | GRANT / REVOKE | GRANT SELECT ON TABLEでテーブル読み取り権限を付与。権限はカタログ→スキーマ→テーブルに継承される |
| ダイナミックビュー | Dynamic View | current_user()やis_member()でユーザーに応じた行・列フィルタリングを行うビュー。行列レベルの制御を実現 |
| ボリューム | Volume | Unity Catalogで管理される非テーブル形式のファイルストレージ。画像・PDF・CSV等を格納。マネージド/外部の2種類 |
| 行フィルタ・列マスク | Row Filter / Column Mask | Row Filterで閲覧行を制限、Column Maskで列値をマスキング(例:メールの一部を****に置換)するアクセス制御 |
| 情報スキーマ | Information Schema | カタログ内のテーブル・列・権限などのメタデータをSQLで照会できるシステムスキーマ |
| デルタシェアリング | Delta Sharing | 組織間でデータを物理コピーなしに安全に共有するオープンプロトコル。Databricks外の環境からもアクセス可能 |
Apache SparkはDatabricksの実行エンジンです。 Spark Developer試験では必須、DEA・MLA試験でも基本概念が問われます。
| 用語 | 英語名 | 定義 |
|---|---|---|
| アパッチスパーク | Apache Spark | 大規模データの分散処理エンジン。インメモリ処理でBatch・Streaming両方をサポートする統合フレームワーク |
| スパークセッション | SparkSession | Sparkアプリの起点。Databricksではspark変数として自動利用可能。DataFrame作成・SQL実行・設定管理を行う |
| データフレーム | DataFrame | 名前付き列で構成される分散データセット。select/filter/groupBy/join等のAPI操作が可能なPySparkの主要データ構造 |
| 変換 | Transformation | 遅延評価される操作(select/filter/groupBy/join)。Actionが呼ばれるまで実行されない。NarrowとWideに分類 |
| アクション | Action | 計算を実行するトリガー操作(show/count/collect/write)。Actionが呼ばれると全Transformationが実行される |
| パーティション | Partition | データを分割する単位。Sparkはパーティション単位で並列処理する。repartition()とcoalesce()で数を変更 |
| シャッフル | Shuffle | ワーカー間でデータを再配置する操作。groupBy/join/repartition等のWide Transformationで発生するボトルネック |
| カタリストオプティマイザ | Catalyst Optimizer | 論理プラン→最適化論理プラン→物理プラン→コード生成の4段階でクエリを最適化する統合エンジン |
| 適応型クエリ実行 | Adaptive Query Execution (AQE) | 実行時統計に基づきJoin戦略変更・パーティションコアレス・スキュー分割を動的に行うSpark 3.0+の最適化機能 |
| ブロードキャストジョイン | Broadcast Join | 小テーブルを全Executorにコピーしてシャッフルなしで結合する手法。broadcast()ヒントで明示的に指定可能 |
| キャッシュ | Cache (persist) | DataFrameをメモリ/ディスクにキャッシュして再利用する機能。cache()はメモリのみ、persistでレベル指定可能 |
| スパークSQL | Spark SQL | SQL構文でSparkデータを操作するモジュール。spark.sql()でクエリ実行し結果をDataFrameで取得 |
| ウィンドウ関数 | Window Functions | パーティションごとのランク付け・移動集計・累積計算を行う関数。ROW_NUMBER/RANK/LAG/LEADが代表的 |
| ユーザー定義関数 | UDF (User Defined Function) | ユーザー独自の関数。通常UDFはシリアライゼーションコストが高いため、Pandas UDF(ベクトル化UDF)を推奨 |
| パンダスAPI | Pandas API on Spark | pyspark.pandas asでPandasコードをほぼそのまま分散処理できる互換レイヤー。Pandas UDFとは別のアプローチ |
ML Associate・ML Professional試験で頻出する機械学習とMLflowの用語です。
| 用語 | 英語名 | 定義 |
|---|---|---|
| エムエルフロー | MLflow | MLライフサイクル管理のOSSプラットフォーム。Tracking・Models・Registry・Model Servingの4コンポーネント構成 |
| 実験 | Experiment | 関連するRunをグループ化する論理コンテナ。1プロジェクトに1 Experimentを作成し、異なるアプローチを比較 |
| ラン | Run | 1回のモデルトレーニングの記録。パラメータ・メトリクス・アーティファクト・タグを記録。mlflow.start_run()で開始 |
| モデルレジストリ | Model Registry | トレーニング済みモデルのバージョン管理。Unity Catalog統合版ではChampion/Challengerエイリアスで管理 |
| オートログ | Autolog | mlflow.autolog()で有効化する自動ログ記録。scikit-learn・TensorFlow・PyTorch対応。Databricksではデフォルト有効 |
| フィーチャーストア | Feature Store | ML特徴量を管理・共有するリポジトリ。Unity Catalog配下のFeature Tableとして管理。オンライン/オフライン対応 |
| オートエムエル | AutoML | データ指定だけで前処理・特徴量エンジニアリング・モデル選択・チューニングを自動実行。結果はMLflowに記録 |
| ハイパーオプト | Hyperopt | ベイズ最適化(TPE)でハイパーパラメータを効率探索するライブラリ。SparkTrialsで分散実行可能 |
| スパークMLlib | Spark MLlib | Sparkの分散MLライブラリ。Pipeline/Transformer/Estimatorの概念でML処理フローを構築 |
| パイプライン | Pipeline (ML Pipeline) | TransformerとEstimatorを連結したワークフロー。pipeline.fit()で一括実行し、再現性と移植性を確保 |
| モデルシグネチャ | Model Signature | MLflowモデルの入出力スキーマ定義。infer_signature()で自動推定。Model Servingの入力バリデーションに使用 |
| モデルフレーバー | Model Flavor | MLflowのモデル保存フォーマット。sklearn/tensorflow/pytorch/pyfunc等。pyfuncは汎用フレーバー |
| レイクハウスモニタリング | Lakehouse Monitoring | テーブル統計のドリフト検出やMLモデルの予測パフォーマンス劣化を自動検出・アラートする機能 |
| モデルサービング | Model Serving | Registry上のモデルをREST APIエンドポイントとしてデプロイ。サーバレスでスケール、A/Bテスト対応 |
| パンダスUDF | Pandas UDF | Apache Arrowベースのベクトル化UDF。通常UDFよりシリアライゼーションコストが低く、高速に動作 |
Databricksのコンピュートリソースに関する用語です。 全試験でクラスタの種類・設定・コスト管理が問われます。
| 用語 | 英語名 | 定義 |
|---|---|---|
| クラスタ | Cluster | Sparkのコンピュートリソース単位。ドライバーノード+ワーカーノードで構成。オートスケーリング・オートターミネーション対応 |
| ドライバーノード | Driver Node | SparkSessionを保持し、ジョブの計画・調整を行うノード。collect()の結果はドライバーのメモリに格納される |
| ワーカーノード | Worker Node | Executor(実行プロセス)が動作しTask単位でデータを並列処理するノード。ノード数でクラスタの処理能力が決まる |
| All-purposeクラスタ | All-purpose Cluster | 対話型のノートブック開発用クラスタ。複数ユーザーが共有可能。コストはDBU+インフラ費用で課金 |
| Jobクラスタ | Job Cluster | Workflowsのジョブ実行時に自動作成・終了後に自動削除されるクラスタ。All-purposeより30%程度安価 |
| SQLウェアハウス | SQL Warehouse | Databricks SQLのコンピュートリソース。Serverless/Pro/Classicの3タイプ。Serverlessが起動最速・推奨 |
| サーバレスコンピュート | Serverless Compute | インフラをDatabricksが完全管理するコンピュートモデル。起動・スケーリング・パッチ適用が自動化される |
| クラスタポリシー | Cluster Policy | 管理者がクラスタ設定を制限・標準化するルール。インスタンスタイプ・最大ノード数・ランタイムを制御 |
| 共有クラスタ | Shared Cluster | 複数ユーザーが同時使用できるクラスタ。一部機能(dbutils.credentials等)に制限あり |
| 単一ユーザークラスタ | Single User Cluster | 1ユーザー専用クラスタ。全機能が利用可能。Unity CatalogのTable ACLは共有・単一の両方で動作 |
DEA・DEP試験で頻出するパイプライン構築・運用に関する用語です。
| 用語 | 英語名 | 定義 |
|---|---|---|
| ワークフローズ | Databricks Workflows | タスクをDAG(有向非巡回グラフ)で定義し、スケジュール実行・依存管理・エラー制御を行うオーケストレーションサービス |
| オートローダー | Auto Loader (cloudFiles) | クラウドストレージの新規ファイルを自動検出して増分処理するStructured Streamingソース。スキーマ推論・進化対応 |
| ストラクチャードストリーミング | Structured Streaming | バッチと同じDataFrame APIでストリーム処理するSparkエンジン。readStream/writeStreamで入出力。Exactly-once対応 |
| ETL / ELT | ETL / ELT | ETLは変換後にロード、ELTはロード後に変換するパターン。Databricksはデータレイクハウスとしてeパターンを推奨 |
| チェックポイント | Checkpoint | Structured Streamingの処理進捗を記録する仕組み。障害復旧とExactly-once保証に必要。checkpointLocationで指定 |
| トリガー | Trigger | Streamingの実行タイミング制御。processingTime(定期)、availableNow(全データ処理して停止・推奨)等がある |
| 緩やかに変化するディメンション | SCD (Slowly Changing Dimension) | ディメンションテーブルの変更履歴管理パターン。Type 1は上書き、Type 2は履歴保持。DLTのAPPLY CHANGES INTOで実装 |
| コピーイントゥ | COPY INTO | クラウドストレージからDelta Lakeにデータをロードするべき等SQL文。同一ファイルの再ロードでも重複なし |
| データスキュー | Data Skew | 特定キー値にデータが集中し、パーティション間の処理が不均等になる状態。AQEのスキュー分割やソルトキーで対策 |
| べき等性 | Idempotency | 同じ処理を何回実行しても結果が同じになる性質。パイプラインの再実行時にデータ重複を防ぐために必要 |
| マルチタスクジョブ | Multi-task Job | Workflowsで複数タスクを依存関係付きで実行する構成。タスク間パラメータ渡し(task values)・条件分岐・リトライ設定可能 |
| アセットバンドル | Databricks Asset Bundle (DAB) | コード・設定・リソースをYAMLでパッケージングするCI/CDツール。環境間デプロイを自動化する |
| リポス | Repos (Git Integration) | Databricks上でGitリポジトリを直接操作する機能。GitHub/GitLab/Bitbucket対応。ノートブックのバージョン管理に使用 |
| シークレット | Secret | APIキー・パスワード等の機密情報をSecret Scopeに安全に保管。dbutils.secrets.get(scope, key)で取得 |
| ディービーユーティルス | dbutils | ノートブック内のユーティリティ群。ファイル操作(fs)・シークレット(secrets)・ウィジェット(widgets)・ノートブック制御(notebook)を提供 |
GenAI Engineer Associate試験およびML Professional試験で出題される 生成AI関連の用語です。
| 用語 | 英語名 | 定義 |
|---|---|---|
| 検索拡張生成 | RAG (Retrieval-Augmented Generation) | 外部知識ベースから情報を検索しLLMの回答を補強する手法。ハルシネーション抑制と最新情報への対応を実現 |
| ベクトル検索 | Vector Search | テキスト等をベクトル化し類似度検索を行うDatabricksのマネージドベクトルDB。RAGのレトリーバーとして使用 |
| エンベディング | Embedding | テキスト・画像等を固定長数値ベクトルに変換する処理。意味的に類似したデータは近いベクトルにマッピング |
| 基盤モデルAPI | Foundation Model API | 外部LLM(GPT-4, Claude等)やOSSモデル(Llama, DBRX等)を統一APIで呼び出す機能。Model Serving経由で利用 |
| プロンプトエンジニアリング | Prompt Engineering | LLMから望む出力を得るためのプロンプト最適化技術。Zero-shot/Few-shot/Chain-of-Thought等のテクニック |
| ファインチューニング | Fine-tuning | 事前学習LLMを特定ドメイン向けに追加学習する手法。LoRA/QLoRAなどのパラメータ効率的な方法が試験範囲 |
| ディービーアールエックス | DBRX | Databricks開発のOSS大規模言語モデル。MoE(Mixture of Experts)アーキテクチャで高性能と効率的推論を両立 |
| チェーン | LLM Chain | 複数のLLM呼び出しやツール使用を連鎖させるパターン。LangChain等で実装し、MLflowでログ記録・トレーシング可能 |
| ガードレール | Guardrails | LLM出力を制御・フィルタリングする安全機構。有害コンテンツ防止や出力フォーマット制約をModel Servingに組込 |
| トレーシング | MLflow Tracing | LLMアプリの実行フローを追跡・可視化する機能。RAGの各ステップのレイテンシ・入出力を記録しデバッグに活用 |
Databricks
問題 1
Delta Lakeの「VACUUM」コマンドについて正しい説明はどれですか?
正解: B
VACUUMはDelta Lakeテーブルの不要な古いデータファイルを物理的に削除するコマンドです。デフォルトでは7日(168時間)以上経過したファイルが削除対象となり、VACUUM実行後はそれらの古いバージョンへのTime Travel(VERSION AS OF / TIMESTAMP AS OF)が不可能になります。選択肢Aのトランザクションログサイズの削減はVACUUMの機能ではなく、チェックポイント機構(10コミットごとのParquetファイル作成)が担います。選択肢CはANALYZE TABLE COMPUTE STATISTICSコマンドの説明です。選択肢DはOPTIMIZEコマンド(ファイルコンパクション)の説明です。VACUUMとOPTIMIZEの違いは頻出論点のため、確実に区別しておきましょう。
用語をどの順番で覚えるべきですか?
受験する試験によって優先度が異なります。Data Engineer Associate(DEA)ならDelta Lake・Unity Catalog・パイプライン関連用語を最優先で覚えましょう。ML AssociateならML・MLflow関連用語が最重要です。まず受験する試験のExam Guideを確認し、配点比率の高いドメインの用語から覚えるのが効率的です。
英語の技術用語は日本語で覚えるべきですか?
試験が日本語対応の場合でも、英語のまま覚えることをおすすめします。公式ドキュメントやエラーメッセージは英語であり、実務でも英語のまま使うことが大半です。日本語訳は理解の補助として使い、「Delta Lake」「Unity Catalog」「MLflow」等の固有名詞は英語のまま記憶しましょう。
用語集を暗記するだけで試験に合格できますか?
用語の暗記だけでは合格は難しいです。Databricks試験は概念の理解と応用力を問う問題が中心で、用語の定義を暗記しているだけでは解けない問題が多くあります。用語集は学習の土台として活用し、その上で公式ドキュメントの通読と問題集での反復練習を行うことが合格への近道です。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Databricks資格一覧|全7試験・難易度・勉強法
Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...
Databricks試験の難易度ランキング|全7資格を徹底比較
Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...
Databricks資格の勉強方法|最短合格ルートと学習時間の目安
Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...
Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略
Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...
Databricks Data Engineer Professional完全解説|上級試験の攻略法
Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...