Databricks用語集｜試験に出る重要用語100選【2026最新】

Databricks認定試験では、Delta Lake・Unity Catalog・MLflow・Sparkなどの専門用語が頻出します。用語の正確な理解は合格の基盤です。この記事では、試験に出る重要用語を100個厳選して7カテゴリの一覧表で整理しています。学習の辞書としてお使いください。

Delta Lake 用語（20語）

Delta LakeはDatabricksのストレージレイヤーであり、全試験で最も出題頻度が高い分野です。トランザクション管理・データ品質・パフォーマンス最適化の用語を押さえましょう。

用語	英語名	定義
デルタレイク	Delta Lake	Parquetファイル上にACIDトランザクション・スキーマ管理・Time Travelを追加するオープンソースのストレージレイヤー。Databricksのデフォルトテーブルフォーマット
トランザクションログ	Transaction Log (_delta_log)	テーブルへの全変更をJSONで記録するDelta Lakeの中核。10コミットごとにParquetチェックポイントが自動作成される
タイムトラベル	Time Travel	VERSION AS OFまたはTIMESTAMP AS OFで過去のテーブル状態を参照・復元する機能。デフォルト保持期間30日
オプティマイズ	OPTIMIZE	小さなファイルを大きなファイルにコンパクション（統合）するコマンド。Z-ORDERと組み合わせてクエリ性能を向上させる
Zオーダー	Z-ORDER	指定列の値が近いデータを同じファイルに集約し、フィルタリングクエリのファイルスキップ率を向上させるデータ配置最適化
リキッドクラスタリング	Liquid Clustering	Z-ORDERの進化版。CLUSTER BY句で指定し、書き込み時に自動クラスタリングが適用される。手動OPTIMIZEが不要
バキューム	VACUUM	不要な古いデータファイルを物理削除するコマンド。デフォルト7日以上古いファイルを削除。実行後はその期間のTime Travel不可
スキーマ進化	Schema Evolution	mergeSchema=trueオプションで新しい列を自動追加する機能。既存データにはnullが入る
スキーマ強制	Schema Enforcement	テーブルスキーマに合わないデータの書き込みを拒否する機能。Delta Lakeではデフォルト有効
マージ	MERGE INTO	ソースとターゲットを結合条件で照合し、一致すれば更新/削除、不一致なら挿入を行うUpsert操作。SCD実装にも使用
変更データフィード	Change Data Feed (CDF)	テーブルへのINSERT/UPDATE/DELETEを変更データとして読み取る機能。増分処理パイプラインの構築に使用
メダリオンアーキテクチャ	Medallion Architecture	Bronze（生データ）→Silver（クレンジング済み）→Gold（集計・分析用）の3層でデータ品質を段階的に向上させる設計パターン
デルタライブテーブルズ	Delta Live Tables (DLT)	宣言的なパイプライン定義フレームワーク。@dlt.tableデコレータで変換を定義し、依存解決・品質チェックを自動化
エクスペクテーション	Expectations	DLTのデータ品質制約。@dlt.expect（警告）、@dlt.expect_or_drop（削除）、@dlt.expect_or_fail（停止）の3種類
フォトン	Photon	C++実装のベクトル化クエリエンジン。Sparkの標準エンジンと比較して最大12倍のパフォーマンス向上
デルタクローン	Delta Clone	テーブルのコピーを作成する機能。SHALLOW CLONE（メタデータのみコピー）とDEEP CLONE（データも完全コピー）の2種類
制約	Delta Constraints	CHECK制約（条件式を満たさない行の挿入を拒否）とNOT NULL制約（null値を拒否）でデータ品質を保証
マテリアライズドビュー	Materialized View	クエリ結果を物理保存するビュー。アクセス時に再計算されず、事前計算された結果が返されるため高速
ストリーミングテーブル	Streaming Table	DLTで定義されるAppend-onlyのテーブル。spark.readStreamで増分データを処理する
予測最適化	Predictive Optimization	テーブルの使用パターンを学習し、OPTIMIZE・VACUUM・統計収集を最適なタイミングで自動実行する機能

Unity Catalog 用語（15語）

Unity CatalogはDatabricksの統合ガバナンスレイヤーで、DEA・DEP試験で頻出します。 3レベル名前空間・アクセス制御・データリネージの概念を理解しましょう。

用語	英語名	定義
ユニティカタログ	Unity Catalog	データ・AI資産のアクセス制御・監査・リネージ・ディスカバリーを一元管理する統合ガバナンスソリューション
メタストア	Metastore	Unity Catalogの最上位コンテナ。リージョンごとに1つ作成され、カタログ→スキーマ→テーブルの階層を管理
カタログ	Catalog	3レベル名前空間（catalog.schema.table）の最上位。本番/開発環境の分離などに使用
スキーマ	Schema (Database)	3レベル名前空間の2番目。テーブル・ビュー・関数を論理グループ化する単位。SQLの「データベース」と同義
外部ロケーション	External Location	Unity Catalog管理下のクラウドストレージパス。S3やADLSへのアクセスをUnity Catalog経由で制御
ストレージ資格情報	Storage Credential	クラウドストレージへのアクセスに使用するIAMロールやサービスプリンシパル。外部ロケーションと紐付けて使用
マネージドテーブル	Managed Table	データとメタデータの両方をDatabricksが管理するテーブル。DROP TABLE実行時にデータも削除される
外部テーブル	External Table	メタデータのみUnity Catalogが管理し、データは外部ストレージに存在するテーブル。DROP TABLE実行時もデータは残る
データリネージ	Data Lineage	データの起源と変換履歴を自動追跡・可視化する機能。テーブル間の依存関係を自動記録し影響分析に活用
権限付与・剥奪	GRANT / REVOKE	GRANT SELECT ON TABLEでテーブル読み取り権限を付与。権限はカタログ→スキーマ→テーブルに継承される
ダイナミックビュー	Dynamic View	current_user()やis_member()でユーザーに応じた行・列フィルタリングを行うビュー。行列レベルの制御を実現
ボリューム	Volume	Unity Catalogで管理される非テーブル形式のファイルストレージ。画像・PDF・CSV等を格納。マネージド/外部の2種類
行フィルタ・列マスク	Row Filter / Column Mask	Row Filterで閲覧行を制限、Column Maskで列値をマスキング（例：メールの一部を****に置換）するアクセス制御
情報スキーマ	Information Schema	カタログ内のテーブル・列・権限などのメタデータをSQLで照会できるシステムスキーマ
デルタシェアリング	Delta Sharing	組織間でデータを物理コピーなしに安全に共有するオープンプロトコル。Databricks外の環境からもアクセス可能

Spark / PySpark 用語（15語）

Apache SparkはDatabricksの実行エンジンです。 Spark Developer試験では必須、DEA・MLA試験でも基本概念が問われます。

用語	英語名	定義
アパッチスパーク	Apache Spark	大規模データの分散処理エンジン。インメモリ処理でBatch・Streaming両方をサポートする統合フレームワーク
スパークセッション	SparkSession	Sparkアプリの起点。Databricksではspark変数として自動利用可能。DataFrame作成・SQL実行・設定管理を行う
データフレーム	DataFrame	名前付き列で構成される分散データセット。select/filter/groupBy/join等のAPI操作が可能なPySparkの主要データ構造
変換	Transformation	遅延評価される操作（select/filter/groupBy/join）。Actionが呼ばれるまで実行されない。NarrowとWideに分類
アクション	Action	計算を実行するトリガー操作（show/count/collect/write）。Actionが呼ばれると全Transformationが実行される
パーティション	Partition	データを分割する単位。Sparkはパーティション単位で並列処理する。repartition()とcoalesce()で数を変更
シャッフル	Shuffle	ワーカー間でデータを再配置する操作。groupBy/join/repartition等のWide Transformationで発生するボトルネック
カタリストオプティマイザ	Catalyst Optimizer	論理プラン→最適化論理プラン→物理プラン→コード生成の4段階でクエリを最適化する統合エンジン
適応型クエリ実行	Adaptive Query Execution (AQE)	実行時統計に基づきJoin戦略変更・パーティションコアレス・スキュー分割を動的に行うSpark 3.0+の最適化機能
ブロードキャストジョイン	Broadcast Join	小テーブルを全Executorにコピーしてシャッフルなしで結合する手法。broadcast()ヒントで明示的に指定可能
キャッシュ	Cache (persist)	DataFrameをメモリ/ディスクにキャッシュして再利用する機能。cache()はメモリのみ、persistでレベル指定可能
スパークSQL	Spark SQL	SQL構文でSparkデータを操作するモジュール。spark.sql()でクエリ実行し結果をDataFrameで取得
ウィンドウ関数	Window Functions	パーティションごとのランク付け・移動集計・累積計算を行う関数。ROW_NUMBER/RANK/LAG/LEADが代表的
ユーザー定義関数	UDF (User Defined Function)	ユーザー独自の関数。通常UDFはシリアライゼーションコストが高いため、Pandas UDF（ベクトル化UDF）を推奨
パンダスAPI	Pandas API on Spark	pyspark.pandas asでPandasコードをほぼそのまま分散処理できる互換レイヤー。Pandas UDFとは別のアプローチ

ML / MLflow 用語（15語）

ML Associate・ML Professional試験で頻出する機械学習とMLflowの用語です。

用語	英語名	定義
エムエルフロー	MLflow	MLライフサイクル管理のOSSプラットフォーム。Tracking・Models・Registry・Model Servingの4コンポーネント構成
実験	Experiment	関連するRunをグループ化する論理コンテナ。1プロジェクトに1 Experimentを作成し、異なるアプローチを比較
ラン	Run	1回のモデルトレーニングの記録。パラメータ・メトリクス・アーティファクト・タグを記録。mlflow.start_run()で開始
モデルレジストリ	Model Registry	トレーニング済みモデルのバージョン管理。Unity Catalog統合版ではChampion/Challengerエイリアスで管理
オートログ	Autolog	mlflow.autolog()で有効化する自動ログ記録。scikit-learn・TensorFlow・PyTorch対応。Databricksではデフォルト有効
フィーチャーストア	Feature Store	ML特徴量を管理・共有するリポジトリ。Unity Catalog配下のFeature Tableとして管理。オンライン/オフライン対応
オートエムエル	AutoML	データ指定だけで前処理・特徴量エンジニアリング・モデル選択・チューニングを自動実行。結果はMLflowに記録
ハイパーオプト	Hyperopt	ベイズ最適化（TPE）でハイパーパラメータを効率探索するライブラリ。SparkTrialsで分散実行可能
スパークMLlib	Spark MLlib	Sparkの分散MLライブラリ。Pipeline/Transformer/Estimatorの概念でML処理フローを構築
パイプライン	Pipeline (ML Pipeline)	TransformerとEstimatorを連結したワークフロー。pipeline.fit()で一括実行し、再現性と移植性を確保
モデルシグネチャ	Model Signature	MLflowモデルの入出力スキーマ定義。infer_signature()で自動推定。Model Servingの入力バリデーションに使用
モデルフレーバー	Model Flavor	MLflowのモデル保存フォーマット。sklearn/tensorflow/pytorch/pyfunc等。pyfuncは汎用フレーバー
レイクハウスモニタリング	Lakehouse Monitoring	テーブル統計のドリフト検出やMLモデルの予測パフォーマンス劣化を自動検出・アラートする機能
モデルサービング	Model Serving	Registry上のモデルをREST APIエンドポイントとしてデプロイ。サーバレスでスケール、A/Bテスト対応
パンダスUDF	Pandas UDF	Apache Arrowベースのベクトル化UDF。通常UDFよりシリアライゼーションコストが低く、高速に動作

Compute / Cluster 用語（10語）

Databricksのコンピュートリソースに関する用語です。全試験でクラスタの種類・設定・コスト管理が問われます。

用語	英語名	定義
クラスタ	Cluster	Sparkのコンピュートリソース単位。ドライバーノード+ワーカーノードで構成。オートスケーリング・オートターミネーション対応
ドライバーノード	Driver Node	SparkSessionを保持し、ジョブの計画・調整を行うノード。collect()の結果はドライバーのメモリに格納される
ワーカーノード	Worker Node	Executor（実行プロセス）が動作しTask単位でデータを並列処理するノード。ノード数でクラスタの処理能力が決まる
All-purposeクラスタ	All-purpose Cluster	対話型のノートブック開発用クラスタ。複数ユーザーが共有可能。コストはDBU+インフラ費用で課金
Jobクラスタ	Job Cluster	Workflowsのジョブ実行時に自動作成・終了後に自動削除されるクラスタ。All-purposeより30%程度安価
SQLウェアハウス	SQL Warehouse	Databricks SQLのコンピュートリソース。Serverless/Pro/Classicの3タイプ。Serverlessが起動最速・推奨
サーバレスコンピュート	Serverless Compute	インフラをDatabricksが完全管理するコンピュートモデル。起動・スケーリング・パッチ適用が自動化される
クラスタポリシー	Cluster Policy	管理者がクラスタ設定を制限・標準化するルール。インスタンスタイプ・最大ノード数・ランタイムを制御
共有クラスタ	Shared Cluster	複数ユーザーが同時使用できるクラスタ。一部機能（dbutils.credentials等）に制限あり
単一ユーザークラスタ	Single User Cluster	1ユーザー専用クラスタ。全機能が利用可能。Unity CatalogのTable ACLは共有・単一の両方で動作

ETL / Pipeline 用語（15語）

DEA・DEP試験で頻出するパイプライン構築・運用に関する用語です。

用語	英語名	定義
ワークフローズ	Databricks Workflows	タスクをDAG（有向非巡回グラフ）で定義し、スケジュール実行・依存管理・エラー制御を行うオーケストレーションサービス
オートローダー	Auto Loader (cloudFiles)	クラウドストレージの新規ファイルを自動検出して増分処理するStructured Streamingソース。スキーマ推論・進化対応
ストラクチャードストリーミング	Structured Streaming	バッチと同じDataFrame APIでストリーム処理するSparkエンジン。readStream/writeStreamで入出力。Exactly-once対応
ETL / ELT	ETL / ELT	ETLは変換後にロード、ELTはロード後に変換するパターン。Databricksはデータレイクハウスとしてeパターンを推奨
チェックポイント	Checkpoint	Structured Streamingの処理進捗を記録する仕組み。障害復旧とExactly-once保証に必要。checkpointLocationで指定
トリガー	Trigger	Streamingの実行タイミング制御。processingTime（定期）、availableNow（全データ処理して停止・推奨）等がある
緩やかに変化するディメンション	SCD (Slowly Changing Dimension)	ディメンションテーブルの変更履歴管理パターン。Type 1は上書き、Type 2は履歴保持。DLTのAPPLY CHANGES INTOで実装
コピーイントゥ	COPY INTO	クラウドストレージからDelta Lakeにデータをロードするべき等SQL文。同一ファイルの再ロードでも重複なし
データスキュー	Data Skew	特定キー値にデータが集中し、パーティション間の処理が不均等になる状態。AQEのスキュー分割やソルトキーで対策
べき等性	Idempotency	同じ処理を何回実行しても結果が同じになる性質。パイプラインの再実行時にデータ重複を防ぐために必要
マルチタスクジョブ	Multi-task Job	Workflowsで複数タスクを依存関係付きで実行する構成。タスク間パラメータ渡し（task values）・条件分岐・リトライ設定可能
アセットバンドル	Databricks Asset Bundle (DAB)	コード・設定・リソースをYAMLでパッケージングするCI/CDツール。環境間デプロイを自動化する
リポス	Repos (Git Integration)	Databricks上でGitリポジトリを直接操作する機能。GitHub/GitLab/Bitbucket対応。ノートブックのバージョン管理に使用
シークレット	Secret	APIキー・パスワード等の機密情報をSecret Scopeに安全に保管。dbutils.secrets.get(scope, key)で取得
ディービーユーティルス	dbutils	ノートブック内のユーティリティ群。ファイル操作(fs)・シークレット(secrets)・ウィジェット(widgets)・ノートブック制御(notebook)を提供

GenAI（生成AI）用語（10語）

GenAI Engineer Associate試験およびML Professional試験で出題される生成AI関連の用語です。

用語	英語名	定義
検索拡張生成	RAG (Retrieval-Augmented Generation)	外部知識ベースから情報を検索しLLMの回答を補強する手法。ハルシネーション抑制と最新情報への対応を実現
ベクトル検索	Vector Search	テキスト等をベクトル化し類似度検索を行うDatabricksのマネージドベクトルDB。RAGのレトリーバーとして使用
エンベディング	Embedding	テキスト・画像等を固定長数値ベクトルに変換する処理。意味的に類似したデータは近いベクトルにマッピング
基盤モデルAPI	Foundation Model API	外部LLM（GPT-4, Claude等）やOSSモデル（Llama, DBRX等）を統一APIで呼び出す機能。Model Serving経由で利用
プロンプトエンジニアリング	Prompt Engineering	LLMから望む出力を得るためのプロンプト最適化技術。Zero-shot/Few-shot/Chain-of-Thought等のテクニック
ファインチューニング	Fine-tuning	事前学習LLMを特定ドメイン向けに追加学習する手法。LoRA/QLoRAなどのパラメータ効率的な方法が試験範囲
ディービーアールエックス	DBRX	Databricks開発のOSS大規模言語モデル。MoE（Mixture of Experts）アーキテクチャで高性能と効率的推論を両立
チェーン	LLM Chain	複数のLLM呼び出しやツール使用を連鎖させるパターン。LangChain等で実装し、MLflowでログ記録・トレーシング可能
ガードレール	Guardrails	LLM出力を制御・フィルタリングする安全機構。有害コンテンツ防止や出力フォーマット制約をModel Servingに組込
トレーシング	MLflow Tracing	LLMアプリの実行フローを追跡・可視化する機能。RAGの各ステップのレイテンシ・入出力を記録しデバッグに活用

問題で確認

Databricks

問題 1

Delta Lakeの「VACUUM」コマンドについて正しい説明はどれですか？

トランザクションログのサイズを削減し、メタデータの読み取りパフォーマンスを向上させる
デフォルトで7日（168時間）以上古い不要なデータファイルを物理削除し、実行後はそれらのバージョンへのTime Travelが不可能になる
テーブルの統計情報を再計算し、Catalyst Optimizerの最適化精度を向上させる
小さなファイルを大きなファイルに統合し、読み取りパフォーマンスを最適化する

正解: B

VACUUMはDelta Lakeテーブルの不要な古いデータファイルを物理的に削除するコマンドです。デフォルトでは7日（168時間）以上経過したファイルが削除対象となり、VACUUM実行後はそれらの古いバージョンへのTime Travel（VERSION AS OF / TIMESTAMP AS OF）が不可能になります。選択肢Aのトランザクションログサイズの削減はVACUUMの機能ではなく、チェックポイント機構（10コミットごとのParquetファイル作成）が担います。選択肢CはANALYZE TABLE COMPUTE STATISTICSコマンドの説明です。選択肢DはOPTIMIZEコマンド（ファイルコンパクション）の説明です。VACUUMとOPTIMIZEの違いは頻出論点のため、確実に区別しておきましょう。

よくある質問（FAQ）

用語をどの順番で覚えるべきですか？

受験する試験によって優先度が異なります。Data Engineer Associate（DEA）ならDelta Lake・Unity Catalog・パイプライン関連用語を最優先で覚えましょう。ML AssociateならML・MLflow関連用語が最重要です。まず受験する試験のExam Guideを確認し、配点比率の高いドメインの用語から覚えるのが効率的です。

英語の技術用語は日本語で覚えるべきですか？

試験が日本語対応の場合でも、英語のまま覚えることをおすすめします。公式ドキュメントやエラーメッセージは英語であり、実務でも英語のまま使うことが大半です。日本語訳は理解の補助として使い、「Delta Lake」「Unity Catalog」「MLflow」等の固有名詞は英語のまま記憶しましょう。

用語集を暗記するだけで試験に合格できますか？

用語の暗記だけでは合格は難しいです。Databricks試験は概念の理解と応用力を問う問題が中心で、用語の定義を暗記しているだけでは解けない問題が多くあります。用語集は学習の土台として活用し、その上で公式ドキュメントの通読と問題集での反復練習を行うことが合格への近道です。

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

無料で問題を解いてみる

この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。

Databricks用語集｜試験に出る重要用語100選