Databricks

Databricks用語集|試験に出る重要用語100選

2026-03-21
更新: 2026-03-27
NicheeLab編集部

Databricks認定試験では、Delta Lake・Unity Catalog・MLflow・Sparkなどの 専門用語が頻出します。用語の正確な理解は合格の基盤です。 この記事では、試験に出る重要用語を100個厳選して7カテゴリの一覧表で整理しています。学習の辞書としてお使いください。

Delta Lake 用語(20語)

Delta LakeはDatabricksのストレージレイヤーであり、全試験で最も出題頻度が高い分野です。 トランザクション管理・データ品質・パフォーマンス最適化の用語を押さえましょう。

用語英語名定義
デルタレイクDelta LakeParquetファイル上にACIDトランザクション・スキーマ管理・Time Travelを追加するオープンソースのストレージレイヤー。Databricksのデフォルトテーブルフォーマット
トランザクションログTransaction Log (_delta_log)テーブルへの全変更をJSONで記録するDelta Lakeの中核。10コミットごとにParquetチェックポイントが自動作成される
タイムトラベルTime TravelVERSION AS OFまたはTIMESTAMP AS OFで過去のテーブル状態を参照・復元する機能。デフォルト保持期間30日
オプティマイズOPTIMIZE小さなファイルを大きなファイルにコンパクション(統合)するコマンド。Z-ORDERと組み合わせてクエリ性能を向上させる
ZオーダーZ-ORDER指定列の値が近いデータを同じファイルに集約し、フィルタリングクエリのファイルスキップ率を向上させるデータ配置最適化
リキッドクラスタリングLiquid ClusteringZ-ORDERの進化版。CLUSTER BY句で指定し、書き込み時に自動クラスタリングが適用される。手動OPTIMIZEが不要
バキュームVACUUM不要な古いデータファイルを物理削除するコマンド。デフォルト7日以上古いファイルを削除。実行後はその期間のTime Travel不可
スキーマ進化Schema EvolutionmergeSchema=trueオプションで新しい列を自動追加する機能。既存データにはnullが入る
スキーマ強制Schema Enforcementテーブルスキーマに合わないデータの書き込みを拒否する機能。Delta Lakeではデフォルト有効
マージMERGE INTOソースとターゲットを結合条件で照合し、一致すれば更新/削除、不一致なら挿入を行うUpsert操作。SCD実装にも使用
変更データフィードChange Data Feed (CDF)テーブルへのINSERT/UPDATE/DELETEを変更データとして読み取る機能。増分処理パイプラインの構築に使用
メダリオンアーキテクチャMedallion ArchitectureBronze(生データ)→Silver(クレンジング済み)→Gold(集計・分析用)の3層でデータ品質を段階的に向上させる設計パターン
デルタライブテーブルズDelta Live Tables (DLT)宣言的なパイプライン定義フレームワーク。@dlt.tableデコレータで変換を定義し、依存解決・品質チェックを自動化
エクスペクテーションExpectationsDLTのデータ品質制約。@dlt.expect(警告)、@dlt.expect_or_drop(削除)、@dlt.expect_or_fail(停止)の3種類
フォトンPhotonC++実装のベクトル化クエリエンジン。Sparkの標準エンジンと比較して最大12倍のパフォーマンス向上
デルタクローンDelta Cloneテーブルのコピーを作成する機能。SHALLOW CLONE(メタデータのみコピー)とDEEP CLONE(データも完全コピー)の2種類
制約Delta ConstraintsCHECK制約(条件式を満たさない行の挿入を拒否)とNOT NULL制約(null値を拒否)でデータ品質を保証
マテリアライズドビューMaterialized Viewクエリ結果を物理保存するビュー。アクセス時に再計算されず、事前計算された結果が返されるため高速
ストリーミングテーブルStreaming TableDLTで定義されるAppend-onlyのテーブル。spark.readStreamで増分データを処理する
予測最適化Predictive Optimizationテーブルの使用パターンを学習し、OPTIMIZE・VACUUM・統計収集を最適なタイミングで自動実行する機能

Unity Catalog 用語(15語)

Unity CatalogはDatabricksの統合ガバナンスレイヤーで、DEA・DEP試験で頻出します。 3レベル名前空間・アクセス制御・データリネージの概念を理解しましょう。

用語英語名定義
ユニティカタログUnity Catalogデータ・AI資産のアクセス制御・監査・リネージ・ディスカバリーを一元管理する統合ガバナンスソリューション
メタストアMetastoreUnity Catalogの最上位コンテナ。リージョンごとに1つ作成され、カタログ→スキーマ→テーブルの階層を管理
カタログCatalog3レベル名前空間(catalog.schema.table)の最上位。本番/開発環境の分離などに使用
スキーマSchema (Database)3レベル名前空間の2番目。テーブル・ビュー・関数を論理グループ化する単位。SQLの「データベース」と同義
外部ロケーションExternal LocationUnity Catalog管理下のクラウドストレージパス。S3やADLSへのアクセスをUnity Catalog経由で制御
ストレージ資格情報Storage Credentialクラウドストレージへのアクセスに使用するIAMロールやサービスプリンシパル。外部ロケーションと紐付けて使用
マネージドテーブルManaged Tableデータとメタデータの両方をDatabricksが管理するテーブル。DROP TABLE実行時にデータも削除される
外部テーブルExternal TableメタデータのみUnity Catalogが管理し、データは外部ストレージに存在するテーブル。DROP TABLE実行時もデータは残る
データリネージData Lineageデータの起源と変換履歴を自動追跡・可視化する機能。テーブル間の依存関係を自動記録し影響分析に活用
権限付与・剥奪GRANT / REVOKEGRANT SELECT ON TABLEでテーブル読み取り権限を付与。権限はカタログ→スキーマ→テーブルに継承される
ダイナミックビューDynamic Viewcurrent_user()やis_member()でユーザーに応じた行・列フィルタリングを行うビュー。行列レベルの制御を実現
ボリュームVolumeUnity Catalogで管理される非テーブル形式のファイルストレージ。画像・PDF・CSV等を格納。マネージド/外部の2種類
行フィルタ・列マスクRow Filter / Column MaskRow Filterで閲覧行を制限、Column Maskで列値をマスキング(例:メールの一部を****に置換)するアクセス制御
情報スキーマInformation Schemaカタログ内のテーブル・列・権限などのメタデータをSQLで照会できるシステムスキーマ
デルタシェアリングDelta Sharing組織間でデータを物理コピーなしに安全に共有するオープンプロトコル。Databricks外の環境からもアクセス可能

Spark / PySpark 用語(15語)

Apache SparkはDatabricksの実行エンジンです。 Spark Developer試験では必須、DEA・MLA試験でも基本概念が問われます。

用語英語名定義
アパッチスパークApache Spark大規模データの分散処理エンジン。インメモリ処理でBatch・Streaming両方をサポートする統合フレームワーク
スパークセッションSparkSessionSparkアプリの起点。Databricksではspark変数として自動利用可能。DataFrame作成・SQL実行・設定管理を行う
データフレームDataFrame名前付き列で構成される分散データセット。select/filter/groupBy/join等のAPI操作が可能なPySparkの主要データ構造
変換Transformation遅延評価される操作(select/filter/groupBy/join)。Actionが呼ばれるまで実行されない。NarrowとWideに分類
アクションAction計算を実行するトリガー操作(show/count/collect/write)。Actionが呼ばれると全Transformationが実行される
パーティションPartitionデータを分割する単位。Sparkはパーティション単位で並列処理する。repartition()とcoalesce()で数を変更
シャッフルShuffleワーカー間でデータを再配置する操作。groupBy/join/repartition等のWide Transformationで発生するボトルネック
カタリストオプティマイザCatalyst Optimizer論理プラン→最適化論理プラン→物理プラン→コード生成の4段階でクエリを最適化する統合エンジン
適応型クエリ実行Adaptive Query Execution (AQE)実行時統計に基づきJoin戦略変更・パーティションコアレス・スキュー分割を動的に行うSpark 3.0+の最適化機能
ブロードキャストジョインBroadcast Join小テーブルを全Executorにコピーしてシャッフルなしで結合する手法。broadcast()ヒントで明示的に指定可能
キャッシュCache (persist)DataFrameをメモリ/ディスクにキャッシュして再利用する機能。cache()はメモリのみ、persistでレベル指定可能
スパークSQLSpark SQLSQL構文でSparkデータを操作するモジュール。spark.sql()でクエリ実行し結果をDataFrameで取得
ウィンドウ関数Window Functionsパーティションごとのランク付け・移動集計・累積計算を行う関数。ROW_NUMBER/RANK/LAG/LEADが代表的
ユーザー定義関数UDF (User Defined Function)ユーザー独自の関数。通常UDFはシリアライゼーションコストが高いため、Pandas UDF(ベクトル化UDF)を推奨
パンダスAPIPandas API on Sparkpyspark.pandas asでPandasコードをほぼそのまま分散処理できる互換レイヤー。Pandas UDFとは別のアプローチ

ML / MLflow 用語(15語)

ML Associate・ML Professional試験で頻出する機械学習とMLflowの用語です。

用語英語名定義
エムエルフローMLflowMLライフサイクル管理のOSSプラットフォーム。Tracking・Models・Registry・Model Servingの4コンポーネント構成
実験Experiment関連するRunをグループ化する論理コンテナ。1プロジェクトに1 Experimentを作成し、異なるアプローチを比較
ランRun1回のモデルトレーニングの記録。パラメータ・メトリクス・アーティファクト・タグを記録。mlflow.start_run()で開始
モデルレジストリModel Registryトレーニング済みモデルのバージョン管理。Unity Catalog統合版ではChampion/Challengerエイリアスで管理
オートログAutologmlflow.autolog()で有効化する自動ログ記録。scikit-learn・TensorFlow・PyTorch対応。Databricksではデフォルト有効
フィーチャーストアFeature StoreML特徴量を管理・共有するリポジトリ。Unity Catalog配下のFeature Tableとして管理。オンライン/オフライン対応
オートエムエルAutoMLデータ指定だけで前処理・特徴量エンジニアリング・モデル選択・チューニングを自動実行。結果はMLflowに記録
ハイパーオプトHyperoptベイズ最適化(TPE)でハイパーパラメータを効率探索するライブラリ。SparkTrialsで分散実行可能
スパークMLlibSpark MLlibSparkの分散MLライブラリ。Pipeline/Transformer/Estimatorの概念でML処理フローを構築
パイプラインPipeline (ML Pipeline)TransformerとEstimatorを連結したワークフロー。pipeline.fit()で一括実行し、再現性と移植性を確保
モデルシグネチャModel SignatureMLflowモデルの入出力スキーマ定義。infer_signature()で自動推定。Model Servingの入力バリデーションに使用
モデルフレーバーModel FlavorMLflowのモデル保存フォーマット。sklearn/tensorflow/pytorch/pyfunc等。pyfuncは汎用フレーバー
レイクハウスモニタリングLakehouse Monitoringテーブル統計のドリフト検出やMLモデルの予測パフォーマンス劣化を自動検出・アラートする機能
モデルサービングModel ServingRegistry上のモデルをREST APIエンドポイントとしてデプロイ。サーバレスでスケール、A/Bテスト対応
パンダスUDFPandas UDFApache Arrowベースのベクトル化UDF。通常UDFよりシリアライゼーションコストが低く、高速に動作

Compute / Cluster 用語(10語)

Databricksのコンピュートリソースに関する用語です。 全試験でクラスタの種類・設定・コスト管理が問われます。

用語英語名定義
クラスタClusterSparkのコンピュートリソース単位。ドライバーノード+ワーカーノードで構成。オートスケーリング・オートターミネーション対応
ドライバーノードDriver NodeSparkSessionを保持し、ジョブの計画・調整を行うノード。collect()の結果はドライバーのメモリに格納される
ワーカーノードWorker NodeExecutor(実行プロセス)が動作しTask単位でデータを並列処理するノード。ノード数でクラスタの処理能力が決まる
All-purposeクラスタAll-purpose Cluster対話型のノートブック開発用クラスタ。複数ユーザーが共有可能。コストはDBU+インフラ費用で課金
JobクラスタJob ClusterWorkflowsのジョブ実行時に自動作成・終了後に自動削除されるクラスタ。All-purposeより30%程度安価
SQLウェアハウスSQL WarehouseDatabricks SQLのコンピュートリソース。Serverless/Pro/Classicの3タイプ。Serverlessが起動最速・推奨
サーバレスコンピュートServerless ComputeインフラをDatabricksが完全管理するコンピュートモデル。起動・スケーリング・パッチ適用が自動化される
クラスタポリシーCluster Policy管理者がクラスタ設定を制限・標準化するルール。インスタンスタイプ・最大ノード数・ランタイムを制御
共有クラスタShared Cluster複数ユーザーが同時使用できるクラスタ。一部機能(dbutils.credentials等)に制限あり
単一ユーザークラスタSingle User Cluster1ユーザー専用クラスタ。全機能が利用可能。Unity CatalogのTable ACLは共有・単一の両方で動作

ETL / Pipeline 用語(15語)

DEA・DEP試験で頻出するパイプライン構築・運用に関する用語です。

用語英語名定義
ワークフローズDatabricks WorkflowsタスクをDAG(有向非巡回グラフ)で定義し、スケジュール実行・依存管理・エラー制御を行うオーケストレーションサービス
オートローダーAuto Loader (cloudFiles)クラウドストレージの新規ファイルを自動検出して増分処理するStructured Streamingソース。スキーマ推論・進化対応
ストラクチャードストリーミングStructured Streamingバッチと同じDataFrame APIでストリーム処理するSparkエンジン。readStream/writeStreamで入出力。Exactly-once対応
ETL / ELTETL / ELTETLは変換後にロード、ELTはロード後に変換するパターン。Databricksはデータレイクハウスとしてeパターンを推奨
チェックポイントCheckpointStructured Streamingの処理進捗を記録する仕組み。障害復旧とExactly-once保証に必要。checkpointLocationで指定
トリガーTriggerStreamingの実行タイミング制御。processingTime(定期)、availableNow(全データ処理して停止・推奨)等がある
緩やかに変化するディメンションSCD (Slowly Changing Dimension)ディメンションテーブルの変更履歴管理パターン。Type 1は上書き、Type 2は履歴保持。DLTのAPPLY CHANGES INTOで実装
コピーイントゥCOPY INTOクラウドストレージからDelta Lakeにデータをロードするべき等SQL文。同一ファイルの再ロードでも重複なし
データスキューData Skew特定キー値にデータが集中し、パーティション間の処理が不均等になる状態。AQEのスキュー分割やソルトキーで対策
べき等性Idempotency同じ処理を何回実行しても結果が同じになる性質。パイプラインの再実行時にデータ重複を防ぐために必要
マルチタスクジョブMulti-task JobWorkflowsで複数タスクを依存関係付きで実行する構成。タスク間パラメータ渡し(task values)・条件分岐・リトライ設定可能
アセットバンドルDatabricks Asset Bundle (DAB)コード・設定・リソースをYAMLでパッケージングするCI/CDツール。環境間デプロイを自動化する
リポスRepos (Git Integration)Databricks上でGitリポジトリを直接操作する機能。GitHub/GitLab/Bitbucket対応。ノートブックのバージョン管理に使用
シークレットSecretAPIキー・パスワード等の機密情報をSecret Scopeに安全に保管。dbutils.secrets.get(scope, key)で取得
ディービーユーティルスdbutilsノートブック内のユーティリティ群。ファイル操作(fs)・シークレット(secrets)・ウィジェット(widgets)・ノートブック制御(notebook)を提供

GenAI(生成AI)用語(10語)

GenAI Engineer Associate試験およびML Professional試験で出題される 生成AI関連の用語です。

用語英語名定義
検索拡張生成RAG (Retrieval-Augmented Generation)外部知識ベースから情報を検索しLLMの回答を補強する手法。ハルシネーション抑制と最新情報への対応を実現
ベクトル検索Vector Searchテキスト等をベクトル化し類似度検索を行うDatabricksのマネージドベクトルDB。RAGのレトリーバーとして使用
エンベディングEmbeddingテキスト・画像等を固定長数値ベクトルに変換する処理。意味的に類似したデータは近いベクトルにマッピング
基盤モデルAPIFoundation Model API外部LLM(GPT-4, Claude等)やOSSモデル(Llama, DBRX等)を統一APIで呼び出す機能。Model Serving経由で利用
プロンプトエンジニアリングPrompt EngineeringLLMから望む出力を得るためのプロンプト最適化技術。Zero-shot/Few-shot/Chain-of-Thought等のテクニック
ファインチューニングFine-tuning事前学習LLMを特定ドメイン向けに追加学習する手法。LoRA/QLoRAなどのパラメータ効率的な方法が試験範囲
ディービーアールエックスDBRXDatabricks開発のOSS大規模言語モデル。MoE(Mixture of Experts)アーキテクチャで高性能と効率的推論を両立
チェーンLLM Chain複数のLLM呼び出しやツール使用を連鎖させるパターン。LangChain等で実装し、MLflowでログ記録・トレーシング可能
ガードレールGuardrailsLLM出力を制御・フィルタリングする安全機構。有害コンテンツ防止や出力フォーマット制約をModel Servingに組込
トレーシングMLflow TracingLLMアプリの実行フローを追跡・可視化する機能。RAGの各ステップのレイテンシ・入出力を記録しデバッグに活用

問題で確認

Databricks

問題 1

Delta Lakeの「VACUUM」コマンドについて正しい説明はどれですか?

  1. トランザクションログのサイズを削減し、メタデータの読み取りパフォーマンスを向上させる
  2. デフォルトで7日(168時間)以上古い不要なデータファイルを物理削除し、実行後はそれらのバージョンへのTime Travelが不可能になる
  3. テーブルの統計情報を再計算し、Catalyst Optimizerの最適化精度を向上させる
  4. 小さなファイルを大きなファイルに統合し、読み取りパフォーマンスを最適化する

正解: B

VACUUMはDelta Lakeテーブルの不要な古いデータファイルを物理的に削除するコマンドです。デフォルトでは7日(168時間)以上経過したファイルが削除対象となり、VACUUM実行後はそれらの古いバージョンへのTime Travel(VERSION AS OF / TIMESTAMP AS OF)が不可能になります。選択肢Aのトランザクションログサイズの削減はVACUUMの機能ではなく、チェックポイント機構(10コミットごとのParquetファイル作成)が担います。選択肢CはANALYZE TABLE COMPUTE STATISTICSコマンドの説明です。選択肢DはOPTIMIZEコマンド(ファイルコンパクション)の説明です。VACUUMとOPTIMIZEの違いは頻出論点のため、確実に区別しておきましょう。

よくある質問(FAQ)

用語をどの順番で覚えるべきですか?

受験する試験によって優先度が異なります。Data Engineer Associate(DEA)ならDelta Lake・Unity Catalog・パイプライン関連用語を最優先で覚えましょう。ML AssociateならML・MLflow関連用語が最重要です。まず受験する試験のExam Guideを確認し、配点比率の高いドメインの用語から覚えるのが効率的です。

英語の技術用語は日本語で覚えるべきですか?

試験が日本語対応の場合でも、英語のまま覚えることをおすすめします。公式ドキュメントやエラーメッセージは英語であり、実務でも英語のまま使うことが大半です。日本語訳は理解の補助として使い、「Delta Lake」「Unity Catalog」「MLflow」等の固有名詞は英語のまま記憶しましょう。

用語集を暗記するだけで試験に合格できますか?

用語の暗記だけでは合格は難しいです。Databricks試験は概念の理解と応用力を問う問題が中心で、用語の定義を暗記しているだけでは解けない問題が多くあります。用語集は学習の土台として活用し、その上で公式ドキュメントの通読と問題集での反復練習を行うことが合格への近道です。

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

無料で問題を解いてみる
この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。


関連記事
Databricks

Databricks資格一覧|全7試験・難易度・勉強法

Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...

Databricks

Databricks試験の難易度ランキング|全7資格を徹底比較

Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...

Databricks

Databricks資格の勉強方法|最短合格ルートと学習時間の目安

Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...

Databricks

Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略

Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...

Databricks

Databricks Data Engineer Professional完全解説|上級試験の攻略法

Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...

Databricksの記事一覧 (109件)
© 2026 NicheeLab All rights reserved.