Databricks Certified Generative AI Engineer Associate試験は、RAGパイプライン構築・LLMデプロイ・ガバナンスを含む生成AIエンジニアリングの実践力を問う資格です。 本記事では6つの出題ドメインの配点と頻出テーマ、RAGアーキテクチャの技術的詳細、LangChain統合、他資格との違い、そして学習ロードマップまでを網羅します。
Generative AI Engineer Associateは2024年に新設されたDatabricks認定資格で、生成AIアプリケーションの設計・実装・運用能力を評価します。 従来のML Associate/Professionalが古典的ML寄りであるのに対し、本試験はRAG・LLM・プロンプトエンジニアリングに特化しています。
| 項目 | 内容 |
|---|---|
| 問題数 | 45問(選択式) |
| 試験時間 | 90分 |
| 合格ライン | 70%(32問/45問) |
| 受験料 | $200(税別) |
| 言語 | 英語・日本語対応 |
| 有効期限 | 2年間 |
| 前提資格 | なし(独立した資格) |
| 推奨経験 | Databricksでの生成AIアプリ開発6ヶ月以上、Pythonプログラミング経験 |
出題は6ドメインに分かれ、RAG Solutionsが全体の30%と最大の比重を占めます。残り5ドメインは各15%または10%で、まんべんなく対策する必要があります。
| ドメイン | 配点 | 問題数目安 |
|---|---|---|
| 1. Design and Implement RAG Solutions | 30% | 約14問 |
| 2. Design and Implement Model Training | 15% | 約7問 |
| 3. Design and Implement Model Deployment | 15% | 約7問 |
| 4. Design and Implement Governance | 15% | 約7問 |
| 5. Design and Implement Evaluation | 15% | 約7問 |
| 6. Foundational Concepts | 10% | 約3問 |
RAG(Retrieval-Augmented Generation)は試験全体の30%を占める最重要テーマです。Databricks上でのRAGパイプラインは「データ準備→チャンキング→Embedding→Vector Store格納→検索→LLM呼び出し→回答生成」の流れで構成されます。
ドキュメントをLLMのコンテキストウィンドウに収まるサイズに分割する処理がチャンキングです。戦略の選択はRetrieval品質に直結します。
| 戦略 | 分割基準 | 適したユースケース |
|---|---|---|
| Fixed-size Chunking | 文字数・トークン数で固定長に分割 | 構造が均一なログデータ、FAQ集など。実装が簡単でオーバーヘッドが少ない |
| Semantic Chunking | Embeddingの類似度変化で意味的な区切りを検出 | 技術文書・論文など、段落の境界が意味的に重要な文書。精度は高いが計算コストも高い |
| Recursive Chunking | 段落→文→単語の順で再帰的に分割し、目標サイズに収める | LangChainのRecursiveCharacterTextSplitterで広く使用。汎用性が高くデフォルト選択として推奨 |
試験では「社内マニュアル1,000ページをRAGに取り込む際、最適なチャンキング戦略は?」のようなシナリオ問題が出ます。オーバーラップ(chunk_overlap)の設定がコンテキスト喪失を防ぐ役割を持つ点も頻出です。
チャンクをベクトル空間に変換するEmbeddingモデルの選択は、検索精度を左右します。Databricks上で利用可能な主要モデルは以下の通りです。
Databricksが提供するマネージドベクトル検索サービスで、2種類のインデックスタイプがあります。試験ではこの違いを正確に区別できることが求められます。
| 比較項目 | Delta Sync Index | Direct Vector Access Index |
|---|---|---|
| データソース | Delta Tableから自動同期 | REST APIで直接ベクトルを書き込み |
| Embedding計算 | Databricksが自動計算(Managed Embedding)または事前計算済みカラムを参照 | 外部で事前計算したベクトルを渡す |
| 同期頻度 | Delta Tableの変更を自動検知して差分同期(Continuous / Triggered) | APIコールごとに即座に反映 |
| 適したシナリオ | 社内文書検索など、Delta Tableにデータが蓄積されるバッチ型RAG | リアルタイム更新が必要なチャットボット、外部ベクトルDB移行時 |
| Unity Catalog統合 | テーブルレベルのACLを自動継承 | エンドポイントレベルでの権限設定が必要 |
Retrievalで取得したコンテキストをLLMに渡して回答を生成する際、Databricksでは2つの主要な呼び出し経路があります。
ai_query()SQL関数やOpenAI互換のREST APIで利用可能最大配点のドメインで、エンドツーエンドのRAGパイプライン構築能力が問われます。
LLMのFine-tuningとRAGの使い分け、パラメータ効率の良い学習手法が出題の中心です。
Model Servingの構成とGPUサービングの設計が主な出題範囲です。
生成AIアプリケーション特有のガバナンス要件に関する問題が出題されます。
LLMアプリケーションの品質評価手法が問われます。従来のMLメトリクスとは異なるLLM固有の評価方法を理解する必要があります。
mlflow.evaluate()にモデルと評価データセットを渡し、toxicity、relevance、faithfulness等のメトリクスを自動計算。結果はMLflow UIでExperiment横断比較が可能LLM・Transformer・生成AIの基礎概念が出題されます。配点は10%と少ないものの、他ドメインの理解の土台となるため軽視できません。
試験ではLangChainを使ったRAGチェーン構築のコードが頻出します。Databricks固有のコンポーネントとLangChainの統合ポイントを押さえてください。
ChatModelとして利用。ChatDatabricks(endpoint="databricks-dbrx-instruct")のように指定Retrieverとして接続。columnsパラメータで返却カラムを制御し、filtersでメタデータフィルタリングを実行Embeddingsインターフェースに準拠mlflow.langchain.log_model()でチェーン全体をMLflowアーティファクトとして記録。Model Servingへのデプロイ時にチェーンの依存関係が自動解決されるGenAI Engineer Associateは、ML Associate(MLA)やML Professional(MLP)と出題範囲が一部重複しますが、フォーカスが明確に異なります。
| 比較項目 | GenAI Engineer Associate | ML Associate | ML Professional |
|---|---|---|---|
| 主なフォーカス | RAG・LLM・生成AIアプリ | 古典的ML・MLflowワークフロー | MLOps・本番運用設計 |
| RAG / Vector Search | 30%(最重点) | 出題なし | 出題なし |
| MLflow | Evaluation中心 | Tracking / Registry中心 | CI/CD統合・Model Registry |
| Model Serving | LLM Serving・GPU Serving | 基本的なリアルタイム推論 | A/Bテスト・カナリアデプロイ |
| LangChain | チェーン構築・統合 | 出題なし | 出題なし |
| Fine-tuning | LoRA/QLoRA・LLM特化 | Hyperopt・AutoML | 分散学習・Feature Store |
| 難易度 | Associate(中級) | Associate(中級) | Professional(上級) |
MLA取得者がGenAI Engineerに進む場合、MLflow・Model Serving・Unity Catalogの知識はそのまま活用できます。追加学習が必要なのはRAGパイプライン、Vector Search、LangChain統合、LLM評価手法の4領域です。
生成AIの基礎知識がある前提で、1〜2ヶ月の学習計画を示します。平日1時間・週末2〜3時間の学習ペースを想定しています。
RAG Solutions
問題 1
ある企業が社内ナレッジベース(約10,000件のPDFドキュメント)をDatabricks上でRAGシステムとして構築しています。ドキュメントはDelta Tableに保存され、毎日新しいドキュメントが追加されます。検索品質を維持しながら運用コストを最小化したい場合、最適なVector Searchインデックスの構成はどれですか?
正解: B
Delta Tableにデータが蓄積される構成では、Delta Sync Indexが最適です。Managed Embeddingを選択すると、Databricksが自動的にEmbeddingを計算するため、Embeddingパイプラインの構築・管理が不要になります。Triggered sync modeは毎日の更新に対して差分同期を実行するため、Continuous modeよりもコンピュートコストを抑えられます。選択肢Aは毎日の手動API呼び出しが運用負荷となり、選択肢Cは常時同期のためコストが高くなります。選択肢Dは10,000件のドキュメントをコンテキストウィンドウに収めることが物理的に不可能です。
GenAI Engineer Associate試験にPythonのコーディング問題は出ますか?
選択式のみで、IDEでコードを実行する形式の問題はありません。ただしPythonコードの読解力は必須です。LangChainのチェーン構築、MLflow evaluate()のパラメータ指定、Foundation Model APIの呼び出しコードなど、コードスニペットを読んで正しい動作や修正点を選ぶ問題が頻出します。日頃からDatabricksノートブック上でRAGパイプラインを組む練習をしておくと、コード読解問題への対応力が格段に上がります。
ML Associate(MLA)を先に取るべきですか、それともGenAI Engineerから受けてよいですか?
GenAI Engineer Associateは独立した資格であり、MLAの取得は前提条件ではありません。ただしMLflowやModel Servingなど約30%の範囲がMLAと重複するため、MLA取得者は学習時間を短縮できます。生成AI領域の実務経験がある方はGenAI Engineerから直接受験しても十分合格可能です。逆に機械学習の基礎が不安な場合はMLAを先に取得すると、Training・Deployment・Evaluationドメインの理解がスムーズになります。
RAGドメイン(30%)を効率的に学習する方法は?
まずDatabricks公式のGenerative AI Engineer Learning Pathを完了し、次にMosaic AI Vector SearchのドキュメントでDelta Sync IndexとDirect Vector Access Indexの違いを押さえます。その後、LangChainとDatabricksの統合(ChatDatabricks、DatabricksVectorSearch Retriever)を実際にノートブックで動かし、最後にチャンキング戦略(Fixed-size、Semantic、Recursive)の使い分けを整理すると、RAGドメインの大部分をカバーできます。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Databricks資格一覧|全7試験・難易度・勉強法
Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...
Databricks試験の難易度ランキング|全7資格を徹底比較
Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...
Databricks資格の勉強方法|最短合格ルートと学習時間の目安
Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...
Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略
Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...
Databricks Data Engineer Professional完全解説|上級試験の攻略法
Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...