Databricks

Genie Code と Genie Space — 自然言語でデータと話す

2026-05-30
NicheeLab Databricks編集部

Genie は Databricks が 2026 年に発表した自然言語 AI 機能群で、Genie Code(開発者向けコーディングアシスタント)とGenie Space(ビジネスユーザー向け対話インターフェース)の 2 つの製品ラインに分かれています。 どちらも「自然言語で Databricks と対話する」ことを目的としていますが、ターゲットユーザーと使い方が大きく異なります。

本記事では、両者の違い・セットアップ手順・日本語対応・GitHub Copilot との比較・料金・本番運用のベストプラクティスを完全解説します。

Genie とは — 2 製品ラインの全体像

Databricks の「Genie」ブランドには現在 2 つの製品があります。利用者層と用途が違うので最初に整理しておきましょう。

Genie Space (ビジネスユーザー向け)

営業・マーケ・経営層など、SQL を書かないビジネスユーザーが、自然言語でデータに質問するチャットインターフェース。 データアナリストが事前にスペースをキュレーションし、業務担当者が日本語で「先月の売上トップ 10 商品は?」と聞けば、 AI が裏側で SQL を生成して結果を返します。

Genie Code (開発者向け)

データエンジニア・データサイエンティスト向けの AI コーディングアシスタント。 自然言語の指示から PySpark / SQL / Python のパイプラインコード、Delta Lake 操作、Lakeflow Job 定義を生成。 AI が下書きを作り、エンジニアがレビュー・修正・本番投入する協働モデルです。

どちらを使うべきか

  • SQL を書かないビジネスユーザー: Genie Space 一択
  • データエンジニアの生産性を上げたい: Genie Code
  • 両方の組み合わせ: アナリストが Genie Code でダッシュボード作成、それに付随する Genie Space で業務担当者がセルフサーブ分析

Genie Space の仕組みと使い方

Genie Space の動作原理

Genie Space は、Unity Catalog に登録されたテーブルのメタデータ(テーブル説明、カラム説明、コメント)と、 スペース作成者が事前に登録したサンプル SQL クエリ、SQL 式(業務用語の定義)、テキスト指示を組み合わせて、 ユーザーの自然言語質問を SQL に変換します。

典型的なフロー:

  1. ユーザーが日本語で質問 (例: 「先月の売上が一番高かった商品は?」)
  2. Genie が Unity Catalog のスキーマとサンプル SQL を参照して SQL クエリを生成
  3. クエリを実行して結果テーブルを返す
  4. 必要に応じて可視化 (棒グラフ・折れ線等)
  5. ユーザーが追加質問 (フォローアップで深掘り)

セットアップ手順

Genie Space を立ち上げる典型的な手順は以下の通り。

  1. 「Create Genie Space」を選択: Workspace のサイドバーから新規作成
  2. データソースを選択: Unity Catalog から対象テーブルを 1〜10 個程度選定
  3. テーブル / カラムの説明を充実させる: 「sales テーブルは日次の商品売上を格納」「region は国名コード (JP/US/EU)」など、AI が理解できる粒度で
  4. サンプル SQL を 5〜10 個登録: 「商品別売上トップ 10」「月次集計」「前年比成長率」などの典型クエリを事前に書いて見せる
  5. ビジネス用語の SQL 式を定義: 「アクティブユーザー = 直近 30 日にログイン」のような業務語彙を SQL に翻訳
  6. テキスト指示を追加: 「日付フィルタは常に JST」「null は除外」などの注意事項
  7. Knowledge Store: 製品マスタ・組織図など補足ドキュメントを登録 (任意)
  8. テストユーザーで検証: 数名のアナリストが想定質問を投げて回答品質を確認
  9. 本番公開: 業務ユーザーグループに共有

精度を上げるための 5 つのコツ

  1. サンプル SQL を最低 10 個登録: AI が「このスペースで使われる典型パターン」を学習
  2. カラムコメントを充実: 命名が技術的でも、コメントで業務語彙を補足
  3. 業務用語の SQL 式を定義: 「リピート顧客 = 過去 1 年に 2 回以上購入」を明示
  4. テーブル数を絞る: 関連性の低いテーブルを混ぜると AI が混乱、5〜10 個に絞る
  5. 定期的にフィードバック: 不正確な回答にユーザーが「Bad」を付ければスペース作成者が改善できる

日本語対応の実態

Genie は英語以外の言語でも使用可能ですが、内部のエージェントフレームワークは英語でプロンプトを構築します。 日本語の質問は内部で英語に翻訳されてから処理され、回答も英語生成→日本語翻訳のフローを取ります。

この設計上、以下の挙動が観察されます。

  • シンプルな質問の精度は高い: 「先月の売上は?」のような単純な質問は問題なし
  • 業務用語の翻訳に注意: 「リピート率」「LTV」「定着率」など業界固有用語は SQL 式で明示登録すべき
  • カラム名の英日混在に弱い: テーブル名 / カラム名は英語、コメントだけ日本語が最も安定
  • サンプル SQL は日本語コメント付き英語 SQL が最適

Databricks 公式は「スペース作成者がメタデータをできるだけ自分の言語で書くこと」を推奨。 日本企業での実用化では、英日両併記 + サンプル SQL 多数登録が現実的なベストプラクティスです。

Genie Code の特徴と使い方

Genie Code が生成できるもの

Genie Code は Databricks プラットフォーム特化の AI コーディングアシスタントとして、以下を生成できます。

  • PySpark / SQL データパイプライン: Bronze → Silver → Gold のメダリオン構造
  • Delta Lake 操作: MERGE INTO、OPTIMIZE、VACUUM、Z-Order の最適化
  • Unity Catalog テーブル定義: コメント・タグ・パーティションを含む完全な DDL
  • Lakeflow Job のスケジュール定義: cron 表記とリトライ戦略を含む
  • AI/BI ダッシュボードの可視化: グラフ種別と軸の自動選定
  • エラーハンドリング: try / except、リカバリ戦略、Dead Letter キュー
  • テストコード: pytest 形式の単体テスト

Genie Code の優位性 — Databricks 特化の意味

汎用コーディングアシスタント (Copilot, Cursor) との決定的な違いは、Databricks 環境の文脈を理解している点です。

  • Unity Catalog のメタデータを参照: 既存テーブルのスキーマ・コメント・タグを認識
  • Workspace の Notebook 文脈を理解: 同じ Notebook 内の変数・関数を継承
  • Databricks ベストプラクティスを反映: Photon 最適化、Auto Loader、DLT の使い分け
  • 環境依存の細部を補完: cluster 設定、ライブラリバージョン、認証方式

典型的なワークフロー

  1. Notebook で自然言語で指示: 「`/sales/raw` の Parquet ファイルを Auto Loader で取り込んで Bronze に書く」
  2. Genie Code が PySpark コードを生成 + 推奨 Cluster 設定を表示
  3. エンジニアがレビュー、必要に応じて修正
  4. セルを実行、結果を確認
  5. 次の指示: 「Silver にスキーマ正規化して書き出す」
  6. これを繰り返してパイプライン完成

GitHub Copilot / Cursor との徹底比較

汎用コーディングアシスタントと Genie Code は、それぞれ得意領域が違います。

GitHub Copilot / Cursor の優位

  • 多言語対応 (JavaScript、Go、Rust、TypeScript ほか)
  • IDE 統合 (VSCode、JetBrains)
  • OSS / 一般 SaaS の知識
  • 個人開発者でも使える低価格 (¥2,000-3,000/月)

Genie Code の優位

  • Databricks プラットフォーム特化 (Unity Catalog / Delta / DLT / Lakeflow)
  • 既存テーブル・パイプライン文脈の理解
  • 本番品質のエラーハンドリング・テスト自動生成
  • Databricks ベストプラクティスの反映

使い分け方針

Databricks 上のデータパイプライン開発は Genie Code、 汎用アプリ開発・フロントエンド・他クラウドコードは Copilot / Cursor。 多くのデータエンジニアは両方を併用しています。

料金 — 質問数の上限はあるか

Genie Space 自体に追加ライセンス費用はありません。 実行された SQL クエリの DBU 消費分のみが課金対象で、AI 推論部分はプラットフォームコストに含まれます。

ビジネスユーザーが大量に質問しても、課金はクエリ DBU だけが線形に増加する設計のため、料金予測がしやすい。 ただし、複雑な分析クエリが多発する場合は SQL Warehouse のサイジングが重要になります。

本番運用のベストプラクティス

Genie Space

  • スペースは部署別・業務別に分割 (営業用、マーケ用、経営層用)
  • テーブル数は 5〜10 個に絞る
  • サンプル SQL 最低 10 個 + 業務用語の SQL 式
  • 定期レビュー: 「Bad」フィードバックを集めて改善
  • SQL Warehouse はサーバレスを推奨 (起動時間ゼロ)

Genie Code

  • 生成コードは必ずレビュー・テスト後に本番投入
  • Unity Catalog の正確なメタデータ整備が前提
  • 新人エンジニアの学習補助としても有効
  • 過度に複雑なロジックは AI に丸投げせず、設計はエンジニアが主導

認定試験での出題予想

2026 年 5 月時点で、Databricks 認定試験の公式 Exam Guide に Genie の出題明示はありません。 ただし以下から、2026 年後半〜 2027 年に出題対象になる可能性が高いです。

  • Databricks 自身が AI/BI 領域の中核として推進中
  • GenAI Engineer Associate で「自然言語インターフェース」の概念が既に範囲入り
  • Data Analyst Associate の改定で AI/BI / Genie Space が追加される可能性

先取り学習のおすすめトピック:

  • Genie Space と Genie Code の使い分け
  • Genie Space のメタデータ設計とサンプル SQL 登録のコツ
  • Unity Catalog との連動
  • Genie Code が生成するコードの品質保証

よくある質問

Genie Code とは何ですか?

Genie Code は Databricks が 2026 年に発表した AI コーディングアシスタントで、自然言語の指示から本番品質のデータパイプライン、SQL、Python コードを生成します。従来は数週間かかったデータエンジニアリングのタスクが数時間で完了できるとされ、Databricks のエージェント型データエンジニアリングを推進する中核機能です。

Genie Code と Genie Space の違いは?

Genie Space は『ビジネスユーザーが自然言語で社内データに質問する』ためのチャットインターフェース。データアナリストが事前にデータセットとサンプル SQL を登録し、業務担当者が日本語で質問すれば、AI が SQL を生成して結果を返します。一方 Genie Code は『開発者向けの AI コーディングアシスタント』で、データエンジニアがパイプラインや変換コードを書くのを支援します。利用者層と目的が異なります。

Genie Space は日本語で使えますか?

Genie は英語以外の言語でも使用可能ですが、内部のエージェントフレームワークは英語でプロンプトを構築します。Databricks は『Space 作成者がメタデータをできるだけ自分の言語で記述すること』を推奨。日本語でテーブル説明・カラム説明・サンプルクエリを登録すれば、日本語の質問にも実用レベルで応答できます。ただし精度を最大化するには英語メタデータ併記が有効です。

Genie Space のセットアップ手順は?

(1) Workspace で『Create Genie Space』を選択 (2) Unity Catalog から対象テーブルを選択 (3) サンプル SQL クエリ・カラム説明・業務用語の説明を登録 (4) Knowledge Store (補足ドキュメント) を必要に応じて追加 (5) テストユーザーに共有して回答精度を検証 (6) 本番ユーザーに公開。最低 5〜10 個のサンプル SQL を登録すると精度が大きく向上します。

Genie はどの程度の質問に答えられますか?

適切にチューニングされた Genie Space は『先月の売上トップ 10 商品は?』『地域別の前年比成長率を教えて』『ある顧客の累計購入額を計算』といった、構造化された分析クエリは高精度で回答可能。一方、複雑な結合や時系列分析、非構造化データの解釈は苦手で、サンプル SQL の事前登録量が回答精度を決定づけます。

Genie Code でどのようなコードが生成できますか?

PySpark / SQL / Python のデータパイプライン、Delta Lake 操作、Unity Catalog テーブル定義、AI/BI ダッシュボードの可視化、Lakeflow Job のスケジュール定義、エラーハンドリングを含む本番品質のコード。生成されたコードはレビュー・修正・バージョン管理が可能で、Databricks の既存パイプラインに統合できます。AI が下書きを作り、エンジニアが磨く協働モデルです。

Genie Code と GitHub Copilot / Cursor の違いは?

Copilot / Cursor は汎用コーディングアシスタント。Genie Code は『Databricks プラットフォーム特化』で、Unity Catalog のメタデータ、既存の Delta テーブルスキーマ、Workspace の Notebook 文脈を理解した上でコード生成します。Databricks 特有のベストプラクティス (Auto Loader、DLT、Photon 最適化等) も反映されるため、Databricks 環境では精度・整合性で優位です。

Genie Space を使うのに追加料金は?

Genie Space 自体に追加ライセンスはありません。実行された SQL クエリの DBU 消費分のみが課金対象。質問・回答の AI 処理は Databricks プラットフォームのコストに含まれます。ビジネスユーザーが大量に質問してもクエリ DBU だけが線形に増加するため、料金予測がしやすい設計です。

Databricks 試験対策、今すぐ始める

全7資格対応・6,800問以上の問題集で本番形式の演習

無料で問題を解く →

あわせて読みたい — Databricks 新機能・関連トピック

Lakebase 完全ガイド

サーバレス Postgres

Lakeflow Designer 完全ガイド

ノーコード ETL

Lakeflow Connect Free Tier 完全ガイド

無料で 1 日 1 億レコード取り込み

Databricks SQL 完全ガイド

BI と分析

Unity Catalog 完全ガイド

ガバナンスの基盤

GenAI Engineer Associate 完全解説

GenAI 認定の出題範囲

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

Databricks 問題集で実力チェック
この記事の著者

NicheeLab Databricks編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。


関連記事
Databricks

Databricks資格一覧|全7試験・難易度・勉強法

Databricks認定資格全7試験の一覧・難易度・出題範囲・合格ラインを徹底解説。2026年最新版の公式試験ガイドに準...

Databricks

Databricks試験の難易度ランキング|全7資格を徹底比較

Databricks認定全7試験の難易度をランキング形式で徹底比較。合格率・学習時間・出題傾向から難易度を分析。...

Databricks

Databricks資格の勉強方法|最短合格ルートと学習時間の目安

Databricks認定資格に最短で合格するための勉強方法を完全ガイド。公式リソース・問題集・学習スケジュールを徹底解説...

Databricks

Databricks Data Engineer Associate完全解説|出題範囲・問題例・合格戦略

Databricks Certified Data Engineer Associate試験を徹底解説。5つの出題ドメイ...

Databricks

Databricks Data Engineer Professional完全解説|上級試験の攻略法

Databricks Certified Data Engineer Professional試験を徹底解説。10の出題...

Databricksの記事一覧 (109件)
© 2026 NicheeLab All rights reserved.