GCP の音声・言語 AI は Speech-to-Text、Text-to-Speech、Translation API の 3 つを中心に構成されます。 Chirp 2 (USM)、WaveNet / Journey TTS、Translation V3 は業界トップクラスの精度と多言語対応で、グローバルアプリの音声・翻訳機能の標準ツールです。
| モデル | 言語数 | 特徴 |
|---|---|---|
| Default | 125+ | 標準モデル |
| Chirp 2 | 100+ | Universal Speech Model、最高精度 |
| Medical Conversation | en-US | 医療会話特化 |
| Medical Dictation | en-US | 医師音声入力 |
| Phone Call | 多言語 | 電話音質特化 |
| Video | 多言語 | 動画字幕 |
| Latest Long / Short | 多言語 | 長短切り替え |
from google.cloud import speech_v2 as speech
client = speech.SpeechClient()
config = speech.RecognitionConfig(
auto_decoding_config=speech.AutoDetectDecodingConfig(),
language_codes=["ja-JP"],
model="chirp_2",
)
streaming_config = speech.StreamingRecognitionConfig(config=config)
config_request = speech.StreamingRecognizeRequest(
recognizer=f"projects/PROJECT/locations/asia-northeast1/recognizers/_",
streaming_config=streaming_config,
)
def audio_generator():
yield config_request
for chunk in audio_stream: # マイク等から
yield speech.StreamingRecognizeRequest(audio=chunk)
for response in client.streaming_recognize(requests=audio_generator()):
for result in response.results:
print(result.alternatives[0].transcript)| タイプ | 料金 ($/M 文字) | 品質 | 用途 |
|---|---|---|---|
| Standard | $4 | ★★☆ | 大量、コスト重視 |
| WaveNet | $16 | ★★★★ | 標準的な本番 |
| Neural2 | $16 | ★★★★ | 感情・抑揚 |
| Studio (HD) | $160 | ★★★★★ | 放送品質 |
| Journey | $30 | ★★★★★ | 会話最自然 |
| Polyglot | $16 | ★★★★ | 1 音声で多言語 |
| Custom Voice | カスタム | — | 自前音声クローン |
from google.cloud import texttospeech
client = texttospeech.TextToSpeechClient()
text = "こんにちは、世界"
synthesis_input = texttospeech.SynthesisInput(text=text)
voice = texttospeech.VoiceSelectionParams(
language_code="ja-JP",
name="ja-JP-Neural2-B",
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open("output.mp3", "wb") as out:
out.write(response.audio_content)| 項目 | 料金 |
|---|---|
| NMT (Basic) | $20/M 文字 |
| NMT 無料枠 | 月 500K 文字 |
| AutoML Translation 学習 | $45/h |
| AutoML 推論 | $80/M 文字 |
| Document Translation | $80/M 文字 |
| 項目 | GCP | AWS | Azure |
|---|---|---|---|
| STT | Speech-to-Text (Chirp 2) | Transcribe | Speech to Text |
| TTS | Text-to-Speech (Journey) | Polly | Speech (Neural) |
| 翻訳 | Translation API V3 | Translate | Translator |
| STT 料金 | $0.024/分 (Chirp) | $0.024/分 | $1/h |
| TTS 料金 | $16/M (WaveNet) | $16/M (Neural) | $16/M (Neural) |
Speech-to-Text と Chirp の関係は?
Chirp は Google の Universal Speech Model 第 1 世代、Chirp 2 (2024) が現行最新。Speech-to-Text API 経由で利用、100+ 言語対応、レイテンシも大幅改善。
Text-to-Speech (TTS) はどの音声を使える?
Standard (基本)、WaveNet (高品質)、Neural2 (最新)、Studio (HD 音質)、Journey (2024 新、最自然)、Polyglot (1 音声で多言語)。
Translation API V2 と V3 の違いは?
V3 = Advanced (バッチ / グロッサリー / Custom Model)、V2 = 基本翻訳のみ。新規は V3 推奨。
料金体系は?
STT: $0.016/分 (デフォルト) / $0.024 (Chirp)、TTS: $4/M 文字 (Standard) / $16 (WaveNet) / $30 (Studio)、Translation: $20/M 文字。
Custom Voice はある?
TTS Custom Voice で自前音声学習可能 (ベータ)。30 分の音声で個人の声をクローン (用途制限あり、本人同意必須)。
他クラウド (AWS / Azure) との比較は?
STT 精度: 言語次第。Chirp 2 は多言語 (日本語含む) で高精度。Translation はニューラル翻訳の老舗で安定性◎。
リアルタイム文字起こしは?
Speech-to-Text Streaming で対応。Web Socket 経由でリアルタイム配信、Meeting 議事録自動化等で利用。
Medical / Legal 等の専門用途は?
Medical Conversation / Medical Dictation などの専用モデルあり (us-central1 限定)。Healthcare 業界向け HIPAA BAA 対応。
関連記事・音声 / 翻訳 AI
GCP Professional Cloud Developer (PCD) 完全ガイド|Cloud Run・GKE・CI/CD・APM
Google Cloud Professional Cloud Developer の試験範囲、Cloud Run / GKE / Cloud Build / Cloud Trace、AWS DVA / Azure AZ-204 比較、学習ロードマップを徹底解説。
Migrate to Virtual Machines (M2VM) 完全ガイド|VMware/AWS/Azure → GCE 移行 (GCP)
Google Cloud Migrate to Virtual Machines (旧 Velostrata) の全機能解説。VMware / Hyper-V / AWS EC2 / Azure VM / 物理サーバから GCE への Stream Migration、Test Clone、AWS Connector、対応 OS、料金を 2026 年最新版で網羅。
Migrate to Containers (M2C) 完全ガイド|VM → GKE/Cloud Run モダン化 (GCP)
Google Cloud Migrate to Containers (旧 Migrate for Anthos) の全機能解説。VMware / 物理 / AWS / Azure の Linux/Windows アプリを Container 化して GKE / Cloud Run / Anthos にデプロイ。Stateful 対応、料金、成功事例を 2026 年最新版で網羅。
GCP Professional Cloud Network Engineer (PCNE) 完全ガイド|VPC・Interconnect・Load Balancing
Google Cloud Professional Cloud Network Engineer の試験範囲、VPC / Cloud Interconnect / Cloud Load Balancing / Cloud Armor、AWS ANS・Azure AZ-700 比較を詳解。
※ Google Cloud は Google LLC の商標です。最新情報は Speech-to-Text 公式 をご確認ください。
NicheeLab編集部
データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。
Google Cloud (GCP) 認定資格ロードマップ 2026 完全版|全 15 試験を体系化
Google Cloud 認定資格 全 15 試験 (Foundational 2 + Associate 3 + Pr...
Cloud Digital Leader (CDL) 完全ガイド|出題範囲・学習リソース・合格戦略
Google Cloud Cloud Digital Leader (CDL) の完全ガイド。6 ドメイン 92 bul...
Generative AI Leader (GAIL) 完全ガイド|Google Cloud 生成 AI 認定
Google Cloud Generative AI Leader (GAIL、2025-05-14 リリース) の完全...
Vertex AI 入門|Google Cloud 統合 ML プラットフォームの全機能
Google Cloud Vertex AI の入門解説。Vertex AI Studio / Agent Builde...
GCP Associate Cloud Engineer (ACE) 完全ガイド|試験範囲・受験料・学習ロードマップ
Google Cloud Associate Cloud Engineer (ACE) の試験範囲・受験料 125 US...