Google Cloud

Speech-to-Text / Text-to-Speech / Translation API

2026-05-24
NicheeLab編集部

GCP の音声・言語 AI は Speech-to-TextText-to-SpeechTranslation API の 3 つを中心に構成されます。 Chirp 2 (USM)、WaveNet / Journey TTS、Translation V3 は業界トップクラスの精度と多言語対応で、グローバルアプリの音声・翻訳機能の標準ツールです。

Speech-to-Text (STT) モデル

モデル言語数特徴
Default125+標準モデル
Chirp 2100+Universal Speech Model、最高精度
Medical Conversationen-US医療会話特化
Medical Dictationen-US医師音声入力
Phone Call多言語電話音質特化
Video多言語動画字幕
Latest Long / Short多言語長短切り替え

STT サンプル (リアルタイム)

from google.cloud import speech_v2 as speech

client = speech.SpeechClient()

config = speech.RecognitionConfig(
    auto_decoding_config=speech.AutoDetectDecodingConfig(),
    language_codes=["ja-JP"],
    model="chirp_2",
)
streaming_config = speech.StreamingRecognitionConfig(config=config)
config_request = speech.StreamingRecognizeRequest(
    recognizer=f"projects/PROJECT/locations/asia-northeast1/recognizers/_",
    streaming_config=streaming_config,
)

def audio_generator():
    yield config_request
    for chunk in audio_stream:  # マイク等から
        yield speech.StreamingRecognizeRequest(audio=chunk)

for response in client.streaming_recognize(requests=audio_generator()):
    for result in response.results:
        print(result.alternatives[0].transcript)

Text-to-Speech (TTS) 音声タイプ

タイプ料金 ($/M 文字)品質用途
Standard$4★★☆大量、コスト重視
WaveNet$16★★★★標準的な本番
Neural2$16★★★★感情・抑揚
Studio (HD)$160★★★★★放送品質
Journey$30★★★★★会話最自然
Polyglot$16★★★★1 音声で多言語
Custom Voiceカスタム自前音声クローン

TTS サンプル

from google.cloud import texttospeech

client = texttospeech.TextToSpeechClient()
text = "こんにちは、世界"

synthesis_input = texttospeech.SynthesisInput(text=text)
voice = texttospeech.VoiceSelectionParams(
    language_code="ja-JP",
    name="ja-JP-Neural2-B",
)
audio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3,
)

response = client.synthesize_speech(
    input=synthesis_input, voice=voice, audio_config=audio_config
)
with open("output.mp3", "wb") as out:
    out.write(response.audio_content)

Translation API V3 (Advanced)

  • 翻訳: 100+ 言語ペア、ニューラル機械翻訳
  • バッチ翻訳: 大量ファイル一括処理 (GCS 経由)
  • Glossary: 専門用語・固有名詞の翻訳統制
  • AutoML Translation: 業界特化カスタムモデル
  • Adaptive Translation: ドメイン適応翻訳 (Adaptive MT)
  • Document Translation: PDF / Word / PPT のフォーマット保持翻訳

料金 (Translation, 2026)

項目料金
NMT (Basic)$20/M 文字
NMT 無料枠月 500K 文字
AutoML Translation 学習$45/h
AutoML 推論$80/M 文字
Document Translation$80/M 文字

他クラウド比較

項目GCPAWSAzure
STTSpeech-to-Text (Chirp 2)TranscribeSpeech to Text
TTSText-to-Speech (Journey)PollySpeech (Neural)
翻訳Translation API V3TranslateTranslator
STT 料金$0.024/分 (Chirp)$0.024/分$1/h
TTS 料金$16/M (WaveNet)$16/M (Neural)$16/M (Neural)

典型的なユースケース

  • 会議議事録自動化 (STT + Gemini で要約)
  • コールセンター文字起こし + 感情分析
  • 動画字幕生成 (STT + Translation で多言語字幕)
  • 多言語 IVR (STT + Translation + TTS)
  • e-Learning 音声教材 (TTS Studio)
  • EC 商品説明の多言語化 (Translation + Glossary)
  • 音声ナビゲーション (TTS Journey)

Speech-to-Text と Chirp の関係は?

Chirp は Google の Universal Speech Model 第 1 世代、Chirp 2 (2024) が現行最新。Speech-to-Text API 経由で利用、100+ 言語対応、レイテンシも大幅改善。

Text-to-Speech (TTS) はどの音声を使える?

Standard (基本)、WaveNet (高品質)、Neural2 (最新)、Studio (HD 音質)、Journey (2024 新、最自然)、Polyglot (1 音声で多言語)。

Translation API V2 と V3 の違いは?

V3 = Advanced (バッチ / グロッサリー / Custom Model)、V2 = 基本翻訳のみ。新規は V3 推奨。

料金体系は?

STT: $0.016/分 (デフォルト) / $0.024 (Chirp)、TTS: $4/M 文字 (Standard) / $16 (WaveNet) / $30 (Studio)、Translation: $20/M 文字。

Custom Voice はある?

TTS Custom Voice で自前音声学習可能 (ベータ)。30 分の音声で個人の声をクローン (用途制限あり、本人同意必須)。

他クラウド (AWS / Azure) との比較は?

STT 精度: 言語次第。Chirp 2 は多言語 (日本語含む) で高精度。Translation はニューラル翻訳の老舗で安定性◎。

リアルタイム文字起こしは?

Speech-to-Text Streaming で対応。Web Socket 経由でリアルタイム配信、Meeting 議事録自動化等で利用。

Medical / Legal 等の専門用途は?

Medical Conversation / Medical Dictation などの専用モデルあり (us-central1 限定)。Healthcare 業界向け HIPAA BAA 対応。

関連記事・音声 / 翻訳 AI

GCP Professional Cloud Developer (PCD) 完全ガイド|Cloud Run・GKE・CI/CD・APM

Google Cloud Professional Cloud Developer の試験範囲、Cloud Run / GKE / Cloud Build / Cloud Trace、AWS DVA / Azure AZ-204 比較、学習ロードマップを徹底解説。

Migrate to Virtual Machines (M2VM) 完全ガイド|VMware/AWS/Azure → GCE 移行 (GCP)

Google Cloud Migrate to Virtual Machines (旧 Velostrata) の全機能解説。VMware / Hyper-V / AWS EC2 / Azure VM / 物理サーバから GCE への Stream Migration、Test Clone、AWS Connector、対応 OS、料金を 2026 年最新版で網羅。

Migrate to Containers (M2C) 完全ガイド|VM → GKE/Cloud Run モダン化 (GCP)

Google Cloud Migrate to Containers (旧 Migrate for Anthos) の全機能解説。VMware / 物理 / AWS / Azure の Linux/Windows アプリを Container 化して GKE / Cloud Run / Anthos にデプロイ。Stateful 対応、料金、成功事例を 2026 年最新版で網羅。

GCP Professional Cloud Network Engineer (PCNE) 完全ガイド|VPC・Interconnect・Load Balancing

Google Cloud Professional Cloud Network Engineer の試験範囲、VPC / Cloud Interconnect / Cloud Load Balancing / Cloud Armor、AWS ANS・Azure AZ-700 比較を詳解。

※ Google Cloud は Google LLC の商標です。最新情報は Speech-to-Text 公式 をご確認ください。

この記事で学んだ内容を問題で確認しましょう

16,000問以上の問題で実力チェック

GCP 試験対策ページを見る
この記事の著者

NicheeLab編集部

データエンジニアリング・クラウド資格の専門家。Databricks・Snowflake等の認定資格を保有し、実務経験に基づいた問題作成・解説を行っています。NicheeLab運営。


関連記事
Google Cloud

Google Cloud (GCP) 認定資格ロードマップ 2026 完全版|全 15 試験を体系化

Google Cloud 認定資格 全 15 試験 (Foundational 2 + Associate 3 + Pr...

Google Cloud

Cloud Digital Leader (CDL) 完全ガイド|出題範囲・学習リソース・合格戦略

Google Cloud Cloud Digital Leader (CDL) の完全ガイド。6 ドメイン 92 bul...

Google Cloud

Generative AI Leader (GAIL) 完全ガイド|Google Cloud 生成 AI 認定

Google Cloud Generative AI Leader (GAIL、2025-05-14 リリース) の完全...

Google Cloud

Vertex AI 入門|Google Cloud 統合 ML プラットフォームの全機能

Google Cloud Vertex AI の入門解説。Vertex AI Studio / Agent Builde...

Google Cloud

GCP Associate Cloud Engineer (ACE) 完全ガイド|試験範囲・受験料・学習ロードマップ

Google Cloud Associate Cloud Engineer (ACE) の試験範囲・受験料 125 US...

Google Cloudの記事一覧 (102件)
© 2026 NicheeLab All rights reserved.