マルチモーダル・サービス

音声生成AIとは？

読み: おんせいせいせいえーあい英語: Audio Generation AI更新日: 2026-06-23

音声合成、声の変換、ナレーション生成などを行うAIです。

試験で問われるポイント

本人同意、なりすまし、詐欺リスクに注意します。
ディープフェイク音声との関係が問われます。
アクセシビリティやナレーション制作にも使われます。

具体例

研修動画のナレーション案を作る一方、なりすまし詐欺への対策も必要です。

よくある誤解

本人の声を無断で再現しても問題ないと考える。
音声生成は画像生成と無関係だと考える。

対応試験

生成AIパスポート

関連する表記: 音声生成AI / 音声生成 / ボイスクローン / Voice Cloning / TTS

関連問題で復習

生成AIパスポート生成AIの最新動向・マルチモーダル

音声生成AIおよび動画生成AIに関する次の記述のうち、最も適切なものはどれか。

生成AIパスポート生成AIの最新動向・マルチモーダル

ElevenLabsとWhisperの違いに関する記述として最も適切なものはどれか。

G検定ディープラーニングの応用例

「音声認識」で入力音声をテキストに変換するタスクの正式名称はどれか。

G検定ディープラーニングの応用例

Text-to-Speech（TTS）の説明として、最も適切なものはどれか。

生成AIパスポート生成AIの最新動向・マルチモーダル

Stable DiffusionとDALL-Eの違いに関する記述として最も適切なものはどれか。

生成AIパスポート生成AIの最新動向・マルチモーダル

Text-to-Speech（TTS）を実務で使用する際のベストプラクティスに関する次の記述のうち、最も不適切なものはどれか。

生成AIパスポート生成AIの最新動向・マルチモーダル

DreamboothとLoRAの共通点に関する記述として最も適切なものはどれか。

生成AIパスポート生成AIの最新動向・マルチモーダル

Image CaptioningとVisual Question Answering（VQA）の違いに関する記述として最も適切なものはどれか。

関連用語

マルチモーダルAI

テキスト、画像、音声、動画など複数種類のデータを統合的に扱えるAIです。

ディープフェイク

AIで人物の顔や声を本物らしく合成・改変する技術やコンテンツです。

個人情報

氏名、住所、メールアドレスなど、特定の個人を識別できる情報です。生成AIへの入力時に特に注意します。

FujiCertの用語解説は、各試験の公式問題ではなく、学習者が問題演習でつまずきやすい観点を整理した非公式の学習支援コンテンツです。