マルチモーダル・サービス

マルチモーダルAIとは?

読み: まるちもーだるえーあい英語: Multimodal AI更新日: 2026-06-23

テキスト、画像、音声、動画など複数種類のデータを統合的に扱えるAIです。

試験で問われるポイント

  • 画像を見て質問に答える、動画を生成するなどの用途があります。
  • GeminiやGPT-4Vなどの例と結びつけて出題されます。
  • ディープフェイクや著作権などのリスクも関係します。

具体例

商品の写真と説明文を同時に理解して検索するサービスに使われます。

よくある誤解

  • テキストだけを扱うAIと同じ意味で使う。
  • 複数モダリティなら常に人間と同じ理解ができると考える。

対応試験

生成AIパスポートG検定

関連する表記: マルチモーダルAI / Multimodal AI / マルチモーダル / ネイティブマルチモーダル

関連問題で復習

関連用語

FujiCertの用語解説は、各試験の公式問題ではなく、学習者が問題演習で つまずきやすい観点を整理した非公式の学習支援コンテンツです。