マルチモーダルAIとコンテンツ
マルチモーダルAIとは、テキストだけでなく画像・動画・音声など複数のメディア形式を理解できるAIです。GPT-4V、Gemini、Claudeなどの最新LLMはマルチモーダル対応しており、画像内の情報も読み取れます。
AI検索がマルチモーダル化することで、テキストだけでなくビジュアルコンテンツもAI回答に引用される時代が来ています。画像・動画のSEO最適化がAIOにも直結するようになりました。
- Google AI Overviewは画像・動画付きの回答を生成する
- AIは画像のalt属性・キャプション・ファイル名を参照する
- 図表・インフォグラフィックはAIの回答に引用されやすい
- 動画のトランスクリプト(字幕)はAIの引用対象になる
画像の最適化
画像をAIに正しく理解してもらうには、適切なメタ情報の付与とマークアップが必要です。
- alt属性: 画像の内容を具体的に記述する(「グラフ」ではなく「2024年のSEOトレンドを示す棒グラフ」)
- ファイル名: 意味のある英語ファイル名を使う(IMG_001.jpgではなくseo-trends-2024-chart.jpg)
- キャプション: 画像の下に説明テキストを追加する
- figureタグ: HTMLのfigure/figcaptionで意味を明示する
- ImageObject構造化データ: Schema.orgでマークアップする
- WebP/AVIF形式: 軽量なフォーマットで高速表示を確保する
動画の最適化
動画コンテンツもAI検索の重要な情報源です。特にYouTubeの動画はGoogleのAI Overviewに頻繁に引用されます。
- 字幕/トランスクリプト: 動画の内容をテキストで提供する(AIが参照する)
- VideoObject構造化データ: 動画のメタ情報をマークアップする
- チャプター(タイムスタンプ): 動画を区切ってAIが特定部分を引用できるようにする
- サムネイル最適化: 内容を表す明確なサムネイルを設定する
- ページ内埋め込み: 動画をWebページに埋め込み、関連テキストと一緒に提供する
表・図の最適化
表(テーブル)や図は、比較情報やデータを伝えるのに最適なフォーマットです。AIは構造化されたテーブルデータを特に好んで引用します。
- HTMLテーブル: 画像テーブルではなくHTMLの<table>タグで実装する
- thead/tbody: ヘッダー行を明確にする
- caption: テーブルのタイトルをcaptionタグで記述する
- SVGインフォグラフィック: 画像ではなくSVGで図を作成する(テキストが検索可能)
- 代替テキスト: 図の内容を本文でもテキストで説明する
実践チェックリスト
- 全画像に具体的なalt属性を設定する
- 画像ファイル名を意味のある英語名に変更する
- 主要画像にfigure/figcaptionタグを使用する
- 動画にトランスクリプト(字幕テキスト)を提供する
- VideoObject構造化データを実装する
- テーブルはHTML<table>で実装し、captionを追加する
- 画像はWebP/AVIF形式で軽量化する
よくある質問
Q. AIは画像内のテキストを読み取れますか?
GPT-4VやGeminiなどの最新マルチモーダルAIは画像内のテキストを読み取れますが、精度には限界があります。重要な情報はHTMLテキストとしても提供し、画像はあくまで補助的な位置づけにすることが推奨されます。
Q. 動画だけでサイト訪問なしにAIに引用されますか?
YouTubeの動画はGoogleのAI Overviewに直接引用されることがあります。ただし、Webページに動画を埋め込み、トランスクリプトと関連テキストを添えることで、引用確率がさらに高まります。