Geminiを使用したコンピュータビジョン業界全体の再現【Google Cloud Next ’25 レポート】

GCP

こんにちは、KIYONOエンジニアの田代です。

コンピュータビジョンは、AIの最も急速に発展している分野の1つであり、画像や動画の理解を可能にする技術です。

Google Cloud Next ’25のセッション「Geminiを使用したコンピュータビジョン業界全体の再現」では、Googleの最新のマルチモーダルモデルであるGeminiが、どのようにコンピュータビジョン業界に革命を起こしているのかが紹介されました。

本レポートでは、このセッションの内容を詳細にまとめ、Geminiのマルチモーダル機能、具体的なユースケース、そして開発者がGeminiを活用する方法について解説します。

Geminiのマルチモーダル機能

Geminiは、テキスト、画像、音声、動画など、複数の種類のデータを理解・生成できるマルチモーダルモデルです。

従来のモデルは、テキスト処理に特化したものや、画像認識に特化したものなど、単一モダリティのモデルが主流でした。

Geminiは、これらのモダリティを統合的に処理できるため、より高度なタスクをこなすことができます。例えば、画像の内容を説明するキャプションを生成したり、動画の内容に基づいて質問に答えたりすることが可能です。

Geminiのマルチモーダル機能として以下の点が挙げられました。

  • 画像理解:画像の内容を理解し、オブジェクトの検出、画像の分類、キャプション生成などが可能。
  • 文書処理文書の内容を理解し、テキストの抽出、翻訳、要約などが可能。
  • 動画理解動画の内容を理解し、アクションの認識、シーンの分類、動画からの質問応答などが可能。

なぜマルチモーダル機能が重要なのか?

マルチモーダル機能は、現実世界の多くの問題を解決する上で非常に重要です。
例えば、医療画像診断、自動運転、ロボット制御など、様々な分野でマルチモーダルAIが活用されています。

Geminiのマルチモーダル機能は、これらの分野に革新をもたらす可能性を秘めています。

ユースケース

Geminiのマルチモーダル機能を活用した様々なユースケースが紹介されました。

  • 画像 → ウェブページ:画像からウェブページを生成

    手書きのWebページのイメージをもとにWebページを生成するデモの様子

  • 画像理解:画像の内容に基づいて質問に答えたり、キャプションを生成したりする機能。

    画像をもとに都市の景観における特定のランドマークを特定し、その歴史的背景について詳細な情報をGeminiから返してもらう様子

  • 文書処理:手書き文字の認識や、複雑な数式の分析など、高度な文書処理タスク。

    手書きの文書や図形を文字起こしする様子

    商品パッケージの画像をHTMLテーブルに変換する様子

    Alphabet(Googleの親会社)の決算報告書を処理し表やグラフにまとめる様子

  • 動画理解:動画の内容に基づいて質問に答えたり、要約を生成したりする機能。

    プレゼン動画を分析し「AI」について言及したインスタンスを特定してタイプスタンプに書き起こす様子

    物理学の衝突に関する教育ビデオを解析し、シミュレーションや状態相関、結果表などを自動生成する様子

     

    料理のビデオからレシピーのコードを抽出しWebページを自動生成する様子



開発者向け情報

  • API
    Geminiのマルチモーダル機能は API経由で利用可能です。開発者は、APIを使用して独自のアプリケーションに Geminiの機能を統合できます。

  • Google AI Studio
    Google AI Studioは、GeminiをはじめとするGoogleのAIモデルを試すことができるプラットフォームです。

Gemini 2.5のパフォーマンス

Gemini 2.5は、様々なベンチマークで優れたパフォーマンスを示しています。
特に、マルチモーダルタスクにおいては、他のモデルを大きく引き離す性能を達成しています。

質疑応答

セッションの最後には、参加者から活発な質疑応答が行われました。

  • 質問:Geminiは、どのような種類の動画を処理できますか?動画の長さや形式に制限はありますか?
  • 回答:Geminiは、最大1時間の長さの動画を処理できます。また、MP4や YouTubeリンクなど、様々な形式の動画に対応しています。ファイルサイズの上限は20MBです。それ以上のサイズの動画の場合は、Drive経由でアップロードできます。
  • 質問:マルチモーダルモデルは、従来の単一モダリティのモデルと比べてどのような利点がありますか?
  • 回答:マルチモーダルモデルは、複数の種類のデータを統合的に処理できるため、より高度なタスクをこなすことができます。例えば、画像の内容を説明するキャプションを生成したり、動画の内容に基づいて質問に答えたりすることが可能です。
  • 質問:GeminiのAPI は、どのようなプログラミング言語で利用できますか?
  • 回答:Gemini のAPIは、様々なプログラミング言語で利用できます。詳細は、Google Cloudのドキュメントをご覧ください。
  • 質問:Geminiの料金体系はどのようになっていますか?
  • 回答:Geminiの料金は、利用状況に応じて変動します。詳細については、Google Cloudの営業担当者にお問い合わせください。

    まとめ

    Geminiは高度なマルチモーダル機能を備えた次世代のAIモデルです。

    画像、文書、動画など、様々な種類のデータを理解・生成できるため、コンピュータビジョン業界全体に大きな変革をもたらす可能性を秘めています。既に様々なユースケースで活用が始まっており、今後の発展が期待されます。

    本レポートが、Gemini を活用したコンピュータビジョンアプリケーション開発の参考になれば幸いです。

    お問い合わせ

      GCP
      田代陽向をフォローする
      KIYONO Engineer Blog

      コメント

      PAGE TOP
      タイトルとURLをコピーしました