Geminiとは
Gemini(ジェミニ)は、Googleが開発した次世代マルチモーダルAIモデルファミリーです。2023年12月に発表され、テキスト、画像、音声、動画、コードを統合的に理解・生成できるネイティブマルチモーダルモデルとして設計されています。Google検索やGmail、Google Workspaceなど、Googleの各種サービスに統合されています。
ネイティブマルチモーダルの特徴
Geminiは、最初からマルチモーダル処理を前提に設計された点が特徴です。テキストと画像を別々に処理して統合するのではなく、複数のモダリティを同時に処理・理解できます。これにより、画像に含まれるテキストの理解、動画コンテンツの分析、音声とテキストを組み合わせた応答など、複合的なタスクに高い性能を発揮します。
モデルラインナップ
Geminiには、最高性能のUltra、汎用的なPro、軽量なNanoの3つのサイズが用意されています。Ultraは最も複雑なタスク向け、Proは幅広い用途に対応、Nanoはモバイルデバイスなどのオンデバイス処理に最適化されています。
Googleエコシステムとの統合
GeminiはGoogleの巨大なエコシステムに深く統合されており、Google検索のSGE(Search Generative Experience)、Gmail、Google Docs、Google Sheetsなどで利用できます。Androidスマートフォンにも搭載され、Googleアシスタントの後継としても位置づけられています。