グーグルの公式サイトによれば、Gemini Roboticsの特徴は以下のとおり。
・汎用性
他の最先端の視覚・言語・行動モデルと比較して、平均して 2 倍以上の性能向上を示しており、その卓越した汎用性を実証している。
・インタラクティブ性
直感的でインタラクティブな操作が可能。Gemini の高度な言語理解能力により、日常会話のような自然な言葉で表現された指示はもちろん、様々な言語によるコマンドも理解し、適切に応答することができる。
・器用さ
折り紙を折る、スナックをジップロックの袋に詰めるなど、精密な操作が求められる非常に複雑な多段階のタスクに取り組むことができる。
「AlphaGo(アルファ碁)で知られるGoogle DeepMindが、ロボットにGeminiを応用したのがGemini Roboticsです。Geminiは人間との会話に関して多くの知識を持っており、それを活用して、ロボットに対して人間の言葉で命令することができるというものです。これまでロボットと人間はプログラミングコードを介してやり取りしていましたが、自然言語を介して、やり取りできるようになります。これまでロボットは人間が策定したシナリオ通りの稚拙なことしかできませんでしたが、OpenAIのChatGPTやGeminiのように、ロボットが人間からの命令の意図を理解して動作できる可能性が出てきました。
公開されている動画をみると、Gemini Roboticsを搭載したロボットは折り紙を折ったり、弁当箱にサンドイッチを詰めたり、サラダを人間の希望に合わせて盛り付けしたりといったことまでやっています。人間の言葉の意図を理解して、これが最適だろうという行動をしています。これまで産業用ロボットは、決められたことを正確に早く行うことは得意でしたが、例えば溶接する対象のドアの位置が少しでも本来の位置からズレていると、うまく作動できませんでした。これが、位置がずれていればロボット自身が位置を調節したりして、正確な場所に溶接をしていくことになります。決められたこと以外のことでも、さまざまな条件に合わせて作業していく汎用性を備えています。例えば、人間から『きゅうりが嫌い』と言われれば、きゅうりを取り除いてサラダを盛りつけたりといったことができるようになります」(ITジャーナリストの神崎洋治氏/2025年4月18日付当サイト記事より)
世界におけるフィジカルAI開発を取り巻く状況について、ITジャーナリストの神崎洋治氏はいう。
「フィジカルAIのわかりやすい例としては、ロボットやドローン、自動運転車などが挙げられます。大雑把にいうと、物理的に体を持ったものに組み込むAIというイメージです。フィジカルAIという言葉は、エヌビディアが先行して頻繁に使ってきたものです。従来のAIはアバターやエージェントAIなどデジタルの世界だけでクローズしていましたが、フィジカルAIは現実世界からも影響を受けるかたちになります。例えば周囲に人がいたり、別のロボットや動作していたり、機材が置かれたりの状態で、その環境に応じて動作をしなければならないというのが大きな違いです。
今までのAIは推論などの分野で使われてきたデジタル的な技術ですが、その段階を超えて次の段階としてフィジカルAIがあるという表現をフアンCEOはしています。彼は以前からヒューマノイドやロボティクスに注目しており、次はヒューマノイドがトレンドになって大きな市場になると言ってきましたが、エヌビディアは今年に入り、フィジカルAIに関するプラットフォームの拡充を強力に推し進めています」
では、なぜフアンCEOは石破首相との会談でその話題に触れたのか。
「日本は産業用ロボットや自動車の分野では世界市場で大きなシェアを持っており、物理的な製品の開発能力に優れています。そこにAIをしっかりと組み込んでいけば、日本はフィジカルAIに関して世界をリードしていくことができる可能性があり、政府が企業の研究開発や設備投資を推進するような施策を進めるべきであるということを、フアンCEOは提言したかったのではないでしょうか。
確かにその主張のとおり、日本の産業界にとっては大きなチャンスともいえます。日本には世界的な競争力を持つ自動車メーカーや、ファナックや安川電機などの産業用機械メーカーが存在するにもかかわらず、世界基盤モデルを含むフィジカルAIの開発においては米国・中国に大きく出遅れています。もっと国を挙げて取り組むべきであり、それによってビジネスチャンスが生まれるだろうとフアンCEOは伝えたかったのかもしれません」(同)
(文=BUSINESS JOURNAL編集部、協力=神崎洋治/ITジャーナリスト)