●この記事のポイント
・OpenAIはAIエージェントを構築するための新しいプラットフォーム基盤の機能セットとして「Responses API」「Agents SDK」を発表
・かなり複雑なプログラムを組む必要があった処理が、Responses APIを使うと数行で書けるようになった
・ホテルや航空券の予約手続きなどを、APIによってChatGPTが人間の代わりにやってくれる
OpenAIは3月11日、AIエージェントを構築するための新しいプラットフォーム基盤の機能セットとしてAPIの「Responses API」、SDK(ソフトウェア開発キット)の「Agents SDK」を発表した。それぞれどのような特徴を持つツールなのか。専門家は「これまで複雑なコードを書かなければならなかったところが、一気に簡単になる」と解説する。
OpenAIはこれまでリーズニング、マルチモーダル対応などモデルの新機能を相次いでリリースし、複雑で複数ステップを要するタスクにも対応可能なエージェント構築の基盤を整備してきた。だが、高度なモデル機能を本番環境で稼働するエージェントとして実装することは難しいという声も存在し、開発プロセスを効率化するための情報の可視化や、十分な組み込みサポートが不足しているといった課題もあった。こうした課題を解決するためにリリースされるのが「Responses API」と「Agents SDK」だ。
API(Application Programming Interface)とは、ソフトウェア、プログラム、ウェブサービスを接続するインターフェース。OpenAIのリリースによれば、Responses APIは「Chat Completions API」の使いやすさと「Assistants API」の強力なツール利用機能を統合しており、開発者がエージェント型アプリケーションを構築する際に、より柔軟で拡張性の高い基盤になるという。開発者は単一の「Responses API」呼び出しで複数のツールを組み合わせたり、モデルと複数回のやりとりを行うことで、これまで以上に複雑なタスクにも容易に対応できるようになる。
ウェブ検索、ファイル検索、コンピュータ操作などが標準で組み込まれ、これらは相互に連携し、モデルが現実世界のデータにアクセスできるようにすることで、タスク遂行能力を大幅に向上させる。開発者の利便性を重視した多くの改善が施されており、統一されたアイテムベースの設計、シンプルなポリモーフィズム、直感的なストリーミングイベントのサポートに加え、モデルのテキスト出力により簡単にアクセスできる 「response.output_text」のようなSDKのヘルパー機能も提供している。
ソフトウェアエンジニアで合同会社Hundreds代表の大塚あみ氏は次のように解説する。
「もともとOpenAIが提供していたツールは、ChatGPTに対してプロンプトトークンを送って、テキストが返ってくる、というだけでした。その後、画像入力などができるようになり、Responses APIではさらに機能が拡張され、パソコンの中にあるドキュメントの情報からレスポンスを作成できるようになりました。例えば、社内規則の情報をもとにChatGPTに質問することができたり、ホテルや航空券の予約手続きなどをAPIによってChatGPTが人間の代わりにやってくれたり、ウェブ検索を自律的にやってくれるといった機能が追加されています。