生成AIによるナレッジマネジメントでは精度(適合率)が肝心です~再現率(カバレージ)と峻別しましょう!

 上記のベン図の右下のあたりには、再現率を上げたくてシソーラス、いわゆる類義語辞典を使って不用意に言い換えをしてしまうと、(別の文脈では違う意味になってしまう単語も拾われることで)精度1/5と、激しく精度が下がった事実を示しています。類義語に言い換える仕方に巧みに制限を加え、LLMに指示を与えることで(このようなプロ級のプロンプトエンジニアリングは引き続き超有効です。ChatGPTサイトの一部のGPTsが引き続き超有効なのと同様に!)、精度を低下させずに再現率を上げる。このような工夫がRAGの精度向上にとって本質的に重要です。しかし、そのような地道な試みは論文になりにくいので、研究者の多くは斬新なアーキテクチャ、5種に言い換えたら5回LLMを呼ぶRAG Fusion、リランキングなどのアルゴリズムの工夫に精を出しますが、目先を変えてもクリアできない本質的問題は残ります。

RAGエンジンは対話ボット専用ではない

 筆者らはRAG製品発表の後もさらに2年以上かけて(潜在的には四半世紀前の類似検索によるAI支援ナレッジマネジメント以来の時間をかけて)、特に日本語向けに極めて高い精度になるよう磨いてきました。ChatBridは当然ながら自前の辞書(複合語の扱いが絶妙)、トークナイザ、ベクトル・ストレージにより高精度の基礎を作っています。その上の、知識階層の構築、知識体系をLLMが理解したまま小さめの必要十分サイズの知識素片により高精度に回答を紡いでいくあたりについては紙数の関係で、こちらのページ先頭のスライドPDFをご覧ください。

 RAGエンジンは対話ボット専用ではありません。何万点もの商品について多様な顧客に店員が説明し会話する模範対話例を生成させたり、現場の音声対話からその内容の良し悪しを減点法・加点法を併用して採点したり、顧客役を演じつつ最後は上司、コーチに変身して従業員を元気付け育成・指導したりできます。また、大量の評価用のQ&Aをほぼ自動でうまく生成したり、それを用いて最新版の採点を自ら行ったり、人間用の試験問題を「平等重視」あるいはその生徒の理解度・個性に応じて最適化した「パーソナライズド演習問題」を毎週作成して個別指導に役立てたりなども、教科の知識を備えたRAGエンジンの仕事です。ソフトウェアだけ、プラットフォームだけ提供して、上記のような応用のための知識開発、知識デバッグの仕事をエンドユーザに丸投げしてしまっては、いくらノーコード・ソフトウェアの完成度が高くとも、「なーんだ、RAGなんて精度出ないや!」とばかり、使われずに終わってしまいます。

 何百種類も対策がある中で、例えば上記以外にも、より適切なLLMを選択し、適切な正解入出力データでファインチューニングして対応すべき、などと見抜いて適切に効率よく解決していくのは、どうしてもAI、ナレッジマネジメントの専門家の仕事なります。ここが自動化できたら、AI自身が自分の改良方法を見極めて新領域での問題解決のための自学自習でどんどん成長できちゃうわけですから、もはやAGIと呼んでよいでしょう。

AIエージェントはけた外れに高い精度が要求される

 2年半分の情熱が迸って、思わず長くなりました(笑)。次回は、下記を予定しています。

「AIエージェント業務組込みにあたっての大事な留意点 ~やはり精度が大事」

 検索の延長のように質問に答えてくれるだけの対話ボットと違って、何か処理を実行してしまうのがAIエージェントですから、けた外れに高い精度が要求される。言われてみれば当たり前なのですが、そのあたりが十分認識されていない世の中の動きを少し心配している次第です。もしかしたら、まずはModel Context Protocol(MCP)の意義を論じることになったりするかもしれませんが、本当に効果的に使われていけるよう、精度のことは常に念頭に置いてまいりたいと思います。

(文=野村直之/AI開発・研究者、メタデータ株式会社社長、東京大学大学院医学系研究科研究員)

オススメ記事

まだ記事はありません。