生成AIによるナレッジマネジメントでは精度(適合率)が肝心です~再現率(カバレージ)と峻別しましょう!

生成AIによるナレッジマネジメントでは精度(適合率)が肝心です~再現率(カバレージ)と峻別しましょう!の画像1
提供=野村直之

●この記事のポイント
・世間で言う「RAGで精度向上」とは、「適合率 Precision」ではなく「再現率 Recall(カバレージ)」の向上を意味する。元のLLMに専門知識加えるのだからこれは当たり前
・RAGに正しい構造で省略の無い十全な知識を与えてあげないと、「適合率 Precision」、すなわち本当の精度は低下する。LLMと正反対に、知識を増やせば増やすほどRAGの精度は低下しがち
・RAGエンジンは対話ボット専用ではなく、何万点もの商品について多様な顧客に店員が説明し会話する模範対話例を生成させたり、専門知識による答案を採点したりも可能

 2022年夏まで2年半にわたって連載していた「AIなんか怖くない!」ですが、最後の数回は、ウクライナ戦争におけるAIをテーマにしていました。まさかウクライナ・ロシア戦争が3年以上続いていて、まだ終わらないでいるなどとは、当時、戦争とAIについて書いた時点では想像もしていませんでした。ともあれ、このたび昨今の状況を踏まえて「AI無しではもはややっていけない!」という連載タイトルで再開することとなりました。どうぞよろしくお願いいたします。

 休載中に、AIについては、人類史上に特筆されるべきかもしれない、とんでもないことが起こりました。2022年11月に、当時は「知る人ぞ知る」だったLLM(大規模言語モデル)のGPT3に人間フィードバック学習などを付加したChatGPT がデビューしたのがきっかけです。LLMが、さまざまなAIの中で、突出して爆速で進化した理由は、学習用の正解データをほぼ自動生成でき、学習データを増やせば増やすほど性能が向上する仕組みをもったからです。

RAGの実現方法、アレンジ法は様々

 生成AIブームは、単なる技術進化だけではありません。OpenAI社がGPT3を、ChatGPTという対話botとして公開するにあたって、RLHF(人間フィードバックによる強化学習)という仕組みで対話を通して学習できるようにしたり、プロンプトエンジニアリングやファインチューニングにより各種専用AIとしてカスタマイズできるようにしたり、ネット検索などの拡張機能との融合が進むにつれ、業務の現場で実際に使えるよう、普及の度合いにも加速度が増す勢いです。

 2018年から2019年春にかけて執筆した「AIに勝つ!」という本の中で、いずれLLM(大規模言語モデル;当時の呼称は「機械読解」)のようなAIが人間に代わって大量の情報を読みこなし、対話的に要点を教えてくれるようになる未来像を描き、今日の事態を予言していました。しかし、その私の予想を超えたスピードでLLMおよび関連技術、応用は進展しています。そんな中で、自分は何をすべきか。「人工知能学会誌16巻 1号」(2001年 1月) 特集「『ナレッジマネジメントとその支援技術』にあたって」の中で、往年のナレッジマネジメントブームの立役者、T.ダベンポート博士や野中郁次郎教授と並んでAI支援ナレッジマネジメントの牽引者と扱われただけでなく、当時の私が作った言葉「類似検索」の実体が今日のベクトル・ストレージに対するベクトル検索というRAG(検索拡張生成)の中核技術そのものであったことから、RAGの高精度化に資源とエネルギーを集中させるのは自然な流れでした。

「うちの総務の外線番号、何番だったっけ?」とChatGPTに訊いても答えられるはずはありませんね? 答えられたなら、何らか情報漏洩し、かつ必要以上に自分の作業内容、個人情報等がクラウドのAIに渡ってしまっていることになるでしょう。法人、組織には社外秘、部外秘の情報が溢れています。また、なんらかの職人芸を支える専門知識を表す言葉、自分たちだけが使う用語やアルファベット2,3文字の略語、さらには、一般用語を違う意味で使う符丁みたいな言葉で溢れています。これらをAIが理解し高精度に回答できる仕組みを確立しない限り産業界で広く生成AIが業務フローに本格的に組み込まれることはない(個人のブレスト、壁打ち用にとどまる)、と2023年初頭に確信し、ノーコードで誰でも使えるRAG製品ChatBridを発売しました。

オススメ記事

まだ記事はありません。