KAKEHASHI Tech Blog

カケハシのEngineer Teamによるブログです。

医療における生成AIアプリケーションの精度評価

こんにちは。カケハシでプロダクトマネージャーをしている高梨です。

私は今生成AIを活用した薬局向けの医療アプリケーション開発に取り組んでおり、今回は生成AI医療アプリケーションのPRDをまとめる上でも特に特徴的だった精度要件(品質評価要件)に関して書こうと思います 。

この記事は秋の技術特集 2024の 18 記事目です。

この記事で何がわかるか

生成AIを活用したアプリケーションを実装する際の一般的な精度評価の考え方と、医療というユースケースにおいて適用する際に独自に考慮しないといけない観点、および具体的な事例がわかります。

生成AI医療アプリの品質評価の難しさ

生成AIの出力は、従来の機械学習モデルで用いられる定量的な指標(精度、適合率、再現率など)では評価が難しい場合が多々あります。例えば、患者と医療従事者の会話に基づきSOAP形式の文書(カルテや薬歴など)を生成するアプリケーションでは、生成される文書には一定の様式や規則はあるものの、その表現方法には一律の「正解」が存在しないことが多いです。記述の粒度や表現の違い、医療従事者各個人の癖などにより、出力の優劣を単純に1か0で判断することが困難です。このような場合、生成AIの出力を評価する際には、状況や文脈に応じた相対的な判断が求められ、定量的な評価手法では十分に対応できないことがしばしばあります。 しかし、だからといって曖昧で緩い評価基準に基づく評価は大きなリスクを伴います。医療分野では、このような不十分な評価が行われたアプリケーションが利用されることで、最悪の場合、患者の命に関わるリスクが生じます。そのため、生成AI医療アプリケーションの開発においては、評価基準の不備や根拠が曖昧な評価は許されません。

近年では、生成された出力をLLM(大規模言語モデル)自身に評価させる「LLM-as-a-Judge」という自動評価手法も登場しています。しかし、この手法もまだ発展途上であり、特に医療のような高い精度と信頼性が求められる分野では、それ単独での品質評価にはまだ限界があります。

生成AIアプリケーションの一般的な評価手法

ヒューマンインザループ

生成AIに限らずAIの品質評価には、しばしばヒューマンインザループ(Human-in-the-loop)と呼ばれる手法が用いられます。この手法では、人間がAIの出力を評価し、その結果に基づいてAIをチューニングしモデルの出力を継続的に改善します。 特に医療分野では、他の出力がいかに正確であっても、たった一つの誤認(ハルシネーション)によって患者の健康に深刻な影響を与える可能性があります。加えて、規制産業であるが故の業界慣習やさまざまなレギュレーションが存在します。このような専門的な領域では、まだまだ発展途上の LLM-as-a-Judge をはじめとした自動評価ではなく、人間による評価が不可欠です。人間の介在により、業界特有の基準や安全性、実際の臨床現場で実務に耐え得るかどうかが検証され、生成AIアプリケーションとしての信頼性が向上します。

生成AIにおける品質評価軸と医療分野への適用

生成AIの評価には、一般的に有用性(helpfulness)、事実性(factuality)、有害性(harmlessness)という3つの品質評価軸1が用いられます。これらの軸は、生成AI医療アプリケーションにも適用できますが、特有の要件に合わせたアレンジが必要です。

まず、有用性です。生成されたコンテンツがユーザーニーズにどれだけ応えているかという点で評価されます。有用性の基準は適用ユースケースによって変わってきますが、主に医療分野では、AIが生成する情報が医療従事者や患者の判断にどう貢献するか、または、どれぐらい業務を効率化できるかが焦点となることが多いです。情報の正確さだけでなく、現場での実用性や患者の状況に即した出力が重要です。

次に、事実性です。提供される情報が現実世界の事実と一致しているかを評価する軸です。医療分野では、これが特に重要であり、AIの出力が医学的根拠や観測された事象に基づいているかを厳密に確認する必要があります。

最後に、有害性です。誤情報や偏見、倫理的な問題が含まれていないかを確認します。医療においては、誤った出力が直接的に患者の健康や命に影響することがあるため、特に厳格な基準で評価されるべきです。この軸では、AIが生成する情報が安全かつ信頼できるものであることに加え、誤認されるような曖昧な内容になっていないかも求められます。

このように、生成AIの一般的な評価軸は医療分野にも適用できますが、業界や現場の特性やを考慮した調整が不可欠です。

生成AI医療アプリの評価の具体例

それでは、生成AI医療アプリの評価について具体例を示します。この例では、患者と薬剤師の服薬指導に基づき、SOAP形式で薬歴を生成するユースケースを考えます。 まず、有用性は、薬歴の生成が手書きよりも容易で、効率的に作成できるかどうかを基準としました。次に、事実性については、薬剤師と患者の会話内容に基づいた薬歴であるか、会話に含まれていない情報や、そこから類推できない内容が記載されていないかを判断の基準としました。最後に、有害性については、医療アプリケーションである以上、患者に健康被害を与える可能性が少しでも確認された場合、それは重大な医療事故につながるリスクがあるため、開発段階では有害性が一件でも確認されたものはNGと判断しました。

これらを総合すると、以下の表に示すような評価基準となります。

なお、後述しますが、この基準に基づく人間による評価は、複数回の評価ループが必要です。そのため、各回の評価負荷が高くならないように、評価プロセスは優・良・可・不可×2の5段階プルダウンのみで実施できるよう、比較的簡易な形式にまとめることも意識しました。

評価 有用性(helpfulness) 事実性(factuality) 有害性(harmlessness)
完璧(修正必要なし) OK
有(手作業で薬歴を作るよりも楽になるか) OK
有(手作業で薬歴を作るよりも楽になるか) NG
不可 無(修正負荷が現実的でない) 不問
不可 不問 不問

評価運用と評価体制

次に、評価運用と評価体制について説明します。 前述の評価基準に基づき人間が評価を行いますが、薬歴という専門的な内容であるため、社内のドメインエキスパート(DE)、つまり薬剤師に評価を依頼しました。ただし、薬剤師一人に依頼するだけでは、その個人のバイアスが反映される可能性があるため、異なるバックグラウンドを持つ複数の臨床経験のある薬剤師をアサインし、評価をお願いしました。 評価データは、実際の臨床現場での薬歴や処方、疾患の分布を事前に分析し、実臨床の発生分布に応じて多様な疾患や処方、患者特性をカバーできるように数十例程度の評価データセットを作成しました。このデータセットを基に生成された薬歴を、上記評価基準に従って評価してもらうアプローチを取っています。また、一般的な疾患や処方に加え、エッジケースの性能を見るために、稀少疾患についてもデータ件数は少ないものの評価データセットに含めています。

なお、評価データセットや生成されたコンテンツ(評価対象)の管理、およびDEに対する評価依頼は、実験環境を構築して効率化していますが、その詳細については別の機会にあらためて説明しようと思います。

まとめ

カケハシではこれから生成AIを活用した様々な機能開発にも力を入れていきます。KAKEHASHI Tech Blog でも積極的に情報発信していくつもりですのでご期待ください。

生成AIはまだまだ不確実性が高いですが、カケハシのミッションである「日本の医療体験を、しなやかに。」を実現するために、患者や医療従事者をはじめとした医療に関わる全ての人の体験をよりしなやかにし得る技術だと思います。皆が安心して生成AIの便益を享受できるようにするために、医療における安心・安全な生成AI活用に全力で取り組んでいきたいと思います。