AIは医療現場で使えるか? 生成AIの診断能力は非専門医と同等であることが判明 大阪公立大学
生成AIに実際の医療現場で利用できる診断能力があるのか、医師との比較ではどうかを包括的な分析した大阪公立大学の研究で、生成AIの平均診断精度は52.1%で、医師全体と有意差がなく、非専門医との差もわずかであることが示された。
ただし、専門医は生成AIよりも診断精度が15.8%高く、有意差があった。生成AIは専門医の完全な代替とはならないが、医学教育や非専門医の診断支援などでの活用は期待できるとしている。
研究グループは、医療分野での生成AIの診断能力に関する研究論文83報について系統的レビューとメタ解析を実施。

研究は、大阪公立大学大学院医学研究科 放射線診断学・IVR学の田北大昂氏、人工知能学の植田大樹准教授らの研究グループによるもの。研究成果は、「npj Digital Medicine」にオンライン掲載された。
近年、ChatGPTに代表される生成AIが医療分野でも注目されている。AIは適切に活用すれば医療の質の向上にも貢献できる可能性はあるものの、現状ではさまざまな課題がある。
これまでに生成AIの診断能力に関する研究論文は多数発表されているが、それぞれ評価基準が違うため、実際の医療現場で利用できる診断能力がどの程度あるのか、医師との比較でどのような特徴があるのかなど、包括的な分析は行われていなかった。
そこで研究グループは今回、医療に関する生成AIの診断能力について2018年6月~2024年6月に発表された83報の研究論文を用いて系統的レビューとメタ解析を実施。
その結果、生成AIの平均診断精度は52.1%で、医師全体の方が9.9%高いものの有意差はなく、非専門医との差は、非専門医の方が0.6%高いもののわずかであることが示され、とくに生成AIの最新モデルについては、有意差はないものの、非専門医と同等以上の診断精度を示す場合もあった。
ただし、専門医は生成AIよりも診断精度が15.8%高く、有意差があった。生成AIは専門医の完全な代替とはならないが、医学教育での活用や非専門医の診断支援、医療資源の限られた地域での診断補助などでの活用は期待できるとしている。
研究グループによる、生成AIの医療に関する診断能力についての分析対象の対象となった83件の研究論文で多かったのはGPT-4(54件)とGPT-3.5(40件)で、その他にはGPT-4o、Claude 3、Gemini 1.5 pro、Llama 3 70Bなどの最新モデルも含まれていた。
評価された医療分野は、一般内科が27件と最も多く、次いで放射線科が16件、眼科が11件、救急医療が8件など、多岐にわたった。
「今後は、より複雑な臨床シナリオでの評価や実際の医療記録を用いた性能評価、AIの判断根拠の透明性向上、多様な患者群での検証など、さらなる研究が必要」と、研究者は指摘している。
大阪公立大学大学院医学研究科
A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians (npj Digital Medicine 2025年3月22日)