OpenAI、ChatGPTの医療回答精度を大幅に向上

OpenAIはChatGPTの医療関連機能を新モデル「GPT-4.5 Instant」で強化したと発表した。同社の比較テストでは、正確性・明瞭さ・網羅性の3指標で医師が書いた回答を上回り、医療情報の誤り率が71%低下したとしている。

OpenAIは、ChatGPTの医療関連機能をGPT-4.5ベースの新モデル「GPT-4.5 Instant」によって強化したと発表した。同社が実施した比較テストによると、更新後のモデルは医師が作成した回答と比べて、正確性・明瞭さ・網羅性の3つの指標すべてで上回る結果を示したという。また、医療に関する情報の誤り率は71%低下したと、OpenAIは報告している。

AIと医療の組み合わせは、近年多くの企業が取り組む分野となっている。診断の補助や患者への情報提供など、AIが担える役割への期待は高まる一方で、誤った医療情報が提供された場合の健康リスクも大きく、精度と信頼性の確保が業界全体の課題とされてきた。そうした背景の中で、OpenAIが医療分野への機能強化に踏み込んだ今回の動きは、同社がAIの実用領域をより専門的な方向に広げようとしていることを示すものと見ることができる。

今回の比較テストはOpenAI自身が実施したものであり、正確性・明瞭さ・網羅性という3つの軸で医師の回答と新モデルの回答を評価した。医師が書いた回答を基準としてAIの品質を測るという手法は、医療AIの性能評価としては一定の説得力を持つ。ただし、テストの設計や評価基準の詳細は開発元による自己評価であり、独立した第三者機関による検証とは性質が異なる点には留意が必要だ。

医療情報の誤り率が71%低下したという数値は、実際の利用場面において意味のある改善と言えるだろう。医療に関する質問は、他の分野と比べて誤情報が与えるリスクが特に大きい。そのため、AIの回答が誤りを含む頻度を大幅に減らせたとすれば、一般ユーザーが日常的に健康上の疑問をChatGPTで調べるという使い方への信頼感が高まる可能性がある。

一方で、AIが提供する医療情報をどこまで信頼すべきかという問いは、今後も引き続き重要な論点となる。どれほど精度が向上しても、AIは個々の患者の状態を診察することはできず、医師による診断の代替にはなりえない。OpenAIもこの点は認識していると考えられるが、ユーザーがAIの回答を過信することへの注意は、引き続き求められる場面が多いと言える。

今後注目されるのは、今回の改善が実際の利用状況の中でどのような効果をもたらすかという点だ。性能評価における数値と、多様な状況での実用的な精度は必ずしも一致しないことがある。医療従事者や研究者による独立した評価や、実際の利用者からのフィードバックが積み重なることで、このアップデートの真価がより明確になっていくと見られる。

#OpenAI#ChatGPT#生成AI#医療AI#AIヘルスケア#LLM#AI精度

AI issue 編集部

コメントするにはログイン