學術期刊《自然》本週三刊登的兩項研究,為醫療人工智能的潛力與侷限提供了最新註腳。研究結果顯示,兩款專業醫療AI工具在受控模擬測試中,其診斷和治療決策能力已可媲美甚至超越人類醫生,但研究人員和獨立專家均發出明確警告:這絕不意味著相關工具已準備好投入真實臨床使用。
第一項研究聚焦於名為Mira的AI工具,由德累斯頓工業大學和海德堡大學的學術團隊聯合開發。Mira能夠調取電子健康檔案中的患者數據,並從超過85000個選項中做出涵蓋診斷檢測、藥物處方及手術安排的決策。研究團隊以超過500個急診科臨床病例信息對其進行測試,這些信息通過模擬患者的AI代理以對話形式傳遞給系統。結果顯示,Mira在闌尾炎、肺栓塞等八種病症上的綜合診斷準確率達到了87.1%,顯著高於由六位跨專科醫生組成的評審小組的78.1%。參與開發的Jakob Kather將AI比作飛機自動駕駛系統,認為其可承擔常規任務為醫生減負,但強調“最終責任始終由醫生承擔”。
第二項研究則評估了谷歌基於其Gemini AI模型構建的Amie系統。Amie通過接收扮演患者的演員所提供的數據來生成回應,研究人員將其與21位全科醫生在100個多次就診案例場景中進行對比。結果顯示,Amie在患者管理推理能力上與真實醫生持平,且其制定的治療方案與英國現行臨床實踐指南的契合度更高。在複雜病例的用藥推理方面,Amie的表現甚至超越了人類醫生。開發團隊將此定性為“里程碑”,但同樣坦承,測試所用的病例組合及基於文本的患者場景均不能代表真實臨床環境,Amie“尚未準備好轉化為真實應用”。
儘管成果斐然,兩項研究均坦陳了關鍵侷限性。Mira的論文指出,該工具仍會對“少數但不可忽視”的患者提出偏離最佳實踐的診療建議,且AI代理提供的病例信息可能比急診室患者的真實陳述更為結構化,遺漏和矛盾之處更少。Amie的開發團隊也警告,系統存在潛在推理錯誤的問題。
來自牛津大學、愛丁堡大學等機構的獨立專家在肯定研究嚴謹性的同時,也著重強調了模擬環境與真實臨床之間的顯著差距。牛津大學醫學社會學教授Catherine Pope直言,這“與日常醫療保健中混亂、複雜的人類世界仍有相當距離”。愛丁堡大學健康信息學與數據科學講席教授Julie Jacko則指出,AI模型體現的優勢大多反映的是其方案的“精確性和完整性”,而非“臨床正確性上的明顯差異”。謝菲爾德大學的助理教授Wei Xing更對Amie優勢的來源提出疑問,指出在某一基準測試中,通用AI模型的得分與Amie相近,暗示其優勢可能更多反映的是AI模型整體的快速進步,而非其專門構建系統的特殊性。
從市場角度看,上述研究結果對醫療AI賽道具有重要的信號意義。它們首次在頂級學術平臺上證明,專業醫療AI工具在特定、受控的場景下,已能提供優於通用消費級AI模型乃至人類專家的醫療建議。這無疑將提振市場對深耕垂直領域的醫療AI公司的信心。然而,研究同時劃出的清晰邊界——即從模擬成功到真實臨床部署之間,仍需跨越數據複雜性、決策風險與倫理責任等巨大鴻溝——也為過熱的資本預期提供了冷靜的註腳。這場在《自然》雜誌上展開的討論,與其說是AI戰勝醫生的宣言,不如說是一份詳盡的路線圖,指明瞭通往未來醫療的機遇與仍需攻克的關鍵瓶頸。