学术期刊《自然》本周三刊登的两项研究,为医疗人工智能的潜力与局限提供了最新注脚。研究结果显示,两款专业医疗AI工具在受控模拟测试中,其诊断和治疗决策能力已可媲美甚至超越人类医生,但研究人员和独立专家均发出明确警告:这绝不意味着相关工具已准备好投入真实临床使用。

第一项研究聚焦于名为Mira的AI工具,由德累斯顿工业大学海德堡大学的学术团队联合开发。Mira能够调取电子健康档案中的患者数据,并从超过85000个选项中做出涵盖诊断检测、药物处方及手术安排的决策。研究团队以超过500个急诊科临床病例信息对其进行测试,这些信息通过模拟患者的AI代理以对话形式传递给系统。结果显示,Mira在阑尾炎、肺栓塞等八种病症上的综合诊断准确率达到了87.1%,显著高于由六位跨专科医生组成的评审小组的78.1%。参与开发的Jakob Kather将AI比作飞机自动驾驶系统,认为其可承担常规任务为医生减负,但强调“最终责任始终由医生承担”。

第二项研究则评估了谷歌基于其Gemini AI模型构建的Amie系统。Amie通过接收扮演患者的演员所提供的数据来生成回应,研究人员将其与21位全科医生在100个多次就诊案例场景中进行对比。结果显示,Amie在患者管理推理能力上与真实医生持平,且其制定的治疗方案与英国现行临床实践指南的契合度更高。在复杂病例的用药推理方面,Amie的表现甚至超越了人类医生。开发团队将此定性为“里程碑”,但同样坦承,测试所用的病例组合及基于文本的患者场景均不能代表真实临床环境,Amie“尚未准备好转化为真实应用”。

尽管成果斐然,两项研究均坦陈了关键局限性。Mira的论文指出,该工具仍会对“少数但不可忽视”的患者提出偏离最佳实践的诊疗建议,且AI代理提供的病例信息可能比急诊室患者的真实陈述更为结构化,遗漏和矛盾之处更少。Amie的开发团队也警告,系统存在潜在推理错误的问题。

来自牛津大学、爱丁堡大学等机构的独立专家在肯定研究严谨性的同时,也着重强调了模拟环境与真实临床之间的显著差距。牛津大学医学社会学教授Catherine Pope直言,这“与日常医疗保健中混乱、复杂的人类世界仍有相当距离”。爱丁堡大学健康信息学与数据科学讲席教授Julie Jacko则指出,AI模型体现的优势大多反映的是其方案的“精确性和完整性”,而非“临床正确性上的明显差异”。谢菲尔德大学的助理教授Wei Xing更对Amie优势的来源提出疑问,指出在某一基准测试中,通用AI模型的得分与Amie相近,暗示其优势可能更多反映的是AI模型整体的快速进步,而非其专门构建系统的特殊性。

从市场角度看,上述研究结果对医疗AI赛道具有重要的信号意义。它们首次在顶级学术平台上证明,专业医疗AI工具在特定、受控的场景下,已能提供优于通用消费级AI模型乃至人类专家的医疗建议。这无疑将提振市场对深耕垂直领域的医疗AI公司的信心。然而,研究同时划出的清晰边界——即从模拟成功到真实临床部署之间,仍需跨越数据复杂性、决策风险与伦理责任等巨大鸿沟——也为过热的资本预期提供了冷静的注脚。这场在《自然》杂志上展开的讨论,与其说是AI战胜医生的宣言,不如说是一份详尽的路线图,指明了通往未来医疗的机遇与仍需攻克的关键瓶颈。