美国 FDA 于 11 月 20 日和 21 日两天召集新的数字健康专家委员会讨论如何监管生成式人工智能(AI)医疗器械。会议期间,世界上最有影响力的监管机构之一试图控制世界上最强大、最不可预测的技术之一。
FDA 局长 Robert Califf 在会议一开始就警告指出,全国各地的临床医生告诉他,他们的医院和诊所采用这项技术是出于经济考虑,而不是为了照顾病人。“除非非常认真地对待这个问题,并与那些关心改善健康结局的人结成联盟,否则这项技术将以我们整体健康恶化为代价来提高利润。”
整个会议期间,来自科技公司、医疗系统和学术机构的顶尖专家们阐述了 FDA 面临的监管挑战。
人工智能精准医疗公司 Tempus 的高管 Noah Zimmerman 引用了一项调查,该调查发现,英国五分之一的医生报告使用 ChatGPT 来帮助处理从临床文档到诊断再到治疗选择的所有事情。“现实情况是,(临床医生)将转向通用(AI)工具,而通常没有适当的防护措施。这就是为什么这个专家会今天召开的会议如此重要。”
随后的讨论重点是 FDA 应如何调整其监管方法以适应这种与药物、传统器械和其它软件不同的人工智能,这种人工智能是动态的、不断变化的,有时甚至会出错。生成式 AI 对监管过程的每个阶段都提出了独特的挑战,从 FDA 的初步评估和审评到其在上市后监管这些工具的能力。
下面是对会上讨论内容的摘要:
上市前评估
由于生成式 AI 的响应变化多端,给 FDA 现有的审评流程带来了麻烦。与手术刀等其它器械不同,即使底层查询相同,生成式 AI 每次的表现都不同。
这意味着传统的统计性能指标根本行不通。这是因为底层事实和 AI 的响应都是变化无常和模糊的,因此评估人工智能的准确性和全面性变得更加主观。
专家会成员、圣路易斯 BJC 医疗保健公司数字产品和创新副总裁 Thomas Maddox 表示,“对我而言,输出可变性是这些工具的一个独特方面,尤其是在与临床医生或患者交谈时。我认为我们必须考虑如何评估和控制这一点。”
专家会成员建议,必须准确定义生成式 AI 的预期用途,依赖该技术的产品开发人员应披露有关其训练中使用的数据以及可能造成不确定性的情况的详细信息。
Buffalo 大学生物医学信息学教授 Peter Elkin 表示,“对于每个可能被考虑批准的模型,我们都需要一张模型卡,上面有训练该模型的确切数据集以及使用其数据的人的人口统计数据,这样我们才能了解其训练的广度。”
从这个意义上讲,FDA 的审评过程类似于评估人类医生的方法:审评员需要仔细审查生成式 AI 的训练,了解所需的监控水平,然后才能让它们在医院和诊所投入使用。
但,当大型语言模型的学习或推理方式与人类不同时,这一点很难做到。麻省总院和哈佛大学的放射科医生和自然语言处理研究员 Danielle Bitterman 告诉专家会,在美国行医执照考试中,她的实验室只是简单地在问题中切换了药品的品牌名和通用名,生成式 AI 就开始难以应对,尽管模型能够将品牌药物与其通用名称进行匹配。
美国国立卫生研究院(NIH)数字和移动技术项目官 Thomas Radman 表示,如果一家公司或医疗系统从现成的商业模型开始,那么也很难获得有关模型如何训练的信息,因为这些模型不会披露其训练数据库中的内容。
美国国家标准与技术研究院研究员 Gabriella Waters 表示,由于这些模型是基于概率运行的,并且会对其生成的每个单词掷骰子,因此当生成式 AI 模型得到正确结果时,我们应该比得到错误结果时感到更加惊讶。Waters 表示:“当你拥有一个以这种方式运行的模型时,在临床等高风险情况下部署它非常具有挑战性。部署后进行任何此类测试也有一定的风险。那太晚了。所有测试都需要事先进行。”
一些小组成员还建议,此类测试可能需要由独立机构进行,而不是由那些为了经济利益而不去发现或披露产品所有漏洞的公司进行。Radman 建议,像健康人工智能联盟、美国放射学院的评估人工智能计划或麻省总医院布莱根分院新推出的医疗人工智能竞技场这样的组织可能会对 FDA 有所帮助,因为它们可以将这项工作外包出去。
上市后监测
在美国最大的放射科诊所 Radiology Partners,生成式 AI 被用于将放射科医生口述的发现转化为与转诊临床医生分享的印象。Radiology Partners 临床人工智能副首席医疗官 Nina Kottler 分享道,如果未经放射科医生编辑,每 21 份报告中就有一份会出现临床上显著的错误。
专家会主席、美国心脏病学会首席创新官 Ami Bhatt 在会议期间表示,“说实话,Kottler 的 Gen AI 错误示例让我心悸。” Kottler 表示,美国 40% 的放射科诊所都在使用该工具,错误示例报告的结果是患者的右腿而不是左腿,错过了膀胱扩张等重要发现,并幻觉认为没有卵巢的男性患者可能出现卵巢囊肿破裂 —— 所有这些错误都被主管放射科医生发现了。
Tazbaz 表示,“虽然我们确实有一些上市后监测机构的要素,但一般来说,是由不良事件驱动的。因此,我认为,当我们考虑额外的监管,以真正正确地做到这一点时,必须拥有更主动的监管机构,以便在这些模型开始失效之前而不是失效之后监测性能。”
专家会被要求提出上市后的具体监测能力,他们首先默认进行大量的人工监督。他们讨论了建立一个中央数据库或注册表,以便监控生成式 AI 产品的准确性、安全性和有限使用,以及当产品所基于的基础模型发生重大变化时,将产品送去进行二次审查的必要性。
上市后监控系统可能要求报告以确定产品是否被应用于与产品所训练的数据非常相似的本地数据、产品误解的百分比和类型以及患者结果的长期跟踪。但专家会成员一再表示担心,实现这种主动监控的基础设施几乎不可能在所有医疗系统中实施 —— 这可能会加剧已经扩大的数字鸿沟。
Radman 表示,“我们在这里建议一个范式转变的过程,即转向上市后。”从长远来看,他建议考虑向生成式 AI 产品生产商收取使用者费用,以支持这些新的监控需求,并指出,“所有这些都需要花钱。”
四川省医药保化品质量管理协会第七届五
四川省医药保化品质量管理协会第七..关于举办四川省药品生产企业拟新任质量
各相关企业: 新修订的《中华人..四川省医药保化品质量管理协会关于召开
各相关单位: 经研究,四川省医..四川省医药保化品质量管理协会赴中国医
为及时了解行业发展,学习、领会国..宣贯党的二十届三中全会精神 推动协会
在金秋九月,高热酷暑气温下,为学..四川省医药保化品质量管理协会召开第七
四川省医药保化品质量管理协会第七..冉文萍秘书长拜访四川省医药保化品质量
近日,成都高新区生物产业联合会秘..关于启用《药品生产企业质量受权人培训
各相关企业: 四川省医药保化品..关于收取2024年度会费的通知
各会员单位: 在过去的一年里,..四川省医药保化品质量管理协会章程
会徽设计说明: 本标志以表现四..四川省应对新型冠状病毒肺炎疫情应急指
四川省应对新型冠状病毒肺炎疫情应..四川省应对新型冠状病毒肺炎疫情应急指
四川省应对新型冠状病毒肺炎疫情应..