当前位置: 首页 > 新闻 > 国际新闻
国际新闻
EMA认定首个AI临床试验工具,发布71页评审报告
发布时间: 2025-04-07     来源: 识林

3月20日,欧洲药品管理局(EMA)的人用药品委员会(CHMP)发布了首个基于人工智能(AI)的创新药物开发方法的资格认定意见。这一AI工具名为AIM-NASH,它能够帮助病理学家分析肝脏活检扫描图像,以确定代谢功能障碍相关脂肪性肝炎(MASH,此前称为非酒精性脂肪性肝炎,NASH)的严重程度。

MASH是一种脂肪在肝脏中积聚导致炎症、刺激和疤痕形成的疾病,与肥胖、2型糖尿病、高血压、异常胆固醇和腹部脂肪有关。目前,MASH的诊断通常依赖于肝脏活检,即从肝脏中取出小块组织以确认炎症和疤痕的存在。然而,由于病理学家对活检样本的炎症或疤痕严重程度的评估可能存在差异,这导致了MASH/NASH临床试验中存在较高的变异性。AIM-NASH工具的出现有望提高临床试验的可靠性和效率,减少疾病活动度(炎症和纤维化)测量中的变异。

CHMP在经过公开征求意见后,发布了对AIM-NASH工具的资格认定意见,这意味着该委员会明确表示可以接受该工具生成的证据作为未来申请中的科学证据。作为首个欧美监管官方公开认定的AI临床试验诊断工具,这将成为AI用于药品审评决策的里程碑。

但这个里程碑来之不易。资格认定意见长达71页,不亚于一篇顶刊AI技术研究论文,从该工具的使用流程,回溯其模型开发、工具验证、临床验证,且提供案例分析,全方位阐述监管的考量。AI工具该如何取信于人,该文件值得致力于AI应用和监管的业界人士仔细研究。

原理和使用流程:与人类病理学家的高效协作

该工具的技术平台包括全切片图像(WSI)扫描仪、AISight临床试验平台以及符合欧盟数据保护法规(GDPR)的信息安全管理系统。活检组织样本在筛选时(或根据试验方案在批准的时间窗口内)以及随访期间收集,需进行Masson三色染色和H&E染色。WSI扫描仪需在CAP/CLIA(或欧洲等效的ISO 15189)认证的实验室中使用,以40倍放大率扫描玻璃切片。AISight平台由PathAI开发,用于查看全切片图像和算法输出。

在临床试验环境中,AIM-NASH工具的使用不会显著影响整体试验流程。样本采集、样本制备、染色和扫描步骤与当前临床试验的流程一致。病理学家在验证研究中的资质得到了充分记录,包括不同专业经验年限。在工具验证后,将招募具有相应资质的病理学家,并使用符合当地法规和标准的实验室。

该工具的工作流程包括病理学家根据临床试验方案评估样本质量,如果样本质量可接受,则审查AIM-NASH生成的基于H&E和三色染色的NAS成分评分和纤维化等级。如果病理学家接受这些评分(每个特征在±1分范围内),则记录其同意并完成病例签署。如果存在2分偏差,则拒绝这些切片/WSI并送交共识审查。在极少数情况下,如果主要病理学家(试验病理学家)和共识病理学家(二级病理学家)对评分无法达成一致,则主要病理学家输入其评分作为最终结果。

模型的开发和验证:海量数据和专家验证

AIM-NASH工具的开发基于深度学习模型。该模型是在超过5000个肝脏活检样本上训练的,这些样本由59位病理学家进行了超过10万个注释,并且涵盖了九项大型临床试验,覆盖不同的NASH特征和纤维化阶段。开发过程中,模型通过识别组织学特征(如脂肪变性、小叶炎症和肝细胞气球样变)生成评分,并通过图神经网络(GNN)进行优化,以减少病理学家之间的评分差异。

在验证阶段,AIM-NASH工具通过独立分析验证(SAV)和集成分析验证(IAV)等步骤,证明了其在准确性、重复性和再现性方面的优越性。与人类病理学家评分相比,AIM-NASH在肝细胞气球样变的评分上表现更优,并在脂肪变性、小叶炎症和纤维化评分上达到了非劣效性。

为了进一步验证AIM-NASH工具在临床环境中的适用性,研究者们还针对其在AISight临床试验平台上的性能进行了评估。该平台允许病理学家通过全切片图像(WSI)查看AI生成的评分和组织学特征的叠加图。验证结果显示,AIM-NASH工具在WSI读取与玻璃切片读取之间的一致性上达到了非劣效性,表明其可以在临床试验中替代传统的玻璃切片读取方法。此外,AIM-NASH工具还通过了重复性和再现性的测试,证明了其在不同操作员、不同扫描仪以及不同时间点的稳定性。

AIM-NASH工具的开发和验证过程遵循了严格的科学方法,并通过了多项测试,证明了其在NASH病理评估中的准确性和可靠性。

临床验证和案例分析:基于实际场景

在完成模型开发和工具验证后,AIM-NASH工具还经历了临床验证,旨在评估其在完整工作流程中的性能,并包括病理学家的监督和输入。

验证研究的主要目的是证明AIM-NASH在测量NASH活动评分(NAS)各成分(脂肪变性、小叶炎症和肝细胞气球样变)以及纤维化阶段方面的准确性和精确性。研究使用了来自多个临床试验的样本,这些样本涵盖了不同的NASH特征和纤维化阶段。每个病例都由两位专家病理学家小组进行评分,必要时由第三方作为仲裁者。此外,还进行了独立手动读取(IMR),每个病例至少有三次独立读取。

验证结果显示,AIM-NASH在评估小叶炎症和肝细胞气球样变方面优于IMR,而在脂肪变性和纤维化方面与IMR相当。具体来说,AIM-NASH在小叶炎症和肝细胞气球样变的评分上显示出更高的准确性,而在脂肪变性和纤维化的评分上达到了非劣效性。此外,AIM-NASH在重复性和再现性方面也优于人类病理学家评分。

除了上述重重验证之外,AIM-NASH工具还被应用于多个已完成的NASH临床试验的后分析中,以评估其在实际应用中的表现。这些案例分析包括了对不同药物治疗NASH的临床试验数据的重新评估,例如FALCON 1研究(Pegbelfermin治疗NASH的2b期研究)、Resmetirom的2期研究、Semaglutide在非肝硬化和肝硬化人群中的2期研究等。

在这些案例分析中,AIM-NASH工具在某些情况下能够检测到人工忽视的药物治疗的效果。例如,在FALCON 1研究中,AIM-NASH检测到药物治疗组与安慰剂组之间的显著差异,而人工评估则未能检测到这种差异。此外,在Resmetirom的3期研究中,AIM-NASH与中央病理学家评估的结果一致,均显示出药物治疗的显著效果。

综上,AIM-NASH工具的开发遵循了迭代过程,包括模型训练、模型输出生成以及对输出的定性内部审查。在训练数据上达到满意的性能后,模型被部署在内部测试集上,并评估预定义的接受标准。在内部测试集上满足接受标准后,模型被部署在保留测试集上,并评估预定义的接受标准。 

代理服务