用于医学成像的AI评估临床转化的关键要求
人工智能(AI)在医学成像领域显示出巨大的前景。要将这一承诺转化为现实,需要对这些算法进行严格的评估。
为了制定评估核医学成像中人工智能(AI)的指南,圣路易斯华盛顿大学医学院马林克罗特放射学研究所(MIR)主任Richard L. Wahl博士,时任核医学和分子成像学会(SNMMI)主席,成立了SNMMI人工智能工作组,其中成立了一个评估小组。该团队由计算成像科学家,医生,物理学家,生物统计学家以及来自行业和监管机构的代表组成,由麦凯维工程学院生物医学工程助理教授和MIR放射学助理教授Abhinav Jha领导。
该团队提出的指南,即“核医学人工智能评估建议”(RELAINCE)指南,将发表在《核医学杂志》上。
“人工智能在医学成像方面显示出巨大的前景,特别是在核医学成像中,在从图像生成,增强和分析等众多应用中,”Jha说。“我们已经看到了这个领域的大量研究,包括我们自己小组的多篇论文。然而,对于这些算法的临床翻译,需要严格的评估。
“缺乏严格的评估可能会产生多种不良后果,包括降低研究结果的可信度,误导未来研究的方向,最重要的是,产生对患者无用甚至有害的工具,”Jha继续说道。“在我们的讨论中,发现有必要制定指导方针来进行此类评估。
例如,在开发用于处理低剂量获得的核医学图像的AI算法方面进行了大量研究。
“沿着这个方向,在我们自己的实验室里,我们开发了一种算法来处理低剂量的心脏SPECT图像,并对结果感到兴奋,因为生成的图像在视觉上看起来很棒,”Jha说。“但重要的不是它们是否看起来很棒,而是它们将如何完成图像所需的任务,在这种情况下,检测心脏缺陷。在这项任务中,与原始的低剂量图像相比,该算法的表现并不好。
“我们发现,虽然图像看起来不错,但在某些情况下,它们去除了病变,而在其他情况下,它们引入了假病变,”他说。
这些结果都不可接受,这表明需要根据临床任务评估算法。
该工作组建议,所有AI算法都应在临床任务上进行评估,并且评估应产生一个声明,该声明定义了评估算法的临床任务,人口统计学,成像程序和提取评估研究中使用的特定任务信息的过程,以及用于评估临床任务绩效的定量品质因数。
“对声明进行适当而清晰的定义,表明AI算法的预期用途和有效性至关重要,并且该声明应通过对AI方法的适当和广泛评估来证实,”阿姆斯特丹大学医学中心放射学和核医学教授,该论文的资深作者Roadd Boellaard说。“该声明应具体指出在哪些条件下和哪些患者可以使用该算法,以及可能导致不正确或更不准确的性能的任何限制或因素。
伊丽莎白·马林克罗特放射学教授、合著者Wahl表示,人工智能工作组已经产生了几篇重要的论文,这将有助于将人工智能方法从研究推进到核医学的临床实践。
“人工智能有可能在全球范围内传播专业知识,但如果实施不当,可能会传播不准确之处,”他说。“因此,Jha博士及其同事在RELAINCE标准方面的工作对于确保开发和部署有效的人群和特定于任务的AI方法非常重要。
该工作组提出了一个包含四类的框架,用于评估算法的承诺,技术任务特异性功效,临床决策和部署后功效。该框架背后的意图是,它将指导AI开发人员进行评估研究,为支持其预期主张提供证据。此外,工作组还提出了最佳实践,以评估四个类中每个类的AI算法。
“我们希望确保这些算法得到良好的评估,以便它们可以很好地协助临床任务,从而让患者得到最好的治疗,”Jha说。“我们希望人工智能提供帮助,而不是伤害病人。
版权声明:本文由用户上传,如有侵权请联系删除!