本文基于The Innovation Medicine杂志发表的文章“Twelve practical recommendations for developing and applying clinical predictive models”,总结了预测模型在医学领域的开发与应用中的十二条关键建议。文章强调了预测模型在临床实施的重要性,并指出好的预测模型需要每个阶段的深思熟虑。建议包括预测模型开发前的临床考虑、选择预测指标、预测模型的样本量估算、处理缺失值和连续自变量、选择预测模型、合理筛选变量、从不同角度评价模型性能、内部和外部验证、模型更新、预测模型的impact评价以及模型的推广等。
预测模型和人工智能在医学领域的迅速发展,但临床应用仍面临挑战。文章提出了十二条关键建议,以指导预测模型的开发和临床实施,为临床决策提供更好的支持。
在开发预测模型前,需考虑是否有临床需求、类似模型的已有情况、模型的临床应用场景以及医生接受度等问题。
选择预测指标时需考虑是否容易获得、具有一致性、标准统一、客观可比和结果稳定等因素。
样本量估算需要结合实际情况,理解公式中参数的真正含义,并考虑EPP原则。
处理缺失值需要了解缺失机制和填补方法的合理性,处理连续自变量则需要结合统计学经验和临床应用场景。
选择预测模型时需权衡性能提高和临床应用方便,变量筛选方法应慎重选择。
评价预测模型性能至少应考虑区分度和校准度,并了解不同指标的各自缺点。
重视内部验证和外部验证的差别,并根据需要定期更新模型。
评价预测模型的impact需考虑对医生决策和患者结局的影响,并通过有影响力的专家推动模型的推广使用。
本文内容来自我们在The Innovation Medicine杂志发表的文章Twelve practical recommendations for developing and applying clinical predictive models。文章原文请点击文章最后的“阅读原文”,或直接点击下面链接:https://www.the-innovation.org/article/doi/10.59717/j.xinn-med.2024.100105![]()
近年来,预测模型和人工智能在医学领域迅速发展,但其临床应用依然面临挑战。鉴于此,我们提出了十二条关键建议,以指导预测模型的开发和临床实施。这些建议为预测模型的开发应用提供了一个全面的框架,并为每个阶段提供了详细指导。
必须认识到,一个好的预测模型不仅仅是统计软件的产物;而是需要在每个阶段都进行深思熟虑,因为在整个过程中可能出现潜在陷阱。此外,我们强调,在期刊发表一个预测模型仅代表部分验证,因为如何有效整合到临床实践中需要解决其他实际问题。
我们相信,本文中提出的建议将帮助临床研究人员提高模型开发和应用的质量,最终促进更好的临床决策。
这十二条建议分别是(具体内容请点击相应链接):
一、预测模型开发前的临床考虑
预测模型开发前,先考虑清楚,是否有必要开发这个模型;是否有临床需求;以前有没有已经开发的类似的模型;如果已经有,你的模型确定比原来的更好吗;模型有临床应用场景吗;临床医生会接受你这个模型吗:等等很多问题,都建议考虑一下。总而言之,建议你先在脑海中模拟一下拟开发模型的具体临床应用场景(比如哪些患者可以用这个模型,来了一个患者,如何应用这个模型帮助他/她。越具体越好),如果你自己都觉得模模糊糊,那需要考虑一下这个模型是不是真的有应用价值。
二、如何选择预测指标
预测指标可以考虑一下,这些指标是否是临床中容易获得的指标;是否具有一致性;各医疗机构是否是标准统一的;是否是客观可比的;是否是结果可靠稳定的。
三、预测模型的样本量估算
作为统计学家,我不会清高地说:你要用公式计算,你不会用,说明你不够专业。根据实际情况,你要是能够理解公式中参数的真正含义,那当然用公式计算更有依据。但不能奢望所有临床医生都对公式这么了解或者这么感兴趣,如果不是,那EPP原则也不失为一种可选方式。
四、如何处理预测模型中的缺失值
缺失的处理的确不容易,不仅要了解缺失处理的方法,还需要了解关于缺失机制的信息。这种要求其实挺高的,很多情况下,只能是自圆其说,能够从临床角度证明你这种填补是合理的,这就不错了。
五、如何处理预测模型中的连续自变量
处理连续预测变量, 这就需要有一定的统计学经验,并结合临床应用场景,综合考虑。从模型应用角度,不能一味只追求模型本身性能提高那么一点点,有时适当做点减法反而更有应用价值。从这一角度来说,统计学家不大建议的变量分箱不见得就不能用,要看实际应用场景。
六、如何选择预测模型
预测模型的选择同样不能只考虑模型本身提高那么一点点性能,需要权衡:在提高性能和临床应用方便之间,到底哪一头的跷跷板应该更高一些?
七、如何合理地筛选变量
变量筛选的方法不少,可能很多人在应用时并没有考虑太多,可能就是随便选一个。不过也有一些统计模拟给出了一定的结果,可以作为参考。
八、如何从不同角度评价预测模型性能
模型评价至少应考虑区分度和校准度,这很容易接受,但更难的是了解到不同指标的各自缺点。不要仅凭一个指标就轻易下结论说模型有多好,哪怕这个指标是用的很广泛的指标。
九、预测模型的内部和外部验证
不要太过于轻信内部验证所表现出的良好性能,这往往会让你对自己的模型过于自信。外部验证可以更客观地评价你的模型,虽然实施起来可能难度更大。尤其要注意不要把内部验证错当为外部验证。
十、预测模型更新
模型更新尽管并不是必须,但如果在临床中应用,恐怕就很有必要定期来更新一下你的模型。毕竟,人都是在变化的,数据也都在变化。
十一、预测模型的impact评价
impact评价的是模型应用于临床的效果,包括对医生决策的影响,以及对患者结局的影响。评价方法最理想的当然是用RCT,但实际中往往并不是一上来就用RCT,而是要考虑多种实际因素选择更具成本效益的研究设计。
十二、预测模型的推广
模型能够在其它医疗机构推广使用,往往主要靠的并不是模型本身的性能,而是更实际的该专业领域内有影响力专家的推动。
最后,衷心希望本文能够帮助临床医生提高预测模型的质量,能够帮助临床产生一些真正实用的预测模型。也希望预测模型千万不要泛滥,不要一言不合就要建个模型。我们要尊重数据、尊重模型、尊重科学方法,不要把它们降低为滥用的工具。