癌症是全球公共卫生的重大负担,到2030年估计每年有2170万新发癌症病例和1300万人死于癌症。尽管在癌症筛查、诊断和治疗上投入了大量资金和资源,但据估计2022年仅美国就有609,360人死于癌症。
谈癌色变的原因
谈癌色变,可能是因为我们对癌症的了解还不够深入。就如同一个人来到新的生活或工作环境,一开始总会变得紧张警惕。但随着熟悉程度增加,人就会放松下来。
可我们在未来几年乃至十几年就能深入了解癌症的发病机理、预防和治疗方案等问题吗?我不敢随意预测。我们当下可以着手做的为数不多的事情之一,还是那句被保险和医疗机构大加推广的话术:早发现早治疗。
微软创始人比尔盖茨获得巨额财富后,总想着要为人类做些什么。这不,比尔及梅琳达·盖茨基金会(Bill & Melinda Gates Foundation)全球卫生部疾病建模研究所就在癌症上下功夫。他们的研究人员认为导致癌症高死亡率的主要原因有2个:一个是缺乏有效的癌症筛查工具,错过了在早期发现癌症的最有效机会窗口;另一个是缺乏针对量身定制的癌症预防的个性化风险管理。
因此,开发准确、安全以及成本可控的癌症筛查方法,对癌症预防是至关重要。比尔盖茨的团队就开始行动了,在介绍他们的工作之前,让我们先看一看癌症检测方式的现状。
常用癌症检测方式与弊端
组织活检一直被用于诊断癌症并且通常被认为是金标准。也就是从器官(比如肺或者胃等)取一小块,放到实验室中去检测是否癌变。
但这种方式不可能经常进行,取的一小块组织也并不一定能代表整个器官的健康状况。此外,外科手术是有创的、耗时、伴随疼痛和并发症风险,而且花费也不少。
这一系列问题限制了人们使用这种方式来做癌症筛查。筛查的少了,当然就达不到早发现早治疗的目的。
液体活检为癌症筛查提供了一种非侵入性的替代方法。也就是通过体液(通常是血液)中的循环肿瘤 DNA这种生物标志物来诊断癌症。
但这种技术目前也存在弊端,比如循环肿瘤 DNA在体液中的含量并不多,特别是在癌症早期,如何在含量很低的情况下检测并做出诊断面临挑战。
其次,诊断结论的可信度也无法保证100%,也就是存在假阳性或假阴性的可能,这会为受检者带来额外的负担。
还有,液体活检即使发现确实有癌变存在,但目前也面临着无法准确识别体内肿瘤所在部位的挑战。
统计活检,人工智能主导癌症病前检测
既然如此,比尔及梅琳达·盖茨基金会全球卫生部疾病建模研究所和耶鲁大学等研究人员就在想:有没有一种更加便利、无创且准确的癌症检测方式?
统计活检,就被这个研究团队提了出来。
研究人员在报告中写道:“为了个性化早期癌症检测和预防,需要对每个人的各种癌症进行准确的风险评估。因此,我们开发了一种基于个人健康数据深度学习的新型癌症风险分析器,以实现更好的风险分层和更精确的筛查。我们假设每个人都有自己的健康数据宝库,其中包括临床和人口统计数据、家族史、社会行为、饮食和生活方式数据,可以用于训练和验证一个深度学习模型,该模型能够在疾病发作前发现癌症,具有高敏感性和特异性,毒性最小,可普及性最大。“
对于人工智能不熟悉的朋友来说,可能对研究人员说的话仍旧一知半解。统计活检究竟是怎么来发现一个人有没有癌症?
其实原理也不是特别复杂。首先,有2个记录了许多真实用户信息数据库,一个叫PLCO数据库,另一个叫UK Biobank数据库(英国生物银行数据库)。
PLCO 是一项随机对照试验,旨在研究前列腺癌、肺癌、结直肠癌和卵巢癌筛查方法的有效性。1993 年 11 月至 2001 年 7 月期间,PLCO 在美国招募了 154,897 名 55-75 岁的参与者。参与者被跟踪了 13 年,直到他们患上癌症或去世。
UK Biobank 是一个大型生物医学数据库,试图通过收集和维护数量惊人的信息来加速医学和公共卫生研究。从 2006 年到 2010 年,他们招募了 50 万参与者。经常进行多种数据类型的跟进和补充。
简单来说,2个数据库都有许多参与者长期的信息,包括职业信息、家族信息、生活和行为方式信息、生理指征、患病信息(包括是否患癌症以及癌症种类)等。
研究人员用PLCO数据库来训练了一个人工智能神经网络,简单来说就是一个可以用于做患癌风险预测的计算模型。完成训练之后,你就可以输入自己多年的个人信息(包括家族信息、职业信息、生活和行为方式信息、生理指征),然后计算模型就会给出你将在5年内患上某种癌症的风险数值。
下图就是该计算模型对癌症风险结果的形象化表示。在左图中,我们看到了对一个真实男性进行患癌风险的预测,表明他患结直肠癌和前列腺癌的风险很高,但基本上没有患其他癌症的风险。在右图中,对一名真实女性进行了相同的分析,发现她患大多数癌症的风险都为中等。
在这个人工智能神经网络模型训练完成之后,研究人员就用它去测试之前完全没有接触过的其他真实参与者的数据(UK Biobank数据库),也就是做癌症风险预测,然后与这些真实个人的患癌与否的信息做对比,发现它的预测效果非常好。
研究人员在报告中写道:“拟合神经网络以预测所有 17 种癌症在 5 年内的癌症发病率是非常成功的。查看 PLCO 数据的 ROC(下图中的虚线),分类器对每种癌症都近乎完美。通过查看各种有效性指标进一步证实了这一点。在此训练数据中,没有任何癌症的 AUC 低于 0.98、知情度低于 0.85 或诊断比值比低于 270。“
做出改变,调试你的身体
当然,研究人员做报告总存在夸大自己的研究成果的嫌疑。他们也诚实地强调了自己的研究成果存在一些局限,比如对部分癌症种类的预测准确性还不够好,以及对男性患癌风险预测的准确性要低于女性。同时这个模型使用的数据主要是生活在富裕国家的白种人,言外之意就是对其他人种或者发展中国家的预测准确性暂时还未知。
有人会觉得它是一个准确性还不够的噱头,又来忽悠我相信人工智能会改变世界了是吧?但是,我们要知道它已经有不错的表现,也就是原理上可行。而且随着人们沉淀的数据越来越多,研究人员的不断调试改进,它还可以不断进步。当它有一定准确性时,它的非侵入性和安全性就会发挥优势。拓展得更开一点,能预测癌症风险,那么其他困扰我们的慢性病(高血压、糖尿病等)同样可以预测。
敏锐点可以发现,这种利用个人数据就能进行疾病风险预测的”统计活检“将有可能为我们的医疗和个人健康管理系统带来巨大改变。
将带来什么?预测-改变-再预测-再改变,把疾病的危害尽量控制起来。也就是,治未病。
不论是组织活检还是液体活检,我们都难以做到经常性检测。但是统计活检有所不同,只要你不停积累自己的数据,你就可以观察到不断更新的疾病风险预测报告。
也就是说,你甚至可以像程序员一样调试自己的身体。比如改变某些不好的生活方式,或者调整饮食结构一段时间后,然后再利用自己最新的数据来进行“统计活检”,观察自己的患病风险发生了什么变化。
随着电子病历、可穿戴设备、居家健康设备、基因检测等领域的发展,个人健康相关数据已经在逐步积累,这为利用个人健康数据来预测疾病的“统计活检”提供了更好的想象空间。
研究人员说:“如果集成到现代电子病历 (EMR) 系统中,它(统计活检)可以提供一种经济高效且安全的实时癌症筛查方法,为预防性干预和筛查决策提供信息。该模型将构成面向用户的移动健康平台的支柱,它不仅可以让个人实时评估他们的癌症风险,还可以看到某些预防措施或生活方式改变对这些风险的影响。”
“在短期内,我们希望这个移动健康平台不仅能帮助个人进行早期癌症检测,还能建立一个由用户同意的个人共享的庞大且多样化的纵向数据集中不断改进这个模型。”
“最终,我们设想这样的模型将集成到 EMR 系统中,每次个人去看医生、完成医学检查等时,它都可以更新其预测。它将帮助医生和患者,根据需要促进有关癌症预防和筛查的对话。此外,随着模型因更多数据而成熟,它还可以提供有关哪些检测或诊断可以更准确预测癌症风险的信息,以及此类诊断的时间点和间隔频率的信息。”
认清价值和局限,不要单纯为数据指标而活
利用个人健康数据和人工智能来进行疾病风险预测是件很酷很新鲜的事情,随着用的人越多,它会表现得更加智能。2023年,大家都在为OPENAI的chatGPT的语言理解能力而惊讶,那么人工智能看病也很有可能让欢呼:它是一个具有大规模应用前景,且表面上有益于大众的服务。
但我觉得还有必要更深入地考察——它真的靠谱吗?
之所以要问这个问题,是因为哲学中讲明白了一个道理:人类的感知非真。也就是说,我们获得的信息以及从信息中发现的因果规律都是假象。这一点在哲学家休谟和康德那里已经论证过了,在王东岳先生的《物演通论》中更是剖析得十分透彻。
那么,从这个角度,我觉得很有必要清楚认识到统计活检这种疾病风险预测模型,以及依靠它来指导个人疾病预防行为的健康管理模式的价值与局限是什么?
首先,它得出的结论是相关关系,不是因果关系。就如同听到鸡鸣可能意味着天要亮了一样,这不代表鸡鸣是天亮的原因。所以,不能偏执地认为它破解了人体的奥秘,把某类生活方式或者医疗行为归结为导致疾病或预防疾病的本质原因,从而导致过度医疗或错误认知(比如偏执的认为节食可以延长寿命,实际上背后可能有非常复杂原因)。要知道,人体是一个复杂系统,疾病是这个复杂系统众多因素失调的综合表现。
更加值得注意的是,人工智能乃至利用检测检验诊断疾病的现代医学都建立在人类本身就不真的感知收集的信息之上,它经由人工智能这一层还未研究清楚的黑匣子又可能导致进一步的武断,从而出现意想不到的频繁出现的黑天鹅事件(还不确定这个事件具体会是什么,但它类似于调整一下高血压诊断标准就导致几千万人从正常血压变成高血压患者一样的情形,即人类被外在的算法或者标准所定义和左右)。
但话说回来,现代人已经没有太多选择的余地了。疾病已经数不胜数,生存环境已产生许多有形和无形地恶化,依靠人工智能来指导我们保持健康,确实存在可感知的便利和好处,使用上它或许是一种迟早的必然。
因此,了解它的好处与局限。用好它,而不是信仰它。因为它并不是生活的本质,它只是个工具,我们不能为数据指标而活。
最后,如果真的要做到人间清醒的话,可以这么想:如果人工智能都证明了健康生活方式可以调节癌症风险,那么也就意味着,你也可以不用着急去看它打出的分数,先去过上真正健康的生活。
参考文献:Statistical biopsy: An emerging screening approach for early detection of cancers doi.org/10.3389/frai.2022.1059093