Skip to content

Instantly share code, notes, and snippets.

@iEricKoh
Last active March 27, 2026 11:36
Show Gist options
  • Select an option

  • Save iEricKoh/b70b1b9a92086c3900476f2bac056ce3 to your computer and use it in GitHub Desktop.

Select an option

Save iEricKoh/b70b1b9a92086c3900476f2bac056ce3 to your computer and use it in GitHub Desktop.
数字化与AI时代的死亡率研究:数据生态转变与方法论张力(中文版)

数字化与人工智能时代的死亡率研究:数据生态转变与方法论张力

一、从专用采集到重新利用:数据认识论的结构性转变

前述方法论演进中,每一阶段的分析工具都依赖于"目的性采集"的数据——生命登记系统记录死亡事件,截面调查采集健康状态,纵向面板追踪状态转移。这些数据的共同特征是:它们是人口学家为了回答人口学问题而设计并实施的数据采集活动的产物。

数字化时代的根本变化不在于某种具体技术的出现,而在于数据来源的认识论转变:从"向人群提问"转向"从人群的数字痕迹中提取信息"。电子健康记录(EHR)是为临床诊疗产生的,手机信令数据是为通信计费产生的,可穿戴设备数据是为个人健康管理产生的——它们都不是为人口学研究而设计的,但都可以被重新利用(repurposed)为人口学分析的输入。

这一转变带来了三个层面的结构性后果。

二、第一层:传统瓶颈的放松

数字数据正在逐一松解前述各方法论节点面临的具体数据约束。

多状态模型的数据瓶颈。 多状态生命表(Rogers & Ledent, 1976; Schoen, 1988)的核心需求是个体层面的纵向健康状态转移数据,传统上只能通过昂贵的追踪调查(如美国HRS、欧洲SHARE)获取。将大规模EHR与死亡登记数据链接,使得转移概率的估计可以在前所未有的样本量和时间分辨率下实现(Kashyap et al., 2022),从根本上改变了多状态分析的可行性边界。

发展中国家的死因判定瓶颈。 生命表最基础的输入——分年龄分死因死亡率——在低收入国家受制于医学认证的覆盖率(全球约半数死亡未经医学认证)。口头尸检(verbal autopsy)是替代方案,但传统上依赖医师逐例审阅。McCormick等(2016)提出的InSilicoVA算法采用贝叶斯层级框架对口头尸检数据进行概率性死因分配,在多国验证中表现接近医师审核水平。近年来,基于BERT等预训练语言模型的自动编码方法在此基础上进一步提升了处理效率(Fiksel et al., 2020)。这一进展直接扩展了生命表和死因分解方法在数据匮乏环境中的适用范围。

健康预期寿命的测量频率瓶颈。 Sullivan方法(Sullivan, 1971)依赖每隔5至10年的截面健康调查来获取患病率信息。可穿戴设备和移动健康数据提供了连续、被动、客观的健康状态监测可能,预示着健康预期寿命的测量将从低频快照转向高频实时估计(Kashyap et al., 2022)。尽管这一应用目前仍处于概念阶段,但其方向性含义是清晰的:数据频率的量级跃升可能从根本上改变Sullivan方法与多状态方法之间的权衡格局——当连续监测数据可获得时,Sullivan方法赖以存在的理由(数据简约性)将大幅减弱。

然而,每一个瓶颈的松解都伴随着一个对称性问题:代表性偏差。 EHR覆盖的是就医人群而非一般人群;数字痕迹数据系统性地遗漏不使用智能手机的老年人和贫困人口。这并非边缘性的技术细节——在死亡率研究中,被遗漏的恰恰是死亡风险最高的群体。传统调查的优势在于其通过抽样设计保证代表性,而重新利用的数据缺乏这一保障。如何在利用数字数据的规模与频率优势的同时校正其代表性偏差,是当前方法论的核心挑战之一。

三、第二层:解释与预测之间的范式张力

传统死亡率分析方法的核心认识目标是因果解释:生命表回答"活多久",健康预期寿命回答"健康地活多久",分解方法回答"哪些年龄组和死因贡献了多少",Lee-Carter模型回答"未来死亡率如何变化及其不确定性"。这些方法都可以被追问"为什么"——它们的参数具有人口学含义,分析结果可以指向可干预的因素。

机器学习和深度学习引入了一种不同的认识目标:模式预测。Nigri, Levantesi和Marino(2019)率先将LSTM网络集成到Lee-Carter框架中,以捕捉时间指数$k_t$的非线性动态。Camarda和Basellini(2021)在European Journal of Population上提出的三成分平滑Lee-Carter模型则从分解角度改善了预测的人口学可解释性。Basellini, Camarda和Booth(2023)对Lee-Carter方法三十年发展的系统综述指出,深度学习扩展模型在样本外预测精度上系统性优于经典方法,但这一精度提升以可解释性为代价:Lee-Carter模型的$b_x$参数可以直接回答"哪些年龄组对死亡率改善最敏感",而深度学习模型只能输出预测值,不能提供等价的分解。

这一张力不是抽象的学术争论,而是具有实际政策后果的方法论选择。死亡率预测服务于社会保障精算、医疗资源规划和养老金制度设计等重大决策场景。在这些场景中,模型的透明性和可审计性可能比最后一个百分点的预测精度更为重要。类似地,当机器学习被引入微观模拟以替代传统参数化转移模型时,虽然在灵活性上有所提升,但政策模拟结果的可追溯性和可解释性随之下降(Bélanger et al., 2019)。

值得注意的是,Bohk-Ewald, Li和Myrskylä(2018)在生育率预测领域的发现对此处同样具有启发意义:当他们系统比较了20种预测方法的162个变体时,发现方法复杂度几乎不改善队列生育率的预测精度。这提示了一种可能性——人口学过程的内在随机性可能设定了预测精度的理论上限,而超越这一上限的复杂模型所增加的不是信号,而是对噪声的过拟合。死亡率预测是否存在类似的精度天花板,是一个值得系统性验证的经验问题。

四、第三层:算法公平性——传统方法论从未面对的维度

当机器学习模型被用于人口健康领域的风险分层或资源配置时,其在不同人口亚群间的表现差异从技术问题升级为伦理问题。

Riuttanen等(2024)基于芬兰全国电子健康记录构建的一年期死亡预测模型总体AUC达到0.944,但年轻女性的预测表现显著优于老年男性。Zhong等(2025)的系统综述在更大范围内确认了这一模式:纳入综述的绝大多数模型未包含社会经济变量,导致对社会边缘群体的预测系统性偏弱。

这意味着,如果此类模型被直接用于指导临床决策或公共卫生资源分配,它可能在算法层面复制并强化既有的健康不平等——死亡风险最高的群体恰恰是模型预测最不准确的群体。这与人口学作为一个学科减少健康不平等、服务弱势群体的规范性承诺形成了根本性的紧张关系。

传统人口学方法不存在这一维度的问题:生命表和分解方法是描述性的,不涉及个体层面的预测和分类决策。算法公平性是数字化方法论引入的一个全新的伦理-方法论交叉领域,要求人口学家发展出超越传统统计质量标准(如精度、无偏性)的评估框架。

五、小结

数字技术与人工智能并未改变死亡率研究的核心任务——测量和解释人口健康与死亡模式的时空变化。它们的作用是通过数据来源的结构性转变,同时放松了多个传统方法论节点的约束:多状态模型获得了更大规模的转移数据,发展中国家的死因判定获得了自动化工具,死亡率预测获得了更灵活的非线性建模能力。但每一个约束的放松都伴随着对称性的新张力——代表性偏差、解释性缺失、公平性风险。这些张力不是需要被"解决"然后被遗忘的技术困难,而是数据认识论转变的结构性后果,将持续塑造未来人口学方法论的发展方向。

参考文献

Basellini, U., Camarda, C. G., & Booth, H. (2023). Thirty years on: A review of the Lee–Carter method for forecasting mortality. International Journal of Forecasting, 39(3), 1033–1049.

Bélanger, A., Sabourin, P., Marois, G., Van Hook, J., & Rayer, S. (2019). A framework for the prospective estimation of ethno-cultural population diversity through microsimulation. Demographic Research, 41, 997–1028.

Bohk-Ewald, C., Li, P., & Myrskylä, M. (2018). Forecast accuracy hardly improves with method complexity when completing cohort fertility. Proceedings of the National Academy of Sciences, 115(37), 9187–9192.

Camarda, C. G., & Basellini, U. (2021). Smoothing, decomposing and forecasting mortality rates. European Journal of Population, 37, 569–602.

Fiksel, J., Datta, A., Amouzou, A., & Zeger, S. (2020). Generalized Bayes quantification learning under dataset shift. Journal of the American Statistical Association, 116(536), 1–44.

Kashyap, R., Zagheni, E., & Weber, I. (2022). Digital and computational demography. In J. Hunsinger et al. (Eds.), Research handbook on digital sociology (pp. 47–68). Edward Elgar.

Lee, R. D., & Carter, L. R. (1992). Modeling and forecasting U.S. mortality. Journal of the American Statistical Association, 87(419), 659–671.

McCormick, T. H., Li, Z. R., Calvert, C., Crampin, A. C., Kahn, K., & Clark, S. J. (2016). Probabilistic cause-of-death assignment using verbal autopsies. Journal of the American Statistical Association, 111(515), 1036–1049.

Nigri, A., Levantesi, S., Marino, M., Scognamiglio, S., & Perla, F. (2019). A deep learning integrated Lee–Carter model. Risks, 7(1), 33.

Riuttanen, A., et al. (2024). Deep learning-based prediction of one-year mortality in Finland. Nature Aging, 4, 1137–1147.

Rogers, A., & Ledent, J. (1976). Increment-decrement life tables: A comment. Demography, 13(2), 287–290.

Schoen, R. (1988). Modeling multigroup populations. Plenum Press.

Sullivan, D. F. (1971). A single index of mortality and morbidity. HSMHA Health Reports, 86(4), 347–354.

Zhong, Y., et al. (2025). Global performance of machine learning models to predict all-cause mortality: A systematic review and meta-analysis. Scientific Reports, 15, Article 26714.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment