JoVE Logo

登录

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

  • 摘要
  • 摘要
  • 引言
  • 研究方案
  • 结果
  • 讨论
  • 披露声明
  • 致谢
  • 材料
  • 参考文献
  • 转载和许可

摘要

我们描述了一种多阶段方法来衡量年龄数据的队列效应,从而在许多情况下可以在不牺牲数据质量的情况下消除数据。该协议演示了该策略,并提供了用于分析肝细胞癌数据的加权回归模型。

摘要

为了消除年龄和时期对年龄周期列联表数据的影响,采用多阶段方法来评估队列效应。最常见的肝脏原发性恶性肿瘤是肝细胞癌 (HCC)。HCC 与肝硬化有关,伴有酒精和病毒性病因。在流行病学中,通过使用年龄-时期-队列 (APC) 模型描述 (或预测) HCC 死亡率的长期趋势。确定每个队列的 HCC 死亡人数及其加权影响。加权平均值的置信区间 (CI) 相当窄(与等权重估计值相比)。由于置信区间相当窄,不确定性较小,因此使用加权均值估计作为预测手段。对于多阶段方法,建议使用基于回归模型的加权均值估计来评估年龄-时期列联表数据中的队列效应。

引言

最常见的原发性肝脏恶性肿瘤是肝细胞癌 (HCC)。其死亡率在男性中排名第五,在女性中排名第八(男性的 6%,女性的 3%) 1 在台湾,它是男性最常见的癌症,也是女性第二常见的癌症(21.8% 的男性和 14.2% 的女性) 2。据估计,自 2000 年以来,全球每年诊断出的 HCC 数量为 564,000 例,其中男性 398,000 例,女性 166,000 例 3。在流行病学中,解释年龄、时期和队列 (APC) 变量之间关系的最常见方法是年龄和时期相互影响,从而为所调查的疾病趋势创造独特的代际体验。

尽管这种概念化仍然具有年龄 + 队列 = 时期的精确线性联系,但暴露(预测因子)并不是出生队列中的固有因素。相反,我们提出,当变化导致不同的疾病分布时,存在队列效应。然而,由于年龄 + 队列 = 时期,这三个变量是线性相关的;只有在强制实施其他限制的情况下,才不可能使用年龄、时期和同期群的线性效应生成估计的年龄-时期-同期群 (APC) 模型。在这项研究中,我们澄清了这个问题以及我们在之前的出版物 4,5,6,7 中施加的潜在限制。

通过对列联表数据进行最轻微的猜想,多阶段方法 8 提供了三个阶段来评估队列效应。此外,由于中位数抛光不依赖于特定的分布或框架,因此它被用于各种类型的数据,例如比率、对数比率和计数。中位抛光是多相法中使用的主要技术。

来自双向列联表 9 的数据用于生成抛光中位数的发展。中位数抛光程序用于通过迭代地从每行和每列中减去中位数来消除年龄(即行)和时期(即列)的累积效应。该程序通常用于流行病学数据分析 10。这种技术的一个优点是,不需要对双向列联表中数据的分布或结构进行假设。因此,该技术被广泛用于表中包含的任何类型的数据,例如自杀数据 11。APC 模型也被用来描述疾病发病率或死亡率 5 的长期趋势。APC 模型通常假设年龄、时期和队列对疾病/死亡率的对数转换有累加效应。为了评估队列效应,所述方案生成了一个 APC 模型,用于通过加权回归进行完整的肝细胞癌 (HCC) 死亡率分析,从而支持对治疗效果的可靠预测和适度评估。

研究方案

1. 数据源

为了证明计算结果,我们使用了 1976 年至 2015 年台湾男性和女性 HCC 死亡率的年度数据。使用适用于 Windows 和 Microsoft Excel 的社会科学统计软件包 (SPSS) 24.0 版来执行本研究的方案。

  1. 让 HCC 医生根据国际疾病分类 (ICD) 代码 ICD 150 对患者的临床症状、实验室检查和医学影像结果进行分类,以给出诊断代码。
  2. 确保数据文件(另存为 CSV)包含年份(即期间)、年龄、同期群、死亡人数、年中人口数和死亡率作为列。
    1. 单击 File (文件) |导入数据 |CSV 数据 |打开。确保选中 Read variable names from the first row of the data (从数据的第一行读取变量名称) 旁边的框,然后单击 OK(确定)。确保将数据文件导入到 SPSS 中。
  3. 通过 SPSS 构建按年龄-时期组交叉的列联表数据。通常,我们将行变量定义为 age,将列变量定义为 period。如果数据以单个时期年(或单个年龄年)数据为特色,则必须将它们整合到一个时期组(或年龄组)中。然后,我们对不同调查年份对某个年龄组的态度进行了交叉制表。
    1. 单击 Analyze |描述性统计 |交叉表 ,然后在行旁边的框中选择 age 变量,并在列旁边的框中选择 period 变量。单击 Cells 并确保 Observed 旁边的框中有一个复选框。死亡人数(或年中人口数量或死亡率)的列联表可以通过上述步骤在 SPSS 中执行。
    2. 导出以 CSV 格式输入的列联表数据,以便通过其他软件进行分析。单击 File (文件) |导出数据 |确保所需的数据格式为 CSV |位置。此不可编辑的字段显示导出文件的安全位置。
    3. 文件名:单击 Select 以更改文件名。
    4. Export as type(导出为类型):从下拉菜单中选择 CSV 文件类型。单击 variables 以显示可用变量并选择变量表。默认情况下,源数据集中的所有变量都将保留用于导出的文件。研究人员可以使用这些表来指定要包含在导出文件中的源变量。单击 Export

2. 型号设置

注:多阶段方法由 Keys 和 Li 8 提出,并进行了图形调查。进行中位抛光分析以消除年龄和时期的累积影响;最后,对线性回归模型中队列类别中中位波兰阶段的这些残差进行回归,并使用列联表中的数据评估队列效应。

  1. 第一阶段的图形表示
    1. 创建年龄组和期间组的折线图。要检查跨年龄组或出生队列的出生队列,请在折线图中绘制跨年龄或周期的均匀出生队列。
    2. 导入包含列联表 mortality 数据的 CSV 文件。单击 File (文件) |打开 |浏览 以从文件夹中选择 CSV 文件。记得选择 所有文件 在旁边的下拉列表中 文件名 框。
    3. 单击 Open 打开 CSV 文件。突出显示死亡率应急数据的行和列,然后单击 Insert |图表 |折线图
  2. 中位抛光分析作为第二阶段
    1. 从每行和每列中迭代减去中位数,以消除 age 和 period 的累积效应。在中位数抛光阶段之后,保留回归过程的残差以评估队列效应。
    2. 计算总体中位数表和残差表。导入包含列联表死亡率数据的 CSV 文件(请参阅 2.1.1.2)。
    3. LN 用于列联表死亡率数据的每个单元格。单击 Formulas (公式) |数学和三角函数,然后选择LN。
    4. 数字:输入每个单元格的位置标签。确保列联表死亡率数据的每个单元格都采用 LN。单击 Formulas (公式) |更多功能 |Statistics 并选择 MEDIAN
    5. 数字 1:输入第一个单元格位置标签。
    6. 数字 2:输入最后一个单元格位置标签。确保生成的中位数存储在列联表的左上角旁注中。确保通过获取原始值(即 LN 死亡率数据)与总体中位数之间的差值来创建残差表。
    7. 计算行中位数(即每个年龄组的中位数),并确保它计算了响应年龄组的行中位数。单击 Formulas (公式) |更多功能 |统计 |选择 MEDIAN
      1. 数字 1:输入原始样品的第一个单元格位置标签。
      2. 数字 2:输入原材料的最后一个单元格位置标签。确保生成的行中值存储在列联表的左侧旁注中。
    8. 从行中位数中减去后创建新的残差表。确保从行中位数创建一组新的残差值,其中每个单元格都采用该行中每个响应变量的行中位数的减值。单击 = 并确保每行的整体单元格位置标签已减去左侧边距中位数的标签。
    9. 计算列中位数(即每个期间组的中位数),并确保它计算响应期间组的列中位数。单击 Formulas (公式) |更多功能 |统计 |选择 MEDIAN
      1. 数字 1:输入列的第一个单元格位置标签。数字 2:输入列的最后一个单元格位置标签。确保生成的列中值存储在列联表的上边距中。
    10. 从列中位数中减去后创建新的残差表。确保从列中位数创建一组新的残差值,其中每个单元格都采用该列中每个响应变量的列中位数减去的值。单击 = 并确保每列总体单元格位置标签都减去了上边距中位数的标签。
    11. 重复步骤 2.1.2.7 到 2.1.2.10,直到行和列中位数接近零。单击 Formulas (公式) |更多功能 |统计 |选择 MEDIAN。确保行和列中位数大约为零。以 CSV 格式保存最终残差表。
  3. 以权重为第三阶段的回归过程
    注意:我们将因变量计算为每个队列的残差,以死亡人数为权重。接下来,我们运行线性回归来计算队列效应。
    1. 确保 Kutools for Excel 已安装并使用其 转置表尺寸 工具快速将交叉表转换为平面列表。导入包含列联表残差数据的 CSV 文件(请参阅 2.1.2.11)。
    2. 选择要转换为列表的表格。点击 库工具 |修改 |转置表维度。在 Transpose Table Dimensions 对话框中,确保 Cross table to 列表旁边的框中有复选框,然后选择 Results 范围以列表格式存储残差。
    3. 在初始数据文件(参考 1.2)中插入列,其中包含残差列表格式数据(参考 2.1.3.1)。确保在残差列表格式数据中插入了支持列(参见 2.1.3.1)。点击= age & period variables,然后点击Enter。 使用支持列查找残留列表格式数据的年龄和周期组标签,以便在初始数据文件中插入响应残留列(参考1.2)。
    4. 单击 Formulas (公式) |查找和参考 |选择 VLOOKUP。设置VLOOKUP(年龄的单元格位置标签和周期的单元格位置标签,支持列的第一个单元格位置标签:残留列的最后一个单元格位置标签,4,0)。确保选择范围包括支持、年龄、时期和残留列(即 4列作为残留列表)。
    5. 确保在初始数据文件中插入残差(参见 1.2),查找残差列表格式数据(参见 2.1.3.1)以进行下一步。通过未加权的最小二乘法拟合回归模型并分析残差。
    6. 单击 Analyze |回归 |线性。将自变量 cohort category(即 17 个出生队列)转移到 Independent(s) 框中,将因变量 Residuals 转移到 Dependent: 框中。单击 OK(确定)。确保生成未加权的同类群组效应的结果。
    7. 确保将残差插入到初始 Excel 数据文件中(参考 1.2),查找残差列表格式数据(参考 2.1.3.1)以进行下一步。按加权最小二乘法拟合回归模型并分析残差。单击 Analyze |回归 |线性
    8. 将自变量和同期群类别(即 17 个出生同期群)转移到 independent(s) 框中,将因变量和残差转移到 dependent: 框中。将死亡编号转移到 WLS 重量框中。单击 OK。确保它生成同期群效应的加权平均值的结果。

结果

显示了 10 个五年年龄组(40-44、45-49、50-54、55-59、60-64、65-69、70-74、75-79、80-84 和 85+)和 8 个五年时间段(1976-1980、1981-1985、1986-1990、1991-1995、1996-2000、2001-2005、2006-2010 和 2011-2015)。通过从年龄段组的总数中减去 1 来选择队列组的数量:10(五年年龄组)+ 8(五年时间段)-1 = 17 个出生队列,出生队列组用队列中期表示为 1891、1896、1901、1906、1911、1916、1921、1926、1931、19...

讨论

由于 HCC 死亡率的时间趋势,传统模型低估了数据中隐藏的一些重要特征(例如队列效应),并且使用观察到的对数年龄校正率的简单线性外推的传统分析表明其预测的准确性显着降低。很明显,这种趋势已经持续了 35 年,如果我们直接观察 1976 年至 2015 年台湾 HCC 死亡率的长期趋势,未来几年将呈上升趋势(图 3)。事实上,台湾 HCC 死亡率的最新...

披露声明

作者没有什么可披露的。

致谢

这项工作得到了台北慈济医院 TCRD-TPE-109-RT-8 (2/3) 和 TCRD-TPE-109-39 (2/2) 的支持。

材料

NameCompanyCatalog NumberComments
not applicablenot applicablenot applicablenot applicable

参考文献

  1. Kuntz, E., Kuntz, H. D. . Hepatology: Principles and Practice. , 774 (2006).
  2. McGlynn, K. A., et al. International trends and patterns of primary liver cancer. International Journal of Cancer. 94 (2), 290-296 (2001).
  3. Bosch, F. X., Ribes, J., Diaz, M., Cleries, R. Primary liver cancer: worldwide incidence and trends. Gastroenterology. 127, 5-16 (2004).
  4. Tzeng, I. S., Ng, C. Y., Chen, J. Y., Chen, L. S., Wu, C. C. Using weighted regression model for estimating cohort effect in age-period contingency table data. Oncotarget. 9 (28), 19826-19835 (2018).
  5. Tzeng, I. S., Lee, W. C. Forecasting hepatocellular carcinoma mortality in Taiwan using an age-period-cohort model. Asia-Pacific Journal of PublicHealth. 27, 65-73 (2015).
  6. Tzeng, I. S., et al. Predicting emergency departments visit rates from septicemia in Taiwan using an age-period-cohort model, 1998 to 2012. Medicine. 95, 5598 (2016).
  7. Chen, S. H., et al. Period and Cohort Analysis of Rates of Emergency Department Visits Due to Pneumonia in Taiwan, 1998-2012. Risk Management and Healthcare Policy. 13, 1459-1466 (2020).
  8. Keyes, K. M., Li, G. A multiphase method for estimating cohort effects in age-period contingency table data. Annals of Epidemiology. 20, 779-785 (2010).
  9. Tukey, J. . Exploratory data analysis Reading: MS. , (1977).
  10. Selvin, S. . Statistical analysis of epidemiologic data. , (1996).
  11. Légaré, G., Hamel, D. An age-period-cohort approach to analyzing trends in suicide in Quebec between 1950 and 2009. Canadian Journal of Public Health. 104, 118-123 (2013).
  12. Lavanchy, D. Hepatitis B virus epidemiology, disease burden, treatment, and current and emerging prevention and control measures. Journal of Viral Hepatitis. 11, 97-107 (2004).
  13. Chang, M. H., et al. Universal hepatitis B vaccination in Taiwan and the incidence of hepatocellular carcinoma in children. Taiwan Childhood Hepatoma Study Group. New England Journal of Medicine. 336, 1855-1859 (1997).
  14. Lu, F. T., Ni, Y. H. Elimination of mother-to-infant transmission of hepatitis B virus: 35 years of experience. Pediatric Gastroenterology, Hepatology & Nutrition. 23 (4), 311-318 (2020).
  15. Chien, Y. C., Jan, C. F., Kuo, H. S., Chen, C. J. Nationwide hepatitis B vaccination program in Taiwan: effectiveness in the 20 years after it was launched. Epidemiologic Reviews. 28, 126-135 (2006).
  16. Ahmad, O. B., et al. Age standardization of rates: a new WHO standard. Geneva: GPE Discussion Paper Series. World Health Organization. , 31 (2005).
  17. da Silva, C. P., Emídio, E. S., de Marchi, M. R. Method validation using weighted linear regression models for quantification of UV filters in water samples. Talanta. 131, 221-227 (2015).
  18. Dawes, R. M. The robust beauty of improper linear models in decision making. American Psychologist. 34, 571-582 (1979).
  19. Dawes, R. M., Corrigan, B. Linear models in decision making. Psychological Bulletin. 81, 95-106 (1974).
  20. Einhorn, H. J., Hogarth, R. M. Unit weighting schemes for decision making. Organizational Behavior and Human Performance. 13, 171-192 (1975).
  21. Wang, W., et al. Association of hepatitis B virus DNA level and follow-up interval with hepatocellular carcinoma recurrence. JAMA Network Open. 3 (4), 203707 (2020).
  22. Holford, T. R. The estimation of age, period and cohort effects for vital rates. Biometrics. 39, 311-324 (1983).

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

HCC

This article has been published

Video Coming Soon

JoVE Logo

政策

使用条款

隐私

科研

教育

关于 JoVE

版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。