项目3-数据挖掘
我们的项目根据收入水平检查了感知健康与实际健康之间的关系。 我们使用CDC的Natinoal Health Interview Survey的2019年数据和2019年全球疾病负担的权重数据,设计了一个综合健康评分作为实际健康的替代指标,然后运行了线性回归算法以识别任何感兴趣的模式。 我们发现,较高的收入与个人识别更好的健康状况的准确性提高相关,同时也降低了识别较差的健康状况的准确性。 对于较低的收入,事实恰恰相反,随着实际健康状况的降低,准确性也随之提高。 我们的发现得到了现有文献的证实,模型验证显示了66.67%的准确性。
NHIS数据链接: :
全球疾病负担数据的链接: :
书面报告链接:
要重现:我们的RMD文件包含在已硬编码的两个数据集之间重叠的必要变量。使用的NHIS数据集为“成人样本访问”,并下载了相应的CSV文件。 估算的健康评分权重也已进