本项目旨在利用大数据计算框架 Spark 和编程语言 Python,对第七次全国人口普查数据
进行分析,通过分析各地区人口分布,全国、各地区人口受教育程度,人口增长情况,以及
各省 GDP,根据分析结果,对人口分布、结构、特征等方面进行深入了解和洞察,更好地
认识和把握人口变化的趋势和规律,从多个层面提供更有针对性和科学性的人口政策和社会
发展战略建议。本项目提供了七份采集自国家统计局网站的数据集,分别为各省 GDP、全国人口年龄
构成、各地区 15 岁及以上人口平均受教育年限、各地区每 10 万人口中各类受教育程度人数、
各地区人口、各地区人口年龄构成、各地区性别构成。
“各地区每 10 万人口各类受教育程度人数”数据集包含各地区的受教育程度信息,数
据字段包含地区、大学(大专以上)、高中(含中专)、初中、小学,统计单位为“人/10
万人”。
项目任务
任务 1 明确项目需求与目标
任务 2 环境准备
任务 3 数据读取与数据预处理
任务 4 各地区人口分布分析
任务 5 全国、各地区人口受教育程度分析
任务 6 人口增长情况分析
任务 7 各省 GDP 分析
任务 8 完成项目报告