对人口普查数据的吐槽
前几天公布了第六次(2010)全国人口普查的一些数据,人口总数是13.40亿。去年做毕业论文,主题就是人口预测的随机模型。当时的基线数据是第五次(2000)全国人口普查的数据,模型的建构依赖于2000年之前公开在年鉴中的时间序列数据。毕业论文的“精髓”在于下面这张图:
需要说明的是,那只是个“纯”数学/统计的论文,事先就声明了不考虑数据质量的问题(只考虑作为时间序列的统一口径,也就是要求一个时间序列的数据是从同一年鉴的不同年份里抽出来的)。当时只给出了2050年的人口预测,刚才重新把程序拿出来,算了算根据这个模型得到的2010年人口预测,结果是这样的:
2010年人口总数预测值:13.61亿;
90%置信区间:[13.46, 13.77]亿;
普查数据公布的13.40亿大致落在98%置信区间的边界上。
也就是说,我们的模型严重高估了人口总数。
这是个槽,“严重高估”要加引号。数据质量问题现在就应该拎出来了,不仅是统计本身的质量,还有数据调整的质量。具体的槽点太多了,不一一吐了。还是爆个学术圈小八卦。
人大搞人口的,都说总和生育率还维持在1.8,人口红利还将延续,计划生育不应放松。
北大搞人口的,都说总和生育率降到1.3~1.5了,老龄化严重,劳动力人口比重下降,计划生育应尽速放开。
然后如果注意新闻的话,会发现六普数据公布前几天,中央学习人口形势,是人大翟振武去讲的。
* 感谢阿扬扬啊的MATLAB,不知道哪天我脑子抽抽了把MATLAB卸了……可是我的主程序是MATLAB写的……
![]() |
1000次模拟 |
需要说明的是,那只是个“纯”数学/统计的论文,事先就声明了不考虑数据质量的问题(只考虑作为时间序列的统一口径,也就是要求一个时间序列的数据是从同一年鉴的不同年份里抽出来的)。当时只给出了2050年的人口预测,刚才重新把程序拿出来,算了算根据这个模型得到的2010年人口预测,结果是这样的:
2010年人口总数预测值:13.61亿;
90%置信区间:[13.46, 13.77]亿;
普查数据公布的13.40亿大致落在98%置信区间的边界上。
也就是说,我们的模型严重高估了人口总数。
这是个槽,“严重高估”要加引号。数据质量问题现在就应该拎出来了,不仅是统计本身的质量,还有数据调整的质量。具体的槽点太多了,不一一吐了。还是爆个学术圈小八卦。
人大搞人口的,都说总和生育率还维持在1.8,人口红利还将延续,计划生育不应放松。
北大搞人口的,都说总和生育率降到1.3~1.5了,老龄化严重,劳动力人口比重下降,计划生育应尽速放开。
然后如果注意新闻的话,会发现六普数据公布前几天,中央学习人口形势,是人大翟振武去讲的。
* 感谢阿扬扬啊的MATLAB,不知道哪天我脑子抽抽了把MATLAB卸了……可是我的主程序是MATLAB写的……