李闽榕万克峰
摘要:茅于轼先生《饥荒饿死人估算方法》在样本选择、模型构造与计算分析两个方面均存在不足。即使根据茅先生的分析逻辑,分别利用4类回归算法对人口总量进行估算,茅先生的二次多项式回归方法并非最优。而且,茅先生的人口波动正常年份选择方法不准确。基于凝聚聚类算法识别人口波动正常年份,计算得到正常年份人口计量指标,进而估算“三年自然灾害”饥荒饿死人口数量,结果表明“三年自然灾害”期间,全国非正常死亡万人,少出生万人,导致全国总人口减少万人。这与茅于轼先生计算得出饿死人数3000多万的结果,相去甚远。上述方法可用于估算突变年份的突变人口,对非正常人口增长与非正常人口损失具有一定的可操作性。
关键词:三年自然灾害;
人口波动;
人口增长;
人口损失
中图分类号:f326文献标识码:a文章编号:1005-2674(2013)
一、《饥荒饿死人估算方法》的方法科学吗?
茅于轼先生在《饥荒饿死人估算方法》一文中,利用9年(1950-1958年)的人口数据作为训练样本构造二次多项式回归模型,即用9年的人口总量数据来推导、估算1959-1961年的人口总量。即使模型实现了高度拟合的训练目标,其估算精度也通常无法保证。这种模型的分析结果,显然不能作为确定性的估算结论,甚至是否具有参考价值都值得考问。
1确定正常年份和非正常年份的方法不正确
确定正常死亡率,是推算非正常死亡率的前提。如果正常死亡率定得高,非正常死亡率就会低;
将正常死亡率定得低,非正常死亡率就会高。所以运用回归模型估算“三年自然灾害”的非正常死亡人口数,必须选定正常年份组成训练样本集合。近年来,许多专家学者在研究“三年自然灾害”的非正常死亡人口数时,之所以得到多种不同的结论,其中一个重要原因就在于对正常年份的选定逻辑不同,由此得出的正常死亡率自然也不会一样。对于人口出生率和死亡率发生突然变化的时间段,用以后时期的正常状况作为这一时间段非正常变化的标准,显然不合适。科学的方法应是选择发生突然变化之前的正常状况,作为比较分析的训练样本集。
表1列出国家统计局公布的1949-1970年全国人口统计数据。可以看出,1950-1952年全国人口死亡率都比较高,因为受国内战争、抗美援朝战争和自然灾害诸多因素的影响,人口死亡率都在17‰以上。有学者只选其中的单一年份,如人口死亡率最小的1957年作为正常年份;
同样有学者将1949-1970年之间人口出生率和死亡率的突变年份清除后,将剩余年份作为正常年份进行计算分析,这显然是不合适的。茅于轼先生在《饥荒饿死人估算方法》中直接将1950-1958年作为正常年份,自然更不合适。因为,1950-1952年在抗美援朝的影响下,人口指标不属于正常年份的范围。
2不能将拟合误差算作死亡人口
表1中包含国家统计年鉴统计的1958-1970年的总人口。茅于轼先生文中“年初总人口数”,应为“年末总人口数”。那么,茅于轼先生在《饥荒饿死人估算方法》一文所使用的数据,就全部错了年份,所得出的结论自然也是错误的。
1958年总人口为百万人,茅于轼先生估算的数字为百万人,相差百万人,比较精确;
1959年总人口数为百万人,茅于轼先生估算的数字为百万人,相差百万人,开始出现较为明显的差距;
1961年总人口数为百万人,茅于轼先生估算的数字为百万人,相差百万人,出现显著差距;
1962年总人口数为百万人,茅于轼先生估算的数字为百万人,相差百万人,差距继续扩大;
1970年末总人口数为百万人,茅于轼先生估算的数字为百万人,相差达到百万人,同实际人口总量差距巨大。
注:表中数据根据茅于轼先生《饥荒饿死人估算方法》一文所提供数据计算
人口增长在正常情况下主要取决人口出生率,从一个较长时期看,人口出生会维持一个比较平衡的增长率。根据表1数据计算,三年自然灾害之前的1956-1958年,平均人口出生率为‰;
三年自然灾害的1959-1961年,平均人口出生率为%0;
三年自然灾害之后的1962—1964年,平均人口出生率为39,84‰;
三年自然灾害加上前三年的六年间(1959-1964年),平均人口出生率为‰;
三年自然灾害加上前三年与后三年的九年中(1956-1964年),平均人口出生率为‰。通过以上比较可知,三年自然灾害对中国人口增长的影响只是暂时的,没有影响人口的长远正常增长。可见,茅于轼先生在《饥荒饿死人估算方法》一文中,依据其运用二次曲线数学模型拟合估算出的1959-1970年间各年度应有全国总人口数,存在着很大误差,这种误差主要是估算者的人为因素造成的,茅于轼先生将拟合误差全部算作死亡人口是不正确的。
3不能将推算出的再出生人口数列为死亡人口
有的专家学者认为,茅于轼先生估算出的1959-1970年间各年度应有全国总人口数,确实与国家公布的统计数据相差很大,但人是可以生育的,估算“三年自然灾害”以后的全国人口数量,必须考虑预期再出生人口因素。因为从人口预测理论和实践看,推算分析一个时期人口变化,对未来人口增长趋势的影响,需要考虑预期再出生人口因素。从这一角度讲,“三年自然灾害”期间的非正常死亡人口和少出生人口,都会对全国未来人口增长产生负面影响。但是,还必须看到推算再出生人口因素对未来人口增长产生的影响是有规律的,其与人的成长和生育周期密切相关。非正常死亡人口中有生育能力的人,能够对近期的人口出生率产生影响,少出生人口对人口增长产生影响则是代际的,即这部分人具有生育能力和生育责任后的人口出生率。同时,人类在遇到自然和社会环境突变的影响使人口数量突然减少时,会在自然和社会环境恢复常态后自发地提高出生率,这一机制会对预期再出生人口因素产生一定的弱化作用。
基于以上原因,在估算“三年自然灾害”期间全国总人口实际应有多少时,不应将根据非正常死亡人口和少出生人口推算的再出生人口归入非正常死亡人口。
二、定量分析需用多种方法进行验证
我们使用三次曲线数学模型、平均增长率估算模型、二次指数平滑模型、非季节指数模型4种数学模型,对“三年自然灾害”期间全国总人口进行拟合估算,并与茅于轼先生拟合估算的结果进行比较。无论从总体还是关键年份看,茅于轼先生运用二次多项式回归模型拟合估算的全国总人口,1958年、1961年、1962年的偏差率分别为%、%、%。使用三次曲线数学模型拟合估算的全国总人口,1958年、1961年、1962年的偏差率分别为%、%、%。使用年均增长率估算模型拟合估算的全国总人口数,1958年、1961年、1962年的偏差率分别为%、%、%。使用二次指数平滑模型拟合估算的全国总人口,1958年、1961年、1962年的偏差率分别为%、%、%。使用非季节指数模型拟合估算的全国总人口,1958年、1961年、1962年的偏差率分别为%、%、%。
综合评价以上五种数学模型估算的全国总人口数与国家公布的统计数据的偏差度,可以看出年均增长率数学模型拟合估算的人口数与国家公布人口统计数据的综合偏差度最小,为%;
二次指数平滑模型拟合估算的综合偏差度较小,为%;
非季节指数平滑模型拟合估算的综合偏差度居中,为%:三次曲线数学模型拟合估算的综合偏差度较大,为%;
茅于轼先生使用的二次多项式拟合数学模型拟合估算的综合偏差度最大,为%,比年均增长率数学模型的偏差度高出近10个百分点,表明其误差最大,最不科学(详见图2)。
三、“三年自然灾害”究竟饿死多少人?
“三年自然灾害”究竟饿死多少人?要分析清楚这个问题,必须对平均正常死亡率、非正常死亡率、正常死亡人口、非正常死亡人口、正常出生率、少生人口以及“三年自然灾害”期间全国总人口减少数量等几个关键数据,进行测算。同时,还必须使用多种数学模型来估算和验证“三年自然灾害”的死亡人口。
1平均正常死亡率和非正常死亡率
我们选择凝聚层次聚类的方法,分析“三年自然灾害”研究中“正常年份”选择问题。首先,对1949-1970年的数据进行定性分析。选择1949~1970年的数据是为了保证“三年自然灾害”[1959~1961]的前序与后序时间等长,这对于分析人口波动的前期特征与后期特征通常是有效的。“三年自然灾害”期间的出生率与死亡率与其余年份的差异较为明显。
图3是1949~1970年年人口出生率与人口死亡率的波动曲线,由图可知,“三年自然灾害”期间,人口出生率小于人口死亡率,人口出生率与人口死亡率的间隔是动态变化的。通过定性分析人口指标的动态变化特性,我们利用凝聚聚类的方法,对人口波动年份的类特征进行聚类分析。凝聚聚类实验的结果说明,凝聚聚类算法对于“正常年份”的确定是有效的。在短序凝聚聚类分析的前提下,我们构造1949-2010年的全序数据,并进行凝聚聚类分析。
通过分析两次聚类的聚类树状图发现,1958年人口指标与1959年的人口指标具有最大的同类度,与1961年也具有较高的同类度。因此,1958年、1959年和1961年三年凝聚为一类。这就说明,“三年自然灾害”在1958年已经出现明显的征兆,1960年达到波峰。相对于1959年与1960年,1958年的人口指标与两者都具有较高的同类度。这一结论与实际情况同样符合。
根据全序凝聚聚类的分析结果可知:1949~1954年间的六年依次凝聚为一类;
1955~1958年间的四年凝聚为一类;
1959~1960年的二年凝聚为一类。表3显示了1955~1958年间的凝聚系数,1955年与1956年的凝聚系数较小,1956年与1957年虽然凝聚为一类,但是凝聚系数相比于前者呈大幅增加。因此,1949~1958年间,1955年与1956年的人口波动指标应该属于较为正常的年份。需要特别指出的是,1955年在二次凝聚时,与1949年具有较小的凝聚系数,相比于1955年,1956年的波动应该相对“正常”。
可见,正常年份人口指标的设定,可以选择1955年与1956年的人口指标均值,或者选择1956年的人口指标。相比于选择单年作为“标准年”,双年均值可以较好清除单年特定扰动因素对计算结果的干扰。因此,我们选择将1955与1956两年的人口指标均值,作为计算的“标准年”。将1955年与1956年的人口死亡
平均正常死亡率=(‰+‰)/2=‰
非正常死亡率=人口死亡率一正常死亡率
1949—1961年分年度正常死亡率和非正常死亡率计算结果,如表4所示。
2正常死亡人口和非正常死亡人口
知道了正常死亡率和非正常死亡率,可以根据以下公式推算出正常死亡人口和非正常死亡人口数量(见表5):
正常死亡人口数=当年正常死亡率x当年人口
非正常死亡人口数=当年非正常死亡率x当年人口
“三年自然灾害”(1959—1961年)期间的非正常死亡人口合计万人,与茅于轼先生在《饥荒饿死人估算方法》中计算得出的仅1959和1960两年就饿死3634万人的结果相差甚远,仅为其%。
3正常出生率和少生人口
从表5中的数据可以看出,“三年自然灾害”期间的非正常死亡人口数,与茅于轼先生计算得出的两年就饿死3634万人的结果相差甚远。
与计算平均正常死亡率同理,对于一个人口出生率发生突然变化的时间段,用以后时期的正常状况作为这一时间段的非正常变化的参照物是不合适的,需要选择发生突然变化之前的正常状况作为比较分析的参照物。既然1955年与1956年在客观上是平均正常死亡率的正常年份,自然也应该是正常出生率的正常年份。高非正常死亡率、高正常出生率的“双高”并存的年份,从理论和实践上看都不应该是“正常年份”。
基于以上认识,将选定的正常年份1955年与1956年的人口出生率加总平均后,便可以计算出正常年份的平均正常出生率,进而推算出正常出生人口和少出生人口(见表6):
平均正常出生率=(‰+‰)/2=‰
正常出生人口数=当年正常出生率x当年人口
少出生人口数=(正常出生率-当年出生率)x当年人口
表6中的数据表明,“三年自然灾害”期间少出生人口合计万人,大于茅于轼先生在《饥荒饿死人估算方法》中计算得出1959和1960两年就少出生1624万人的结果。
4“三年自然灾害”期间全国总人口减少数量
知道了“三年自然灾害”期间的非正常死亡人数和少出生人数,就可以计算出这一期间全国总人口减少的数量:
“三年自然灾害”全国总人口减少(万人)=非正常死亡人数(万人)+少出生人数(万人)
=万人+万人=万人
“三年自然灾害”期间,全国非正常死亡万人,少出生万人,导致全国总人口减少万人。这一计算结果与茅于轼先生在《饥荒饿死人估算方法》中计算得出1959和1960两年全国总人口合计减少5259万人的结论相比,两者相差万人,前者仅为后者的65%。
四、结论
1上述分析的结果表明:“三年自然灾害”期间,全国总人口非正常减少万人。由于非正常减少的人口是由非正常死亡人口、少出生人口两部分组成的,不能将非正常减少的人口等同于饿死人口。
2“三年自然灾害”期间,全国非正常死亡人口万人。导致非正常死亡的原因有很多,既有水灾、旱灾、震灾和瘟疫,也有战争和其它突发事件,因此将非正常死亡人口都归罪于饿死是不正确的。
3“三年自然灾害”期间,全国少出生万人。虽然少出生人口中有一部分是属于育龄人口饿死而未能出生,但这部分未出生人口并没有饥饿经历,将之归入饿死人口显然是不正确的。
4运用包括茅于轼先生使用的二次多项式回归模型在内的五种数学模型,对拟合估算结果进行互相验证和比较分析的结果表明:茅于轼先生的方法综合偏差度最大,为%,比偏差度最小的年均增长率数学模型的偏差度高出近10个百分点,表明其误差最大,最不科学。
5需要特别说明的是,我们在使用多种数学模型对茅于轼先生使用的数学模型进行比较和检验时,之所以使用了与茅于轼先生相同数量的年样本,一方面是受有效年样本数量不足的限制;
另一方面是便于同茅于轼先生所使用的数学模型进行比较和检验。我们通过使用多种数学模型进行估算和验证,并运用短序列凝聚层次聚类、全序凝聚聚类等方法努力排除扰动因素对人口增长的干扰,估算结果充分证明了茅于轼先生对三年自然灾害期间非正常死亡人口的估算是不正确。
6“三年自然灾害”期间发生了全国性的饥荒,有些人因为缺少食物而饿死,这些都是客观存在的历史事实。本文是在尊重上述历史事实的基础上,运用现代数学模型检验茅于轼先生对“三年自然灾害”期间全国非正常死亡人口的估算结果,并得出尽可能符合客观实际的估算结论。
责任编辑:郑洪昌