人人书

新中国人口学研究70年全文阅读

外国小说文学理论侦探推理惊悚悬疑传记回忆杂文随笔诗歌戏曲小故事
人人书 > 哲学心理 > 新中国人口学研究70年

第二节 人口统计学发展回顾

书籍名:《新中国人口学研究70年》    作者:张车伟
推荐阅读:新中国人口学研究70年txt下载 新中国人口学研究70年笔趣阁 新中国人口学研究70年顶点 新中国人口学研究70年快眼 新中国人口学研究70年sodu
上一章目录下一章
    《新中国人口学研究70年》第二节 人口统计学发展回顾,页面无弹窗的全文阅读!



一 人口统计数据的收集、整理及评估


人口统计数据的收集是人口统计学科建设的重要内容,也是开展人口统计分析工作、制定社会发展决策与规划的基础。第一次全国人口普查于1953年组织实施,是中国有史以来第一次使用现代科学方法在全国范围内进行的人口普查[2]。此后,中国分别于1964年、1982年、1990年、2000年和2010年顺利开展全国人口普查。人口普查工作的开展,不仅为各时期中国一系列发展规划的制定、重大人口政策的出台与调整实施提供了系统科学的数据基础,也直接促进了统计实践经验的积累和人口统计学科的全面发展。历经几十年,中国已形成了常规的、与国际接轨的人口普查制度和普查办法;历次普查的结果也为大量社会调查和统计研究工作的开展提供了不可多得的抽样框,对统计数据的交叉检验和质量评估提供了依据,由此推动了多种类、不同主题的社会抽样调查繁荣发展。



(一)人口普查


人口普查是世界多数国家定期开展的全国性人口登记与调查活动,其主要目的在于全面了解和把握特定时期人口的规模、结构、分布与主要变动特征,为制定人口与社会经济发展规划提供科学依据。1953年,中国开展了新中国第一次全国人口普查。此次普查以1953年7月1日零时为标准普查时间,针对中华人民共和国公民进行登记。普查的内容共包含6个项目,分别为本户地址、姓名、与户主关系、性别、年龄和民族。第一次全国人口普查的结果显示,1953年标准普查时点全国人口总数为601938035人[3];其中,男性占51.82%,女性占48.18%;城镇人口占比为13.26%,乡村人口占86.74%。第一次全国人口普查在新中国人口统计工作以及人口统计学科的发展历程中均具有里程碑式的意义,此次普查为全国人民代表大会选举的筹备实施、第一个五年计划的制订提供了直接支持,“它使历史上从来没有定论的全国人口总数有了一个确切的定论”[4]。

1964年中国开展了第二次全国人口普查。第二次全国人口普查应第三个五年计划制订的需要,为社会经济发展规划和人口发展状况的把握提供了重要的依据。时隔11年,此次普查仍以7月1日零时为标准普查时间。普查内容在第一次全国人口普查所设计项目的基础上,增加了文化程度、本人成分和职业3个项目,共计9项统计信息。据第二次全国人口普查数据公报,1964年普查时点全国人口总量为723070269人[5],男性占51.33%,女性48.67%;城镇人口占18.4%,乡村人口比重为81.6%。相对于第一次全国人口普查,此次普查项目的增加,特别是对文化程度信息的收集,对当时及后续的人口和社会经济统计、发展规划均具有重要意义。不过,此次普查实践也暴露了一些设计和操作问题,其中,关于职业的调查项目由于事先未规定统一明确的分类标准,加之调查过程中缺乏成熟完备的填答说明作指导,最终收集的职业信息质量较差,其实际统计效率和应用价值因此受限。尽管存在缺憾,第二次全国人口普查的实践与尝试仍为后续的人口普查和统计工作积累了直接的经验教训。

1982年中国顺利实施第三次全国人口普查。与前两次全国人口普查相比,第三次全国人口普查在筹备、设计和实施等方面不仅投入更多,而且其方案更为科学、成熟有效[6]。第三次全国人口普查的标准普查时间仍为当年的7月1日零时,普查对象明确界定为具有中华人民共和国国籍并在中国境内居住的人。此次普查共设计了19个项目,包括13项个人填答项目(分别为姓名、与户主关系、性别、年龄、民族、常住人口的户口登记状况、文化程度、行业、职业、不在业人口状况、婚姻状况、生育子女数和存活子女数、1981年育龄妇女生育情况)和6个按户填答项目(分别为户类别、本户住址编码、本户人数、本户1981年出生人数、本户1981年死亡人数、有常住户口已外出一年以上的人数)。普查结果显示,第三次全国人口普查时点全国人口规模为1031882511人,其中,男性占51.5%,女性为48.5%;城镇人口比重上升到20.6%。1981年全国人口出生率为20.91‰,死亡率为6.36‰;人口自然增长率为14.55‰。第三次全国人口普查是中国首次使用电子计算机处理普查数据的人口普查,这一创新性实践为后期的数据整理、存储、质量评估和统计分析提供了极大的便利,促进了普查和相关统计工作的效率改善。根据普查登记质量的事后抽样检查结果,1982年第三次全国人口普查对人口数的重报率约为0.71‰,漏报率为0.56‰,净误差率为0.15‰;性别、年龄误差率分别为0.03‰和6.15‰。这些数据表明,与同一时期世界其他国家和地区的人口普查相比,中国1982年第三次人口普查数据质量相对较高。

第三次全国人口普查工作不仅为中国人口统计积累了重要的数据信息和经验,也直接推动了人口普查制度的建立和完善。第三次全国人口普查刚刚结束,相关统计部门就初步部署了下一次人口普查的计划,明确了将于1990年开展第四次全国人口普查。同时,经过一系列细致周密的讨论和筹划,1986年公布的《中华人民共和国统计法》(以下简称《统计法》),确立了中国将定期开展十年一次人口普查的统计制度,《统计法》同时规定在两次普查中间进行一次小规模的全国人口抽样调查。

1990年7月1日零时,中国开展第四次全国人口普查[7]。第四次全国人口普查进一步明确了对普查对象的界定,即“具有中华人民共和国国籍并在中华人民共和国境内常住的人(自然人)”[8],此次调查共设计了21个项目,包括15个按人填报项和6个按户填报项。与第三次全国人口普查相比,第四次全国人口普查增加了对人口迁移信息的收集,包括个人在1985年7月1日常住地状况、迁来本地的原因。

此后,中国分别于2000年和2010年组织实施了第五次、第六次全国人口普查。这两次全国人口普查均以11月1日零时为标准普查时间,普查内容在延续第四次全国人口普查的基础上对具体普查项目进行了一定的增加和调整,普查方案自2000年起开始使用长表和短表相结合的设计,按照一定的概率抽样方案选取10%的户填报普查长表,其余90%的户填报普查短表[9]。2000年第五次全国人口普查时,长表所包含的普查项目为49项(按户填报23项、按人填报26项),短表调查项目为19项(按户填报10项、按人填报9项)。到2010年,长表调查项目减少到45项(按户填报17项、按人填报28项);短表调查项目减少到18项(按户填报6项、按人填报12项)。除此之外,与以往普查相比,2010年起,普查登记原则改用现住地登记原则,不再使用以往普查所使用的常住地登记原则。调整后的普查登记对象包括“现有人口”加“户籍外出人口”,每个人都须在现住地登记[10]。

综上所述,新中国成立70年来,中国已成功开展6次全国人口普查,按照普查制度,第七次全国人口普查已在按计划筹备之中。历次人口普查工作的开展,不仅为社会经济发展规划、人口政策的制定和调整提供了科学依据,也为中国人口统计和相关科学研究活动的开展奠定了坚实的基础。中国人口统计学科的发展,包含了大量人口普查的意义、理论与方法、具体实施办法、数据结果等的学术探讨。这些讨论凝聚了新中国成立以来历代人口统计学者在人口统计实践中积累的知识和智慧[11],对促进新中国人口统计学的发展具有开创性意义。

随着普查工作的不断开展,其设计不断科学化,普查内容日益丰富,并实现与国际接轨,普查实施的过程控制和数据质量明显提高。毋庸讳言,人口普查已成为中国反映国情国力不可替代的统计活动。除此之外,全国人口普查数据也为大量人口与社会抽样调查提供了较为完备、准确的抽样框,对设计和开展抽样调查发挥了不可替代的支撑作用。随着普查数据的收集和整理,特别是第三次全国人口普查的实施,全国范围内开始出现大量的抽样调查,这些抽样调查作为人口统计数据的重要组成部分,为统计资料的积累、质量校验与评估、人口统计研究的繁荣贡献了重要的力量。



(二)全国1%人口抽样调查


人口普查是全面、系统收集人口规模和结构等统计资料的重要手段,然而,由于成本高昂、组织和实施难度大,人口普查实施的频率往往较低。按照国际惯例和联合国的建议,中国自第三次全国人口普查以后开始形成并实施每十年一次的人口普查制度,普查年份以尾数逢“0”的年份为准;在两次普查之间,开展全国1%人口抽样调查以及时了解普查年份之间的人口与相关社会经济发展状况,并为下一次人口普查做准备。为此,两次普查之间的全国1%人口抽样调查也常被称为“小普查”。“小普查”通常采用分层、分阶段整群抽样设计,以村委会或居委会为最终抽样单位。

自第三次全国人口普查起,中国已先后于1987年、1995年、2005年和2015年组织实施了4次“小普查”。“小普查”的标准调查时间与相邻的人口普查标准时间基本保持一致,便于统计结果的对比以及人口统计指标的计算。1987年“小普查”的标准调查时间为当年7月1日零时,与第三次和第四次全国人口普查的标准普查时间(7月1日零时)保持一致。此后,应人口流动现象发展变化、调查中的其他现实问题(如人口流动的季节特征、中国各地区自然条件差异等)以及普查标准时间国际接轨的需求,1995年“小普查”的标准调查时间调整为当年10月1日零时;此后的“小普查”又进一步调整为11月1日零时,与第五次和第六次全国人口普查的标准普查时间设置相一致。

为便于与普查数据相比较,历次“小普查”对调查项目的设计与相邻的全国人口普查设计基本保持一致。1987年“小普查”的调查内容基本保持了第三次全国人口普查的调查项目,在此基础上增加了人口迁移的调查项目,以适应20世纪80年代后半期人口迁移流动现象快速上升对人口统计的现实要求。1995年“小普查”对于常住人口的界定进行了调整,常住的时间标准由过去的“一年以上”改为“半年以上”,空间标准由过去的常住“本县市”改为“本乡镇、街道所辖区域”。除此之外,1995年“小普查”首次将住房调查与人口调查相结合,在原有的全国人口普查和“小普查”项目的基础上,新增加了按户填报的住房项目,具体包括住房的建筑面积、房间数(除厨房、厕所、门厅外)、有无独立使用的厨房、有无独立使用的厕所、炊事燃料、是否饮用自来水、住房类型、住房建成时间。人口普查与住房普查相结合的做法,标志着中国人口普查(“小普查”)在与国际接轨进程中迈出了又一步。这一调整在此后的全国人口普查和“小普查”中一直延续。

除“小普查”外,自第三次全国人口普查起,国家统计局建立了年度人口变动情况抽样调查制度[12]。每年进行一次的人口变动情况抽样调查旨在准确、及时地收集全国和各省(直辖市、自治区)的人口变动情况,从而为社会经济发展规划与人口管理提供决策依据。



(三)全国性人口专项抽样调查


1.生育调查

20世纪80年代开始,中国开展了一系列的专项人口调查,其中生育作为影响人口变动的最为重要的因素,其相关调查在过去几十年间成为最受关注的专项调查。

1982年,国家计划生育委员会组织实施了全国1‰人口生育率抽样调查,这是新中国成立以来首次大规模的专项生育调查。这次抽样调查的主要目的在于了解中国妇女的婚育状况以及计划生育工作的成果,为人口预测、规划与管理提供依据。1982年1‰人口生育率抽样调查针对15—67岁的妇女,在农村生产大队和城镇居委会使用等概率随机抽样的设计,抽取了815个样本单位,覆盖了全国约1‰的人口(1017574人),故称为全国1‰人口生育率抽样调查。这次调查的标准调查时间为1982年7月1日零时。此后,国家计划生育委员会先后组织实施1987年全国2‰生育节育抽样调查、1992年38万人抽样调查、1997年生殖健康调查、2001年全国人口与生殖健康调查、2006年全国人口和计划生育调查、2017年全国生育状况抽样调查、2013年生育意愿抽样调查等。这些调查大多针对育龄妇女收集了丰富的婚育史、避孕史等信息,同时提供了个人社会经济特征、流动等信息,为深入分析生育水平和生育模式、考察生育的变化规律及其成因提供了重要的统计资料。

除国家计划生育委员会开展的生育调查外,过去三四十年间其他统计部门和机构也组织开展了一系列以生育为主题的抽样调查。其中包括国家统计局和国际机构合作开展的“深入的生育率调查”(该调查为世界生育率调查WFS项目的一部分),先后分别在1985年和1988年实施。1985年的深入的生育率调查,调查范围限定在河北省、陕西省和上海市,此次调查也称“两省一市”调查;调查针对50周岁以下的已婚妇女开展,旨在深入了解中国生育状况、变化趋势及其成因。调查项目共包括233个具体问题,这些问题围绕社区基本特征、住户成员的基本信息、被访已婚妇女个人特征及详细的婚姻、怀孕、生育、哺乳、避孕等经历,以及其他与生育相关的信息,收集了丰富的统计数据,调查的最终样本约13000人。

2.死亡调查

与生育相比,死亡事件相对较少,具有瞬时性和难以预期性;与文化和情感等方面的因素相联系,死亡事件的事后调查更有可能出现漏报等情况。因此,到目前为止,关于死亡的统计活动以常规性死亡登记为主。新中国成立以来,常规死亡登记主要由国家公安部门承担[13],国家卫生部门则负责死因调查和统计工作。

1973—1975年,由原卫生部肿瘤防治办公室组织,在全国范围内开展关于死因的三年回顾性抽样调查,此次调查针对全国29个省(直辖市、自治区)的395个地区和2392个县级单位,按照10%的比例抽样,1973—1975年以恶性肿瘤为重点的57种死因进行调查。此次调查的规模累计达25亿人次,其调查成果最终汇集于《中国恶性肿瘤死亡调查研究》[14]等著作中。1987年,国家卫生部对全国22个城市和40个县组织开展婴儿死亡情况抽样调查。此次调查的人口规模在50万人左右,为了解全国城乡婴儿死亡率水平、死因构成及变动、相关死亡的影响因素提供了重要的数据信息。

由于死亡事件的特征,关于死亡的抽样调查总体较少,而且通常需要以大规模的样本为基础以保证调查数据的质量。除少数全国性抽样调查外,关于死亡的统计活动也包括一些地区性的调查;不过,使用这些地区性的抽样调查结果对于准确估计死亡水平,尤其是在常规年份,往往比较困难。鉴于此,目前多见的死亡统计活动仍以常规性死亡登记和普查年份的死亡登记为主。近年来,随着大数据的快速发展,一些与医疗卫生相关的行政管理数据、医疗服务和保险数据也为死亡统计提供了新的数据资料。

3.迁移调查

人口的迁移流动是人口变动的重要组成部分,迁移流动直接影响人口的空间分布,进而对地区人口与社会经济发展规划产生重要的作用;除此之外,迁移流动也可能影响人口的其他变动特征,如婚育等人口现象。为此,人口迁移流动的抽样调查构成了人口统计活动的重要内容。

1986年,中国社会科学院人口所组织实施全国74城镇人口迁移抽样调查。这是新中国成立以来首次大规模的人口迁移调查,也是一次比较系统和完整的迁移调查。调查于1986年7月开始,在15个特大城市、6个大城市、12个中等城市、10个小城市和31个镇开展(共计74个城镇),调查样本包括2万余家庭户,涉及的人口数量超过10万人。这次调查填补了中国人口迁移数据的空白,为进行迁移规模和变动、迁移人口的构成、迁移与生育、城镇化和就业的关系提供了不可多得的统计数据资料。

除此之外,20世纪80年代以来人口统计学界也组织实施了大量区域性的人口迁移流动调查,例如北京、上海等大城市针对辖区内人口流动进行了较为频繁的调查,为区域人口统计、规划和管理提供了较为及时的数据资源。2010年以来,国家卫生计生委实施的全国流动人口卫生计生动态监测调查为全国人口迁移流动、生育等问题提供了重要的统计资源。

4.其他全国性的人口专项抽样调查

除上述人口变动要素的专项调查外,从20世纪80年代开始,中国人口统计活动也针对特定人群进行了一系列的专项抽样调查。

1987年,中国社会科学院人口所与国家统计局城乡调查队联合组织,对全国60岁以上老年人口进行抽样调查。此次调查涉及28个省(直辖市、自治区),在这些地区的全部特大城市和大城市以及部分中心城市和镇、乡村进行调查。调查的样本总计超过36000人,调查内容涉及老年人的个人和家庭特征、婚育经历、收入和经济地位、就业与职业、供养与医疗、健康与生活料理、居住和活动等9个方面[15]。类似地,1992年中国老龄科学研究中心在联合国人口基金资助下开展了12个省(直辖市、自治区)的老年病人供养体系专项调查,调查样本超过2万人。调查收集了老年人基本特征、经济收入、社会活动、心理状况等方面的信息。此后,不少人口统计或相关研究机构陆续开展了一系列与老年人相关的大型抽样调查研究,如1988年天津社会科学院社会学研究所组织的“中国九大城市老年人状况抽样调查”,1992年中国老龄科学研究中心实施的“中国老年人供养体系调查”,全国老龄工作委员会办公室和中国老龄科学研究中心先后于2000年、2006年和2010年开展的“中国城乡老年人口状况抽样调查”等[16]。

1990年,中国社会科学院人口所组织实施“当代中国妇女地位抽样调查”。调查采用分层分级不等概率抽样及二重抽样技术,在10个省(直辖市、自治区)抽样,收集了包括基本情况、文化状况、婚姻与婚姻质量、避孕与生育、就业、职业和收入、家庭生活状况与事务管理、性别规范在内的数据信息,成为新中国首次规模较大的关于妇女地位的调查。此外,全国妇联和国家统计局分别于1990年、2000年、2010年联合组织开展“第一次全国妇女社会地位调查”“第二次全国妇女社会地位调查”和“第三次全国妇女社会地位调查”。

1992年,国家统计局在全国范围内组织开展儿童基本情况抽样调查。此次调查抽取56万户家庭,调查的儿童数量接近70万人。调查的内容涵盖了儿童营养和生长状况、计划免疫、儿童出生、死亡状况、基础教育、青少年辍学和劳动参与情况、儿童生活的家庭环境和社会情况等,为全面了解儿童发展提供了重要的统计资料。

此外,1987年新中国第一次全国残疾人调查组织实施。这次调查共抽取样本户近40万,调查对象达150万余人,调查为摸清中国残疾人口状况,进行相关的社会福利及扶助政策设计奠定了坚实的基础。

5.纵贯追踪人口抽样调查

世纪之交,纵贯追踪调查也逐渐成为中国人口统计发展里程的重要组成部分。1998年起,中国老年健康影响因素跟踪调查(CLHLS)开始实施,到目前为止已开展追踪调查7次,调查范围涉及23个省(直辖市、自治区)。调查对象最初为80岁及以上老人,自2002年起,拓展到65岁及以上老人,并在部分样本省(直辖市、自治区)增加被访老人的35—65岁的成年子女样本[17]。2011年起,北京大学国家发展研究院组织实施中国健康与养老追踪调查(CHARLS),并于2013年、2015年开展追踪调查。该调查在全国28个省(直辖市、自治区)进行抽样,针对45岁及以上人口进行调查。这些调查围绕健康等方面的特征收集了大量丰富的数据信息,为人口死亡统计贡献了重要的数据,也是估计不同死因的死亡风险、对人口生命过程进行动态分析的重要资源。2010年中国家庭动态追踪调查(CFPS)启动,在全国25个省(直辖市、自治区)开展调查,调查对象包括样本家庭户的所有成员,样本规模约16000户。CFPS每两年进行一次追访,围绕人口与家庭相关的主题积累了大量动态追踪的数据信息。除此之外,近年来一些其他主题的纵贯追踪抽样调查也在不断涌现。尽管其调查的主要内容并不局限于人口统计特征,但是这些数据均收集了丰富的人口统计信息,为人口统计学科和研究向纵深发展,特别是动态的人口变动分析(包括人口统计学经典的“年龄—时期—队列”分析)提供了重要的机遇。



(四)人口统计数据的质量评估与统计方案改进


随着统计数据的收集和积累,不少人口统计学者围绕调查的设计和实施、数据质量等议题进行了广泛的讨论和评估。20世纪80年代初,中国第三次全国人口普查的设计和电子化数据管理方式,为中国人口普查的统计评估和数据质量检验提供了可能。随着第三次全国人口普查的完成以及后续普查和调查工作的开展,人口统计学者开启了对人口统计数据质量、相关调查设计与实施的热烈讨论,其中核心的研究议题包括年龄误报、重报、漏报、瞒报问题,统计口径、抽样误差等。

吴国梁讨论了人口普查数据处理中差错的发生与剔除问题[18],翟振武分析了中国前3次人口普查资料与其他抽样调查资料中年龄误报现象,强调了与社会文化特征相关的、不同民族人口的年龄误报模式[19]。乔晓春利用国际上常用的人口年龄结构检验指数,对中国历次人口普查数据中的年龄信息进行了检验[20]。王洪春和王金营分析了河北省第四次人口普查数据中年龄偏差随性别、年龄、地区变化的特征[21]。李海燕利用人口函数的年龄变动符号分布检验了人口普查数据中年龄数据统计的系统误差[22]。其研究指出,“五普”和“六普”数据中,奇数年龄的观测存活率大于存活率的真值,偶数年龄则相反。该研究由此推断,“五普”和“六普”至少有一次存在年龄尾数的堆积或散失现象。

张广宇和顾宝昌从国际视角考察人口普查中低龄儿童漏报问题,指出各国人口普查或多或少存在缺陷,低龄儿童的漏报具有普遍性,普查数据质量有赖于细致谨慎的事后评估,还介绍了澳大利亚、美国和加拿大的实践经验[23]。齐嘉楠使用国家卫计委2014年开展的中国计划生育家庭发展追踪调查的平行数据,分析样本点级无应答发生情况,发现调查员的年龄、调查点发达程度以及居住环境对无应答次数有着重要影响,而调查员的性别、受教育程度等影响均不显著,泊松多水平回归具有良好的应用效果[24]。

李恩平分析了中国历次人口普查对城镇人口的统计范围的变迁,针对城镇人口统计口径的变化,提出了修正和完善城镇人口比重数据的方案[25]。该方案以月份作为细分的时间单位,利用联合国城镇人口比重预测方法估算两个时点之间各年度的城镇化理论值;然后使用人口变动抽样调查计算相应年份的城镇化速度,并对城镇化理论值进行校正,由此得到具有统一统计口径且反映年度实际波动的各年度城镇人口比重数据。吕利丹和段成荣通过回顾流动人口统计调查的现状,指出自“三普”首次出现流动人口信息以来,历次全国人口普查和全国1%人口抽样调查数据中虽持续收集了流动人口信息,但由于流动人口的时空界定标准有异、统计口径不一,这些流动人口的统计结果之间缺乏直接可比性[26]。该研究认为在统计调查流动人口规模总量时从流出地进行登记,由此得到的数据比流入地登记更为可信,这也被称为流动登记的“总量优势”。相反,在调查就业、生活等问题时,流入地登记可以找到流动者本人或者与流动者一同居住的人调查,从而得到更加丰富和准确的信息,这被称为流动登记的“变量优势”。韦艳和张力通过系统整理政策法规文件、历史资料和开展深度访谈,对现存的关于流动人口的多种统计口径进行了分析[27]。研究指出,目前常见的各种统计口径在流动的时间、空间以及登记方式等方面标准不一致,其重要原因在于流动人口统计的部门差异和历时变化在很大程度上取决于政府部门的行政分工状况;研究强调了统一流动人口的统计口径的现实必要性和紧迫性。

胡英对比普查数据分析了中国年度人口变动情况抽样调查的抽样误差[28]。庄亚儿和李伯华对流动人口调查中抽样框的编制、重复抽选及抽选后合并、目标与抽样总体关系的复杂化等问题进行了描述和讨论[29]。其提出编制抽样框时应注意偶然性因素的影响,也对重复抽选或抽选后合并和“事后加权”技术进行了讨论。庞丽华等通过对两次全国残疾人抽样调查资料和数据的分析,从登记质量、样本代表性和性别年龄数据准确性等角度对两次残疾人抽样调查的数据质量进行了评估[30]。这些研究发现中国人口普查与抽样调查数据中存在着不同程度的数据质量问题。针对这些问题,有学者建议在实践中进一步改善抽样调查方法,结合定性调查与定量调查数据以深化人口统计研究[31]。吕萍介绍复杂抽样设计和复杂调查数据的特征,对抽样信息在复杂抽样数据中的应用进行研究,并根据中国家庭追踪调查(CFPS)的抽样设计方案重新得到CFPS的误差层和误差群,说明抽样信息在复杂调查中的应用,提示在复杂抽样调查的数据分析中不能忽视对抽样信息的使用[32]。

李若建就历史人口统计数据的质量以及由此而出现的实证研究结论矛盾的现状进行了分析,强调了人口统计学方法在普查等数据的质量评估中的重要性[33]。谢裕军分析了数据审核方面普遍存在的一些问题,提出了从夯实基础、细致审核、周密评估三个方面来切实做好数据审核的若干有效方法[34]。王桂新针对常用数据中区间时间序列两点之间序列数据缺损的特点,介绍了几种常用的区间时间序列人口数据的插值方法[35]。针对目前人口普查净误差估计中的双系统估计量存在交互作用偏差的问题,胡桂华等提出借鉴美国研究使用三系统估计量,其优点包括控制交互作用偏差和不要求资料系统的独立[36]。在对总体人口分层基础上构造三系统估计量时需要考虑三个系统是对总体全面登记还是抽样登记,是否存在人口移动,是否等概率,针对不同的情况给出了三系统估计量的解析形式,并利用重庆市南岸区数据进行了实证研究。

综上,关于人口统计数据质量评估的研究与统计活动相互促进,为后续人口普查和抽样调查设计的不断完善以及数据质量的提高贡献了知识和经验。2000年第五次全国人口普查首次使用长短表问卷、普查与抽样调查相结合的方法,其调查设计、数据整理、质量评估等发展与改进,无疑凝结了此前中国人口统计领域实践和研究的智慧[37]。



二 生育分析


生育是重要的人口再生产过程,也是决定人口变动的核心因素之一。任一时期,育龄妇女生育水平的高低、具体的生育模式与特征不仅影响当期人口变动,而且在很大程度上决定中长期的人口规模、结构与发展趋势。因此,在世界各国的人口统计研究中,关于生育的统计分析都占据了重要的位置。

新中国成立以来,党和政府对中国人口的生育状况保持了持续的关注和重视。人口统计学者对生育状况及相关问题进行了大量研究,其成果在人口及相关社会经济政策的制定、实施和调整过程中发挥了不可低估的作用。

1957年,著名人口统计学家陈达教授在《新建设》第5期发表的长篇学术论文《节育、晚婚与新中国人口问题》[38],运用经典的人口统计技术——年龄结构三分法,结合中外人口年龄结构的对比对新中国的人口发展特征进行了科学判断。研究指出,1953年第一次全国人口普查时中国0—4岁人口占总人口的比重达36%,这意味着中国人口年龄结构介于稳定型和增长型之间。此外,该研究从人口统计学的角度探讨了妇女所生子女数与生育率的关系、结婚时间与生育率的关系,使用规范的人口统计学方法估算了降低出生率所需要的年数,论证了当时提倡节制生育的意义、必要性及具体实现途径。这一研究代表了新中国成立初期,中国人口统计学界关于人口生育问题的科学研究成果。历史表明,相应研究不仅对当时中国人口统计研究和相关学术争鸣具有重要的启示,而且在新中国人口统计史上具有不可磨灭的重要意义。

同一年,新中国第一部人口学著作《新人口论》发表。这部著作中,著名的人口学、经济学家马寅初利用第一次全国人口普查数据和浙江等地的调研资料,分析了当时的人口生育状况。分析指出,1953年中国人口出生率高达37‰,远远高出人口死亡率(17‰),这也就意味着当时中国人口面临过快的增长速度(自然增长率20‰)。基于此,《新人口论》旗帜鲜明地提出控制生育的必要性,代表了当时学界和社会关于中国人口生育问题认识的一种重要观点。

尽管第一次全国人口普查提供了宝贵的人口统计资料,但由于其调查的项目有限,加之,同一时期其他类型的人口或生育调查几乎处于空白,1964年开展的第二次全国人口普查同样未收集具体的生育信息,这就决定了当时人口统计数据严重匮乏,无以支撑系统的、细致科学的生育统计分析[39]。20世纪50年代末到70年代末,关于生育的统计研究成果很少。

直到20世纪80年代初,第三次全国人口普查的组织实施,人口统计学研究才真正意义上重新得以恢复和发展。随着改革开放和一系列人口科学研究机构的设立,人口统计工作作为国家进行人口与社会经济发展规划制定、政策评估的重要依据重新受到重视;生育统计分析也由此迎来了一个快速复兴和繁荣的新阶段。1982年全国第三次人口普查首次针对育龄妇女收集具体的生育信息,为开展系统的生育研究、了解全国育龄妇女的生育状况提供了重要的数据资源和契机。加之,同一时期国家统计部门和国际组织开展了一系列关于生育的专项调查,这些调查收集了大量丰富的生育数据,为进行生育统计分析和科学研究奠定了坚实的数据基础。与之相适应,20世纪80年代起,关于生育的统计分析成为人口统计学领域最为活跃、争论最为激烈的分支。

概括来说,这一时期关于生育的统计分析大致包括以下几类:对生育水平“真值”的估计,对生育模式及其长期变化趋势的探讨,生育指标、模型和统计方法的推介、改进和应用评估。



(一)生育水平估计


20世纪下半叶,中国育龄妇女的生育水平经历了快速的下降,其下降的动力既包括社会经济与人口发展互动作用,也在很大程度上反映了国家对生育控制的倡导和计划生育政策效应。中国各时期生育水平的统计结果表明,20世纪80年代中国育龄妇女的总和生育率总体保持在3以下,明显低于六七十年代的生育水平。据1982年全国1‰人口生育率抽样调查的估计结果,1981年中国育龄妇女的总和生育率为2.63,比1971年的5.44低一半以上。据国家统计局关于历次全国人口普查和大型抽样调查公布的统计结果,1990年全国育龄妇女总和生育率为2.04,1995年为1.46;此后2000年、2005年、2010年和2015年中国育龄妇女的总和生育率分别为1.22、1.33、1.18和1.047。概括而言,这些统计数据显示,中国育龄妇女的总和生育率自20世纪90年代起开始下降到更替水平(约2.1)以下;进入21世纪后,国家统计局的大型调查数据所统计的育龄妇女的总和生育率水平为1.05—1.4。

与世界范围内其他国家的生育率相比,20世纪中后期以来中国育龄妇女的生育率下降速度之快无疑是其他国家或地区未曾经历,甚至难以想象的。尽管历次全国人口普查和大型的人口抽样调查一再用调查事实为生育率的快速下降提供支持,然而,过快的生育率下降仍然对相关管理部门和学术界的认知带来了巨大冲击。由此,自20世纪90年代起,人口统计学界掀起了关于生育统计瞒报和漏报可能性的讨论、检验、不断修正和再检验。

1.“真实”生育水平的讨论

围绕生育统计的数据质量的讨论,以及各时期真实生育水平的估计,20世纪90年代中国生育统计分析如火如荼。这一过程中,不仅涌现了大量利用不同来源、不同人群的统计数据重估和检验中国生育水平的研究成果,也有不少关于生育水平的间接估计技术和统计模型被引入。这些研究活动为生育统计分析的去伪求真、人口统计学科的繁荣发展做出了应有的贡献。

曾毅使用不同来源的数据资料,对中国生育率水平进行了估计,认为1991—1992年中国育龄妇女的总和生育率大致在2.1左右,并非如1992年“38万人调查”所报告的那样远远低于更替水平[40]。2000年第五次全国人口普查结果的公布掀起了关于真实生育水平估计的一个新高潮。不少人口统计学者利用人口普查数据考察中国20世纪90年代生育水平的可能区间[41],也有研究使用其他来源的数据对普查公布的生育水平进行检验。其中具有代表性的研究有,翟振武和陈卫利用全国教育统计数据对“五普”数据进行调整[42]。该研究通过重构2000年0—9岁人口的年龄性别结构,进而转换得出1991—2000年出生人数,研究推断20世纪90年代后期中国育龄妇女的总和生育率为1.7—1.8。

陈卫和杨胜慧使用P/F方法,对2010年中国育龄妇女的总和生育率进行再估计,研究认为2010年总和生育率为1.66[43]。陈卫和张玲玲利用国家统计局的人口普查和人口变动抽样调查数据,运用漏报估计、存活率推算等方法对2005—2013年的总和生育率进行再估计,估计结果认为中国近期的总和生育率水平不会低于1.5,很有可能在1.6左右[44]。赵梦晗的研究也认为,2000—2010年中国育龄妇女总和生育率约为1.6[45]。翟振武等基于户籍登记数据推断,2008年、2009年和2010年中国总和生育率应该至少在1.66、1.66和1.63以上[46]。

李英和崔万里结合“五普”和“六普”数据,通过建立人口模拟模型对不同生育方案下两次普查之间各年份的人口总量进行拟合[47]。该研究指出,由拟合结果来看,2000—2010年中国妇女的总和生育率在1.7以下,2010年在1.6以下。朱勤运用年龄移算方程和存活倒推法对2000—2010年生育水平进行模拟推算,结果表明,2000—2010年中国育龄妇女的总和生育率经历了由降到升再到稳中有降的过程,2000—2009年总和生育率均值为1.48[48]。王广州和张丽萍利用1985年以来历次全国大型人口抽样调查数据,通过建立随机微观人口仿真模型对育龄妇女生育水平和生育潜力的变化范围进行了估计[49]。该研究指出,2010年育龄妇女的时期总和生育率在1.44以内,超过1.64的可能性很小。该研究的仿真模拟结果同时显示,目前中国育龄妇女潜在的二孩生育比例不足50%,放开“单独二孩”政策不会引起很大的出生人口堆积。

在大量的估计和讨论中,由于使用的数据类型和来源、估计方法、指标含义各异,其估计结果的可靠性检验也成为人口统计学研究的重要议题。郭志刚[50]针对陈卫和杨胜慧[51]使用P/F方法估计总和生育率的做法进行了重复检验,研究指出,陈卫和杨胜慧的研究中存在方法误用问题,由于忽视了相应方法隐含的前提假定,由此会得到误导性结论。王广州检验了不同预测结果之间偏差的成因,指出由于基础的人口统计数据公开性不足,一些统计分析不得不借助间接估计方法或其他行政部门的统计数据分析生育水平[52]。这些统计研究结果极有可能因估计方法的适用性、隐含假设的合理性,以及数据质量的可靠性而导致结论的偏差。该研究呼吁人口统计学界重视人口统计方法与模型的科学性、研究假设的合理性,并对现实中存在的科学与体制问题进行认真对待和反思。

尽管关于中国育龄妇女“真实”生育水平的争论持续了数十年且不曾间断,不过,到21世纪初,人口统计学界就总和生育率已低于更替水平达成共识。不少人口学者开始讨论过低生育率对人口持续健康发展的不利影响,包括人口快速老龄化、负增长惯性等。在这一背景下,生育政策的调整最终被提上日程。2013年年底,“单独二孩”政策在全国范围内开始启动;随后,“全面二孩”政策于2015年年底开始启动。实践表明,中国人口统计科学研究活动和学科的发展,是中国人口政策出台、实施和历时调整的重要科学基础和实践依据。

2.生育政策调整及潜在“出生堆积”的估计

随着生育政策的逐步调整,人口统计学界关于生育的研究重点开始转向对政策实施效果的评价,以及出生人口规模变动情况的预测。自2014年起,人口统计学家关于“新增出生人口”的估计和预测在生育统计研究中占据了主体地位。这些研究大多从受政策影响的育龄妇女的生育意愿出发,对政策调整可能产生的“出生堆积”效应进行了预测和估计[53]。

翟振武等利用2005年全国1%人口抽样调查数据推算了2012年0—37岁独生子女数,结合子女—母亲年龄联合分布推导出受政策影响(只有一个孩子)的育龄妇女年龄结构[54]。在此基础上,假设“全面二孩”政策目标人群的二胎生育意愿将在4年内全部释放,由此预测得出政策调整后的前4年内生育数量将依次上升到3540万、4995万、4025万和3540万,远高于政策调整前的水平(如2012年为1600万左右)。另一研究假定在“单独二孩”政策实行5年之后逐步启动全面放开二孩的政策,研究认为由于累积生育势能的释放,中国总和生育率的峰值将会突破更替水平[55]。与翟振武等的预测结果相比,该研究认为,出生人口数量的峰值不会超过2100万,随后会迅速回落。

乔晓春结合“六普”数据和2013年8月国家卫生计生委组织的全国29个省(直辖市、自治区)(不包括西藏和新疆)生育意愿抽样调查数据,测算了“单独二孩”政策实施的最初4年内政策新增人口数[56]。研究认为,政策调整带来的总和生育率的上升幅度每年不会超过0.3,且相应政策效应主要集中在前3年,第4年后影响基本很小。在其另一个研究中,乔晓春指出全国符合“单独二孩”政策的15—44岁有配偶女性人数为1117.7万,按照2013年生育意愿调查的结果估计,这些潜在受政策影响的人群中可能生育第2个孩子的总量为563.3万—755.6万,政策调整前3年新增的出生人口分别为326.2万—437.5万、154.3万—207.0万和82.8万—111.1万[57]。类似地,罗淳等从生育意愿、生育行为和生育水平之间的差异出发,区分了“单独二孩”政策响应人群分为涉及人群、接收人群、践行人群和兑现人群[58]。利用云南人口统计资料,该研究推算认为“单独二孩”政策的效应具有短期性,预计云南省因政策调整而新增的出生人口会在2016年达到峰值,之后将明显回落,并于2020年后回到政策调整前的水平,此后继续呈逐年缩减态势。

张丽萍和王广州利用2005年全国1%人口抽样调查原始数据库中独生子女数据进行微观仿真,递推获得2010年单独育龄妇女数据;在此基础上,结合孩次构成分解得出全国一孩“单独”育龄妇女规模约2051万,其中农业户口约925万,非农业户口不到1115万[59]。研究得出,能够生育二孩且符合“单独二孩”政策的目标人群数在1411万以内,研究提示应关注与政策实施相关的非均匀出生堆积、高龄孕产妇的计生服务等问题。姚引妹等利用2010年国务院人口普查办公室补充汇总数据对育龄人口按照多龄概率法进行婚配模拟,首先估计了“双独”“单独”“双非”三类夫妇的对数;在此基础上,考虑每年度分年龄生育第一孩的妇女人数与分年龄生育第二孩的妇女人数相抵带来的净变化,并结合分年龄分孩次预期生育概率估算了不同假设下堆积的生育释放[60]。研究认为,按照实际可能生育释放,2018年为生育峰值,堆积释放生育量达133万左右。

随着2016年年初“全面二孩”政策的启动,人口统计学关于生育政策调整效应的评估与时俱进,重点针对新的政策调整;与此同时,关于“出生堆积”的担忧逐渐转向对“政策遇冷”的关注[61]。王广州估计了“全面二孩”政策实施带来的新增出生人口规模[62],研究认为,2016—2020年预计每年新增出生人口规模为230万—430万,5年累计因“全面二孩”政策而新增的出生人口在1800万以内;这期间,每年出生人口总量预计在1900万以内,达到或超过2300万的可能性不大。相对于政策调整前,由于“全面二孩”政策调整的效应,每年新增出生人口不太可能达到或超过800万。为进一步检验估计结果的稳健性,王广州对不同来源数据中相同队列“单独”“双非”育龄妇女比例进行对比,研究认为,国家统计局2014年和2015年抽样调查数据具有高度的一致性和可靠性[63]。据此推算,2014年“单独二孩”政策目标人群在1500万以内,2015年“全面二孩”政策新增目标人群在8500万左右,2014—2015年“单独二孩”育龄妇女生育二孩总量在50万左右,“单独二孩”政策新增出生人口规模远远小于国家卫计委公布的200万左右的人口规模。研究还提示,对“全面二孩”政策效果的评价应考虑到农业人口“一孩半政策”以及为数不少的政策实施前非农业人口“双非”生育二孩的情况。

翟振武等使用分人群分要素回推预测方法,测算从2016年开始全面放开二孩生育将会形成的目标人群以及由此产生的新增出生人口[64]。在中方案下,2017—2021年将会累计新增出生人口1719.5万,年度新增出生人口数量为160万—470万。研究认为,虽然“全面二孩”政策目标人群规模十分庞大,但其新增出生人口数量却相对有限,中国能够平稳有序地度过“全面二孩”政策累积生育势能的释放期,这与作者之前的研究结论相比有了较大的修正[65]。此外,全国各地也相继出现关于省级单位的研究[66]。

除上述利用人口统计模型或模拟技术进行的估算外,随着政策的实施,二孩申请登记的行政数据为评估政策调整效应提供了新的可能。刘鸿雁和黄匡时汇总分析了全国“单独二孩”登记申请情况,汇总结果显示截至2014年年底有106.7万对“单独”夫妇提出二孩申请,2014年下半年全国申请数为68.33万对,2015年上半年为46.34万对[67]。这些数据为不同估计结果的核对检验和统计反思提供了契机。2017年,国家统计局调查数据显示全国年度出生人口总数为1723万,比2016年(1786万)减少了63万,远低于国家卫计委关于政策调整效应的预期(出生人口在2100万以上)。这些人口统计和分析结果一方面回应了政策调整带来的生育水平变化幅度的争论,另一方面也开启了关于“政策遇冷”的讨论和新的生育研究热点。

3.“低生育率陷阱”与生育意愿的估计

关于中国生育水平的统计研究经过数十年的分析、检验、修正和再检验,人口统计学界已达成一个基本共识,即20世纪末以来中国育龄妇女的总和生育率已下降到更替水平以下;2013年年底开始生育政策的逐步调整并未从根本上改变生育率低于更替水平的现实。由此,中国是否陷入“低生育率陷阱”成为不少人口统计学者分析和论证的重要议题。随着“单独二孩”和“全面二孩”政策的逐步推行,政策调整的效应不断明朗;在这一背景下,关于“出生堆积”的争论落下帷幕,与之相对,关于“低生育率陷阱”的讨论和生育意愿的估计在生育统计研究中不断升温。

李龙和翟振武通过分析城市“单独”育龄妇女平均理想子女数(1.8),认为二孩生育意愿并不低迷[68]。陈卫基于全国人口普查数据中的年龄分布,利用广义稳定人口模型估计了中国近4次人口普查期间的总和生育率,估计得出1982—1990年、1990—2000年和2000—2010年总和生育率均值分别为2.65、1.68和1.56[69]。在另一研究中,陈卫认为目前“全面二孩”政策的效果可能是有限的,但从生育水平和趋势来看,“低生育率陷阱”的判断还缺乏说服力[70]。

王广州等研究指出,长期低生育率已是不争的事实,由此带来的人口负惯性和育龄妇女生育意愿的持续低迷意味着,未来中国的生育率水平有进一步下降的可能[71]。利用计算机仿真模拟,王广州研究认为,“全面二孩”政策不足以跨越“低生育率陷阱”[72]。类似地,王军和贾晓菲分析指出,即使实现生育自主,中国生育水平仍面临较大的“低生育率陷阱”风险;该研究警示应对“低生育率陷阱”的地域发展特征予以重视,指出目前中国东北地区的总和生育率基本与上海、北京持平,已成为全国范围内人口生育率最低的地区[73]。

与“低生育率陷阱”的探讨类似,不少生育研究关注生育意愿、生育计划的潜在变化,进而对中国生育统计研究提供多视角的分析。张丽萍和王广州分析了育龄人群的意愿生育水平,研究指出,中国全部育龄人群的二孩终身生育意愿稳定在55%左右,三孩及以上意愿生育人群比例很低;由此推断,取消生育限制与实行“全面二孩”政策的差别不大[74]。韩雷和田龙鹏发现“全面二孩”的生育意愿并不强烈,为48.8%,农村比城镇人口更想生二孩,单双独家庭比普通家庭更想生二孩;不想生二孩的主要原因是成本太高,占比达到56.3%,次要原因是不想对孩子分心和工作事业太忙,分别占13.1%和10.2%[75]。王军和王广州对比估计了意愿生育水平和实际生育水平,指出生育政策对当前育龄人群生育意愿与生育水平差异的贡献度在33%左右;在国家实行“全面二孩”政策的背景下,中国生育水平的提升有限,究其原因,生育意愿和生育行为之间的差异是把握中国未来人口形势变化的关键[76]。类似地,不少研究指出,在生育转变的特定阶段,生育意愿和生育水平之间的差异具有一定的普遍性[77]。侯佳伟等使用横断历史元分析对1980—2011年开展的227项生育意愿的历史调查数据进行重新加工,考察生育意愿随年代变化的趋势或规律,并与实际生育水平进行对比[78]。研究发现,中国育龄妇女的生育意愿在20世纪90年代快速下降,2000年至今稳定在1.6—1.8的较低水平。相比之下,20世纪80年代妇女的实际生育子女数高于生育意愿,随后实际生育数量更快地下降,进入20世纪90年代后生育水平持续低于生育意愿,实际生育子女数少于理想子女数,生育数保持在较低水平。



(二)生育模式的估计


中国生育水平的快速下降,不仅引发了大量关于“真实”生育水平的估计和讨论,也激发了人口学界关于生育水平所隐含的生育模式及其变化规律的深入探讨,这些研究为全面深入地理解时期生育水平的影响机制、预测其变化趋势和长期人口效应提供了重要的视角。这些研究从育龄妇女的年龄结构、婚姻状态与结婚年龄、生育进度和数量等角度出发,运用标准化、因素分解和间接估计等技术,探讨了生育模式的突出特征及其对生育水平和人口变动趋势的影响。

曾毅使用不同来源的数据对中国20世纪八九十年代的时期生育率进行分析,研究指出,20世纪80年代末90年代初中国生育率的快速下降中,已婚生育率下降的贡献占2/3,初婚年龄的上升解释了其余1/3[79]。陈卫和高爽评估了20世纪70年代以来中国生育率下降的成因[80]。研究发现,20世纪70年代中国生育率下降的过程中,数量效应的贡献占3/4,远超过进度效应;后者带来的总和生育率下降幅度为0.2—0.4。到20世纪80年代,数量效应在生育率下降中所占比例约为2/3,进度效应仍然较小,但较70年代有所上升。20世纪90年代,数量效应的贡献略高于50%,进度效应对这一阶段总和生育率下降的贡献幅度为0.1—0.2。21世纪以来,数量效应和进度效应的作用此消彼长,数量效应的贡献降到50%以下。基于这些分解结果,该研究指出,20世纪70年代以来由于生育水平的迅速下降,总和生育率并不反映时期的内在生育水平,会在一定程度上低估内在的生育水平。赵梦晗对2007—2012年中国育龄妇女生育水平的估计结果也得出了类似的结论[81]。

张翠玲等利用121县人口监测系统大样本微观历时数据,分析了中国1970年以来二孩生育间隔的变化趋势及影响因素[82]。研究发现,二孩生育间隔经历了20世纪90年代前的长期稳定、1990—2005年的持续上升和2006年至今的缓慢下降。“全面二孩”政策实施后“70后”人群的大间隔生育将是未来不可忽视的一种生育特点,对生育间隔的关注应从人口调控的政策导向逐渐过渡到健康导向。果甄和江莎运用平均生育年龄和生育年龄标准差来考察生育模式的离散性,发现生育模式离散趋势在2005年之前滞后,其后迅速达到发达国家的水平,这意味着中国育龄妇女的生育观念呈多样化转变趋势[83]。宋健和张婧文通过因素分解对中日韩三国平均生育年龄的变动和差异进行分析,指出平均生育年龄受孩次结构和生育时间的共同影响,1990—2015年中国妇女平均生育年龄先下降后上升,累计提高了2.37岁,其主要原因在于妇女生育的推迟效应,孩次结构变化则对平均生育年龄产生了降低效应[84]。日本平均生育年龄上升的内在机制类似于中国,而韩国在孩次结构稳定的情况下,生育推迟起到了决定性作用。

郭志刚通过比较2015年全国1%人口抽样调查数据和以往人口调查数据,研究指出,近年来中国育龄妇女总和生育率的下降主要体现为一孩总和生育率的下降;这一降低具有全面性,晚婚是导致其下降的重要原因[85]。20世纪90年代以来,中国一孩生育率持续下降,生育旺盛期的育龄妇女未婚比例显著提高,这些特征是决定中国生育率持续处于低水平的重要因素。基于此,该研究强调,提高一孩生育水平是现阶段应对中国生育率过低问题的重中之重。张翠玲等对生育政策调整后山东省二孩生育率的研究同样指出,尽管考察期间山东省二孩生育率强势反弹,但由于一孩生育率的大幅下降,导致政策调整对于提升时期总和生育率的实际效应在相当程度上被抵消,一孩生育率的下降成为制约生育水平回升的重要原因[86]。

王亚楠和钟甫宁将出生水平的时期变动分解为育龄妇女比重、生育水平和生育模式变化的效应,研究发现,近20年来中国出生水平的下降表现为上述三个因素的共同下降[87]。宋健和唐诗萌将育龄妇女按年龄划分为“早育组”(15—19岁)、“适龄生育组”(20—29岁)、“晚育组”(30—39岁)和“高龄生育组”(40—49岁)四类,通过计算各年龄组妇女的生育贡献率、分孩次年龄别妇女的生育贡献率以及妇女生育的孩次结构,得出中国现阶段的生育模式总体呈现以适龄生育为主、晚育为辅的特征,其中一孩生育占主体,二孩生育比例不断提升;城乡生育模式基本一致,城镇晚育比例相对更高,生育模式的城乡变化趋势相似[88]。朱勤的分析结果强调了近年来育龄妇女年龄结构老化对各年份出生人口数变化的影响[89]。研究指出,从“六普”结果来看,0—14岁女性各单岁组队列人口数小于所有育龄妇女队列,随着相应队列女性以一定的存活概率依次进入生育年龄,未来15年中国育龄妇女人口规模将持续收缩、年龄结构将进一步老化,由此可以推断,未来出生数量极有可能进一步下降。此外,有研究考察了与人口流动特征相关的生育模式及其对生育水平的影响[90]。



(三)生育分析技术的发展:指标与模型


“工欲善其事,必先利其器。”人口统计学科的发展,离不开相关统计指标、统计模型和分析技术的发展。20世纪70年代末、80年代初开始,中国人口统计学界大量引进、介绍和完善了关于生育统计分析的工具[91]。刘铮介绍了人口增长率、自然增长率、平均增长速度等指标的含义、计算方法与注意事项[92];査瑞传讨论了人口增长惯性的人口学含义及其对中国人口发展的影响[93];林富徳等人讨论了总和生育率的含义与性质[94]。到目前为止,总和生育率是生育统计分析中最为多见的统计指标,由于其简洁直观性,该指标被广泛应用于几乎所有的生育统计及相关分析研究中。尽管如此,关于该指标确切含义的理解和把握、总和生育率与其他生育指标之间关系的探讨,一直是生育统计分析的内容。

1.生育统计指标:总和生育率及其他

总和生育率是国际通用的测量生育水平的统计指标。总和生育率指标基于育龄妇女在生殖周期内的生育事件进行计算,反映其按照一定的年龄别生育率度过一生平均生育的子女数。该指标不受育龄妇女年龄结构的影响,其计算过程既可以基于给定队列妇女的真实(完整)生育史,以此反映相应队列妇女的平均终身生育水平;也可能基于特定时期育龄阶段各年龄妇女的生育事件计算,用以反映时期生育水平,即假想队列的妇女按照相应时期的年龄别生育水平度过一生平均所生育的子女数。为便于区别,前者往往被称作队列总和生育率,后者称为时期总和生育率。由于队列总和生育率的计算需要妇女的完整生育史,这样计算的结果时效性较低,因而,在实际应用中,不少人口统计学研究使用时期总和生育率来反映时期的生育水平。

时期总和生育率指标是标准化的生育指标,不受育龄妇女年龄结构的影响。不过,该指标受潜在生育水平、生育模式及其他人口结构特征的影响,存在相对明显的短期内波动,对于小规模的人口尤为如此。为此,了解时期总和生育率水平波动的原因、分解该指标的构成、探讨其背后“隐含”的实际生育水平的高低,成为人口统计学研究的重要内容之一。除此之外,人口学者也对比了总和生育率与其他生育统计指标之间的关系。

20世纪90年代,路磊探讨了总人口与构成该人口的不同分人口中总和生育率之间的对比关系[95]。研究指出,总人口的总和生育率不仅与各分人口的总和生育率有关,而且因该人口的标准生育模式以及相对年龄分布而异。该研究强调了人口统计分析的标准化技术在比较研究中的重要性。

张二力和路磊对比了总和生育率与总和出生—妇女比两个时期生育指标的含义,阐述了二者的相互关系[96]。高文力和梁颖对比了总和生育率(TFR)、终身生育率(CFR)与政策生育率(PFR)的概念的指标含义,并对这些指标的数据特征进行了分析,研究指出,政策生育率作为特殊的CFR,虽然与TFR有联系,但两者是完全不同的概念,不可直接比较[97]。尽管人口统计学对不同生育指标的统计含义给予了严格科学的界定,不过,由于这些统计指标的正确使用离不开对人口学核心概念和基本规律的把握,忽略这些人口统计基础极有可能造成指标的误用、错误解读,甚至是“简单粗暴”式的对比和推断。例如,有研究将时期总和生育率和队列总和生育率混为一谈,也有研究将消除进度效应后的“总和生育率”与调查汇总估计的总和生育率直接对比,甚至由此来推断调查数据质量和漏报水平。这些做法不仅有失科学性和严谨性,而且极易混淆视听、向社会传递误导性的论断。为此,人口统计学科的发展历程也离不开对相关统计指标进行阐释、对比和不断的校正视听[98]。

由于实际生育水平反映了生育行为和人口结构的共同作用,为了分解人口结构或生育行为的不同维度从而更真实地揭示时期生育率,不少学者曾采用胎次或年龄递进生育率、去进度效应生育率等方法。郝娟和邱长溶针对影响总和生育率的生育进度效应,探讨了去进度效应总和生育率的统计假设及其计算的数据基础[99]。研究认为,去进度效应总和生育率指标能否消除进度效应,在很大程度上依赖于平均生育年龄的变化;由于前者对平均生育年龄的变化高度敏感,因而,相应调整公式的前提假设在现实中难以满足,这意味着调整指标出现错误的概率较高。陈卫和高爽通过回顾和对比总和生育率、去进度效应总和生育率和内在总和生育率指标,指出目前常用的这些生育水平分解方法由于假设条件无法满足或未充分控制生育行为的其他维度,往往存在一定缺陷[100]。基于此,高爽和陈卫引进了由澳大利亚学者提出的内在总和生育率指标,该指标通过同时控制特定时期妇女生育行为的年龄、胎次和间隔三个因素,在构建年龄别、胎次别、间隔别递进概率矩阵的基础上计算而得,能够更真实准确地反映内在稳定的生育水平。不过,该研究也表示,这种指标在实际应用中也存在值得探讨和改进的地方,如它对数据的要求较高、一般的小规模专项调查数据难以满足该指标的构建要求;该指标测度的仍为假想队列的生育水平,不等同于妇女平均一生实际所生子女数。

除生育水平的统计指标外,人口统计学也关注与之相关的生育意愿的统计测度。郑真真对比了生育意愿的不同统计指标的内涵,包括理想子女数、期望生育子女数、生育意向和生育计划[101]。研究指出,理想子女数是群体生育观念的代表,并不反映个体的生育需求或意愿;该指标适用于在回顾性研究中反映育龄人群生育观念的转变。相比之下,期望生育子女数比较接近夫妻或个人的生育需求,但可能会随生育历程而不断调整,预测能力较差;生育意向和生育计划与短期行为的相关最为密切,适用于预测短期的生育行为。在中国生育现状下,基于孩次的生育计划是对政策调整后短期行为预测的有效指标。

2.生育模型和间接估计技术

生育模型是对生育行为内在规律的提炼和总结,其发展过程反映了人口统计学对于生育现象的认识在不断提升。生育模型的提出,不仅有助于简化对复杂现实的认识,而且为利用少量的甚至是残缺的统计数据进行估计和预测提供了方法支持。

20世纪70年代末80年代初,宋健等提出了概率分布的生育模型[102],自此,该模型在中国生育研究中得到广泛应用[103]。同一时期,中国人口统计学者也注重吸收和引进国际先进的人口统计学成果,包括寇尔—特拉塞尔(Coale-Trussell,简称C-T)生育模型、邦戈茨(Bongaarts)模型、布拉斯—冈珀茨(Brass-Gompertz)相关生育模型、Feeney生育递进模型等。一些学者结合中国实际,对这些模型进行了改进和推广应用。翟振武改进了C-T已婚生育模型,为解决生育数据不完整、不准确条件下已婚生育率的估计问题提供了重要的选择[104]。黄荣清在对比宋健模型、C-T模型与Bongaarts模型的原理与建模方法的基础上,提出在有抑制因素(如婚姻、避孕、流产、哺乳、疾病与风俗等)作用下的生育率模型[105]。谢韦克和黄荣清阐述了黄荣清对Coale生育模型的改进模型——初婚对数正态分布模型[106]。郭曼东和王晓峰讨论了Brass-Gompertz相关生育模型的使用条件[107]。李伯华等利用1987年全国老年人口调查资料,在队列生育率模式相对稳定(即终身生育率的分布)的假设下,借助Brass-Gompertz相关生育模型对中国20世纪三四十年代年龄别生育率和总和生育率水平进行了估计[108]。

陈友华在吸收Feeney的时期孩次递进生育模型思想的基础上,将结婚与死亡因素引入模型,提出了包含结婚与死亡信息的孩次递进生育模型[109]。张二力和陈建利结合中国生育政策的影响,将孩次信息引入Brass的相关生育模型,提出分孩次的相关生育模型[110]。改进后的模型通过调控平均生育年龄、生育中位年龄、早育比、计划外二孩比等指标参数,为中国不同地区计划生育政策的比较与效果仿真提供了便利。在其后续研究中,张二力和陈建利将避孕因素引入胎次持续时间生育模型,建立了考虑避孕因素的胎次持续时间生育模型,为模拟避孕因素对生育水平和生育模式的影响创造了条件[111]。郭志刚在Feeney生育递进模型及马瀛通等生育年龄递进模型的基础上,提出了生育递进预测方法,为生育政策调整后果的模拟仿真提供了便利[112]。

除上述生育模型的发展外,生育指标的其他间接估计技术也得到了广泛的研究与推广。曾毅介绍了利用平均初婚年龄与各孩次平均生育年龄估算平均生育间隔的方法,使人口普查数据等较为易得的生育信息有了更广泛的应用价值[113]。谢韦克和王绍贤讨论了有全部生育率数据、只有部分生育率数据以及没有生育率数据三种不同条件下构造生育模型的方法与意义[114]。构造Brass相关生育模型时,曾毅提出的非最小二乘法比常用的最小二乘法更优[115]。王广州介绍了运用遗传算法估计年龄别生育率与总和生育率的间接估计技术[116]。杨书章和王广州借鉴孩次性别递进方法,提出了从生育率与生育间隔估算一孩独生概率的间接估计方法[117]。这些间接估计技术为更有效地开发和利用较为易得的生育信息提供了统计便利和方法支持,也为不同统计分析手段和结果有效性的交叉检验开阔了视野。



(四)小结


回顾过去70年的发展历程,中国生育统计的技术、研究内容和研究成果均经历了一个不断丰富和成熟的过程。由早期相对单一的生育水平估计,到生育水平和生育模式的综合考察,多种统计分析手段和技术的应用对分析结果的交叉检验提供了丰富的信息。这一过程中,尽管生育统计的研究争论不断,但这些统计活动和分析成果无疑为准确把握和预测中国生育状况及人口变化规律提供了重要的依据。

从研究关注的焦点来看,20世纪80年代以前,生育分析侧重于为解答人口过快增长、“人口爆炸”的担忧提供实证参考;20世纪90年代以来,随着生育水平的大幅下降,关于生育率真实水平的探讨成为生育分析的重要议题,这一过程也催生了不同来源数据的整合与比较分析、间接估计技术的讨论与发展;到21世纪初,关于生育率真实水平的讨论仍在持续,除此之外,开始有研究针对人口潜在负增长惯性、政策生育率、时期生育率与队列生育率、更替水平生育率等生育统计指标进行科学分析和探讨。这些研究在以估计真实生育水平为主流的统计研究之外,为生育统计的返璞归真贡献了新的内容。这一时期,有不少关于超低生育率的评估,以及低生育陷阱的检验。2013年以后,随着生育政策的调整,关于生育的统计分析开始关注政策效应、短期出生堆积的风险及其规模。

综上所述,新中国成立以来,中国各时期人口生育研究具有鲜明的时代特征。由于各时期生育特征、突出问题及相关政策各异,生育研究在不同阶段也呈现出鲜明的时代特点;各时期研究关注的重点和热点问题、相关学术争论的核心推陈出新,不断演变。从各时期公开发表的研究成果来看,有些研究有深厚的研究基础和基础数据支撑,也有些研究急于公开表达观点,毫无独立的研究基础和基础数据支撑;既有研究方法的激烈争论和正面交锋,也有研究结果的实践检验。从研究的内容来看,中国人口统计学者对生育的研究既有对总体趋势的把握,又有对政策调整相关问题的反思与回应,以及对生育模式、生育水平、生育意愿等重要方面进行的全面细致的考察。这些研究活动为推动人口统计学科的科学探索、创新发展,以及国家长期重大发展战略与规划和人民群众的家庭幸福与美满提供了重要的依据。纵观这些研究成果,随着科学研究的检验和再检验,学术研究中达成的共识在逐步增加,不切实际的假设逐渐被放松或修正;与此同时,这一领域仍然存在一些重要的争议。



三 死亡


20世纪80年代,第三次全国人口普查以及其他调查数据中关于死亡数据的收集,为中国人口统计学中死亡统计指标和生命表等分析技术发展奠定了基石,由此开启了死亡统计分析的新里程。中国关于人口死亡的统计研究主要集中在以下方面:死亡统计指标与方法的阐释、死亡水平的估计、死亡模式及相关统计分析技术、死亡统计的其他维度。



(一)死亡统计指标与方法的阐释


1.平均预期寿命

与人口统计学的其他分支研究相类似,死亡统计及相关分析的发展历程离不开对国际通用的死亡统计指标的介绍和科学阐释。关于死亡的统计指标,最为常用的是各年龄死亡率和平均预期寿命。20世纪80年代初人口统计学的恢复,最先迎来了不少关于死亡率水平和平均预期寿命的阐释及其相互关系的研究[118]。平均预期寿命是对特定时期人口死亡水平的标准化测量,该指标基于年龄别死亡概率构建,通过消除人口年龄结构的影响,为综合衡量死亡风险、进行跨人口或跨时期死亡水平的对比分析提供了高效的统计信息。平均预期寿命的人口学含义是,人口(在特定年龄)按照给定的年龄别死亡(或存活)概率度过一生,预期将存活的平均年数。平均预期寿命可以针对不同年龄点进行估计,以反映人口在该年龄起、按照特定的年龄别存活概率预期继续存活的年数。

关于平均预期寿命的含义及统计规律,人口统计学界进行了重要的科学探讨。乔晓春分析了不同年龄的死亡率对平均预期寿命的影响,论证了低龄组死亡率的波动对平均预期寿命影响更大的结论[119]。人口统计学指出,一般而言,就同一人口来说,较低年龄的平均预期寿命高于较高年龄的平均预期寿命。不过死亡统计研究也发现,当婴儿死亡率过高时会出现平均预期寿命的矛盾现象,即0岁预期寿命低于1岁预期寿命。围绕这一现象,20世纪80年代一些人口统计学者进行了理论分析和统计推导[120]。这些研究为正确认识、使用和分析死亡统计指标提供了方法论指导。

2.其他死亡指标以及生命表的编制

平均预期寿命在死亡统计中占据核心重要的位置,不过,该指标的计算是以生命表技术为基础的。作为人口统计学的独特的、核心的工具之一,生命表技术包含了重要的死亡统计概念和指标,如死亡分布系数、各年龄尚存人数函数、人年数等。这些指标的含义和估计方法,对于正确理解和使用生命表技术极为关键。

黄荣清针对生命表中尚存人数函数I(x)与各年龄组平均人数L(x)的计算方法提出了改进的近似估计方法,以提高平均预期寿命计算结果的准确性[121]。路磊讨论了生命表中死亡分布系数a的概念与几何意义,研究指出,死亡分布系数的选择对计算各年龄的平均预期寿命影响不大,其计算结果相对稳健;不过,人口预测的准确性在很大程度上与死亡分布系数的选择有关,不同的死亡分布系数可能带来较大的差异[122]。翟振武对比了死亡分布系数a值的不同计算方法,包括简单平均法、寇尔方法、联合国方法等,在此基础上提出了一种改进的迭代计算方法[123]。黄荣清讨论了a值的意义与一般特征,指出a值的大小依赖于生命表中死亡人数的变化特征[124]。

针对生命表的编制方法,亓昕和李南介绍了从简略生命表扩展为完全生命表过程中减小插值误差的最小修正法——改进的UNABR法,该方法通过控制插值过程在各年龄组死亡概率上的误差,使完全表与原简略表之间的预期寿命误差降低[125]。李涌平和梁志武提出了利用按年龄与死亡时间收集的死亡数据编制生命表的新方法——双死亡数线性方法[126]。



(二)死亡率的估计:特征、差异与变化趋势


各时期关于死亡的统计活动和分析,以死亡率水平的估计最为常见。其部分原因在于,与其他死亡统计指标相比,死亡率的估计所需要的基础数据较少、相对易得。对任一人口而言,各年龄的死亡率差异巨大,因而,除粗死亡率指标外,人口统计学关于死亡率的估计更多地使用不同年龄或年龄段的人口死亡率,如婴儿死亡率、5岁以下儿童死亡率、育龄妇女死亡率、老年死亡率等。通常这些年龄段的死亡率水平相对较高,能够反映人口中较为突出的死亡风险水平。

曹萌等对20世纪80年代以来中国分性别婴儿死亡率的变化趋势及地区差异进行了估计[127]。研究指出,中国从20世纪80年代初开始婴儿死亡率出现性别结构异常化,女婴死亡率高于男婴。相应性别差异随时间不断扩大,且出现异常变化的省份数量不断增加,例如,安徽、江西、广西、广东、海南等地的婴儿死亡率性别结构异常情况尤为严重。该研究认为,婴儿死亡率的性别差异变化可能与各地区性别偏好观念和计划生育政策的执行力度有关。支聪聪等对5岁以下儿童死亡率的变化趋势进行了分析,研究指出,5岁以下儿童死亡率呈逐年下降趋势,相应趋势在城乡均很显著[128]。

黄维海和袁连生通过分析1990—2010年人口死亡率,发现中国各地区的人口死亡率呈下降趋势,不过,死亡率水平存在明显的地区差异,且各地区人口死亡率下降的速度也并不相同[129]。成年男女死亡率的地区差异在客观上与生育率、育龄妇女死亡率的地区差异及其历时变化有关。丁海峰等对中国大陆地区2004—2010年孕产妇死亡率的地区差异进行了分析,研究发现,考察期间孕产妇死亡率逐年快速下降,6年间下降超过一半,年均下降3.25/10万;不过,不容忽视的是,现阶段各地区孕产妇死亡率的差异仍很显著[130]。类似的,李树生和田阳霞的研究同样揭示了人口死亡率的地区差异[131]。

魏本胜等应用地理信息系统(GIS)技术构建了上海市死亡人口空间数据库,对上海市死亡病例的时空特征进行分析[132]。研究发现2003年上海市户籍人口总体死亡人数的空间分布呈现市区高于郊区的分布特正,心血管类疾病的死亡率分布特征与之相类似,但呼吸类疾病的死亡率分布特征却与之相反。郝君富和王亚柯从环境污染角度出发考察人口死亡率顺经济周期波动的原因,研究发现,死亡率回归方程加入环境变量后,人口死亡率的顺经济周期波动现象有所减弱,甚至变成逆经济周期波动,该研究推断,环境污染是人口死亡率顺经济周期波动的重要原因[133]。

王记文利用1981年、1989年、2000年、2010年、2015年的分年龄死亡率数据对中国20世纪80年代以来的死亡率和平均预期寿命进行了分析[134]。认为中国死亡率在2000年之后下降较快,20世纪八九十年代下降较慢,生存曲线呈现出矩形化的特征;作为死亡率下降和存活曲线矩形化的结果,中国人口的平均预期寿命也在逐渐延长,生命表的矛盾现象在2010年消失。

此外,宋健和周宇香利用“六普”统计的婴儿死亡率以及2000年和2010年育龄妇女平均生育年龄、平均结婚年龄指标,预测了中国父母丧子的年龄概率分布[135]。研究认为,中国父母需要面临10%左右的丧子风险,丧子概率高于丧女概率,并且丧子的年龄也高于丧女年龄;丧子概率的年龄分布大致呈“L”形——初育第一年失去孩子的概率远高于其他时期,父亲80岁、母亲85岁时略有升高随后又趋于下降;父亲失去孩子的概率略低于母亲。



(三)死亡模式及相关统计分析技术


由于死亡事件发生概率较小,死亡统计对相关数据的质量高度敏感。通常,关于人口死亡水平的统计需要借助高质量的死亡登记信息或人口普查数据来进行。由于死亡登记资料在多数情况下并不公开可得,而人口普查大多每隔10年才开展一次;这对常用的人口统计分析中死亡数据的质量检验提出了新的课题。由于缺乏多渠道、可比的死亡统计数据,数据之间的交互检验变得困难;为此不少学者通过引入或改进死亡模型,借助间接估计技术对死亡统计数据进行质量评估和修正。

1.死亡率的估计技术

囿于数据资料的匮乏,从20世纪80年代开始有不少死亡统计分析着眼于引进不同的间接估计技术、探讨其适用性并尝试不同的改进方案。这些研究为死亡统计方法的发展以及死亡统计结果的积累做出了重要的贡献。

在众多的死亡率估计技术中,模型生命表技术是死亡估计的最为常用的方法,该方法基于人类死亡数据的经验规律,将不同人口的死亡模式进行归纳总结,以少量的参数和有限的模型生命表来近似估计不同人口的生命表特征。模型生命表的提出和推广应用,为死亡数据缺失、数据质量较差的国家和地区估计人口死亡状况提供了高效的解决办法。秦芳芳介绍了模型生命表的种类、编制原则及其用途[136]。李希如在既有单变量模型生命表模型的基础上,介绍了一种新的单参数数学模型,结合中国城乡死亡模式编制了城乡模型生命表,拓展了模型生命表技术在中国死亡统计研究中的应用[137]。蒋正华利用“三普”数据及一些历史死亡资料,编制了中国分区模型生命表,为中国后续死亡指标的间接估计奠定了重要基础[138]。路磊在分析既有的Coale-Demeny模型生命表与联合国针对发展中国家编制的模型生命表的特点及其适用性的基础上,介绍了一种新的根据死亡水平与死亡模式估计生命表的方法,以提高模型生命表的适用范围与灵活性,方便完全生命表的编制[139]。

除模型生命表技术外,人口统计学界也有不少针对特定死亡率提出的估计技术。罗茂初介绍了国外人口统计学界关于婴儿死亡率的估计方法,着重对比了布拉斯(Brass)提出的logit方法和费尼(Feeney)的间接估计技术在婴儿死亡率估计中的应用[140]。王绍鑫应用Feeney估计方法估算了贵州省1955—1978年的婴儿死亡率,为死亡研究补充了重要的数据信息[141]。黄荣清提出以I(x)的双对数函数连接的死亡关系模型,并将其与Brass的logit模型进行了对比[142]。研究认为,在预期寿命较低的情况下,logit体系精度相对较高,而在预期寿命较高的情况下,双对数模型精度相对较高。婴幼儿期死亡率的拟合,logit模型误差较小,而老年期的拟合结果则以双对数模型更优。在其后续研究中,黄荣清构造了两种新的死亡模型,改进了人口死亡间接估计模型[143];针对Gompertz提出的全年龄死亡模型,讨论了其构建的技术细节、拟合优度和参数要求,并在此基础上尝试了改进的方法[144]。

张文娟和魏蒙以1981年的中国人口生命表为标准生命表,使用Brass方法对“六普”数据中的死亡模式进行修正[145]。该研究测算了中国2010年的人口预期寿命,并对20世纪80年代以来人口死亡率的变化趋势以及性别模式进行分析。研究认为,“六普”数据中婴幼儿和老年人口存在严重的死亡漏报,男性老人死亡率下降缓慢,女婴死亡率偏高的问题依旧存在。陈卫用广义稳定人口模型推导出存活概率与人口结构的关系,用Brass-logit变换得到各年生命表中死亡概率与存活概率之比与标准生命表该参数的线性关系,二者联立得到线性回归方程,使用最近四次普查数据得到各普查年间的生育和死亡水平估计[146]。

张震等对Wilmoth等提出的二维死亡模型进行了分析和验证[147]。该模型发现0—4岁对数死亡概率与各年龄别对数死亡率之间均有显著的正相关关系,且呈二次项关系,即由0—4岁死亡率和成年死亡率来拟合各年龄死亡率。张震等选用死亡数据质量较好的“三普”数据研究发现,二维死亡模型能够用于中国人口死亡率的间接估计,并且基于中国经验系数能得到非常好的拟合效果。

除人口统计学的死亡间接估计技术外,也有不少研究将一般的统计学原理与方法应用于死亡统计研究。安洪庆等利用ARIMA模型对中国1991—2009年新生儿死亡率进行拟合分析,研究认为该模型对新生儿死亡率的拟合结果误差较小,可用于外推预测[148]。黄荣清将贝叶斯估计方法应用于死亡率估计,介绍了该方法在抽样调查数据估计人口死亡率中的应用,估计了1995年中国各省(直辖市、自治区)分性别、年龄别的死亡率和人口预期寿命[149]。张连增和段白鸽利用广义线性模型中的泊松回归模型、负二项回归模型对0—89岁的死亡率进行拟合,并对两种模型的拟合效果进行了比较[150]。研究认为,负二项回归模型对死亡率的修匀拟合效果优于泊松回归模型;结合中国分年龄、分性别死亡率的变化规律,该研究论证了基于广义线性模型的动态死亡率修匀方法的适用性。

2.死亡数据的质量评估与修正

死亡统计数据是死亡统计分析的基础,其质量在很大程度上决定着相关统计研究结果的可靠性。为此,死亡数据质量评估历来是人口统计研究的重要内容。

黄润龙介绍了不同的死亡率调整方法,包括Brass提出的平衡方程法、Preston与Hill提出的两次普查间生存率调整法、非稳定人口生存率调整法、死亡率登记完整性估计与调整方法等[151]。翟振武回顾了偏低婴儿死亡率的调整方法,包括删除低质量数据法、调整漏报率法、模型生命表法以及人口回测法(迭代法)等[152]。李荣敏等提出了一种改进整体参数修匀法,改进了粗死亡率修匀的方法,克服了因数据缺陷而造成的局部死亡率波动现象[153]。

符文华等介绍了捕获—再捕获方法在人口统计分析中的应用,并以此估计了5岁以下儿童死亡漏报率与死亡率,实践表明其估计结果更接近真值[154]。与之类似,张书岭等应用捕获—再捕获方法评估死因登记报告系统中死亡统计的数据质量,结合汶上县的全死因登记结果,该研究评估结果显示,使用死因登记报告系统或合并样本资料均会低估全死因死亡率,这一低估问题可以通过使用捕获—再捕获方法得以校正[155]。张荣艳等利用灰色预测理论,通过建立残差灰色预测模型对2012—2020年中国人口老龄化状况进行了预测[156]。黄维海和袁连生介绍了基于计量模型预测非普查年份死亡人口特征的方法[157]。陈威杰和吕盛鸽依据生命表理论,利用联合国平均预期寿命增长模型和年龄移算法对四川省老年人口的变化趋势进行了预测[158]。孙佳美和郭利涛探讨了Coale-Kisker模型在拟合高龄人口死亡率中的应用,基于经验分析,该研究提出了改进该模型的办法[159]。该研究认为,在数据质量较为可靠、85岁以上人口的死亡率数据已知的情况下,改进的Coale-Kisker模型拟合效果明显更优。

黄荣清和曾宪新基于婴儿死亡率经济发展水平之间的经验关系,对“六普”婴儿死亡统计数据的质量进行了评估[160]。通过对世界174个国家的婴儿死亡率和经济发展的关系进行拟合,并利用中国普查数据和其他来源数据的对比、跨省婴儿死亡水平对比等手段,推断得出,“六普”存在明显的婴儿死亡率“漏报”问题。该研究使用数据质量相对较高的幼儿死亡数据,结合各省(直辖市、自治区)经济发展水平对省级幼儿死亡率进行修正;在此基础上,利用婴儿死亡率和1—4岁幼儿死亡率之间的经验关系对婴儿死亡数据进行调整。最终估计的2010年中国婴儿死亡率为17.27‰。黄润龙利用1991—2014年卫生部监测点定点调查资料、“五普”和“六普”的相关数据,通过分析指出,“六普”婴儿死亡漏报率为68%,主要发生在农村及欠发达地区。然而使用相关经济社会数据推测婴儿死亡率,需要有更为直接和有力的理论支撑,也要解决好内生性的问题,其准确性还有待商榷[161]。

李成等对“六普”死亡统计数据的评估指出,2010年中国男女两性的婴儿死亡率分别为16.41‰和15.94‰,相应的漏报水平为77.3%和75.5%;老龄死亡概率(60—89岁)男性为0.703、女性为0.595,相应的漏报水平为2.3%和7.0%[162]。

宋健和张洋通过推导婴儿死亡率漏报对平均预期寿命估计偏差的公式,构建出中国大陆各地区漏报可能性指数[163]。研究认为,中国各地区婴儿死亡漏报率变动对于平均预期寿命的影响存在显著差异,但分性别漏报可能性指数与期望寿命的空间自相关不显著;研究推断,平均预期寿命低,但漏报可能性指数低的省区,实际漏报的可能性更高。范勇和朱文革使用了时间跨度长的美国死亡率数据,通过比较发现引力模型和APC模型相结合的修正方法的结果最为准确,并以此提取了足够的时期信息来修正中国的死亡率数据[164]。

3.死亡率预测模型:Lee-Carter模型及其改进

Lee-Carter模型是人口统计学中经典的死亡率预测模型,它将年龄别死亡率分解为基础死亡率和随时间变化的两部分,具有对死亡规律预测把握性强、形式简洁、便于扩展的优点。中国人口统计学界有不少学者利用Lee-Carter模型进行死亡率预测、修正和改进该模型的拟合方法等。

王晓军和任文东针对中国死亡率数据量较少且部分年份的数据缺失的问题,结合有限数据死亡率建模方法和“双随机过程”建模策略,构建了有限数据下中国人口死亡率的预测模型,对传统的Lee-Carter模型进行了改进[165]。研究认为,改进后的模型可用于对未来死亡率变动趋势和人口寿命的预测,其预测效果明显改善。高怡宁在经典Lee-Carter模型的基础上,将各个时间、年龄组内的死亡率差异纳入模型,提出死亡人口服从负二项分布的Lee-Carter模型改进形式,并利用中国1993—2009年分年龄、分性别的死亡率对模型进行了量化分析[166]。拟合结果表明,改进后的模型优于经典泊松分布假设下的模型,但由于高年龄段的死亡率波动较大,该模型的拟合效果欠佳。罗晓宁和张华对比了Lee-Carter模型的不同估计方法,研究指出,利用贝叶斯(Bayes)估计方法在估计模型参数时能够给出参数对应的估计误差,具有利用先验信息的优势[167]。与传统的奇异值分解法(SVD)相比,贝叶斯方法能够减少低估奇异值出现的风险。

王洁丹等综合对比了常用的死亡率预测模型,包括确定性模型和随机死亡率模型[168]。研究指出,与确定性模型(包括Gompertz模型等)相比,随机死亡率模型通过考虑死亡率的随机变动,预测效果更好。在常用的随机死亡率预测模型中,Lee-Carter模型尽管具有参数明确、实用性强的优点,不过,该模型在死亡率预测中同样存在缺陷。首先,Lee-Carter模型假定在同一年中死亡率随时间的变动程度独立于年龄变化,这一假设与实际不相吻合;其次,该模型对中长期死亡率的预测结果稳定性差。针对这一情况,王洁丹等利用Hyndman-Ullah函数型死亡率模型,在拟合1994—2010年中国人口分年龄死亡率的基础上对未来分年龄死亡率进行了预测。研究认为,函数型预测方法不仅具有较好的预测精度,而且能提供整数年龄和非整数年龄的具体死亡率。

吴晓坤和王晓军用泊松最大似然估计方法,使用1994—2010年中国分年龄、分性别单岁组死亡数据,建立中国人口死亡率Lee-Carter模型,并在泊松最大似然估计方法的基础上使用泊松再抽样,对参数模型进行再估计,从而对预测变量进行再抽样预测[169]。对预期寿命再抽样结果的置信区间完全包含了非再抽样方法,认为泊松再抽样方法所能预见的不确定性超过了非再抽样方法。

张志强和叶崴针对Lee-Carter模型的各种改进方法中同方差假设仍然难以满足的问题,认为这是由于不同年龄组之间过渡所产生的“亦此亦彼”性,即模糊性;为此,该研究建议使用模糊模型,把Lee-Carter模型的3个参数均用模糊集来刻画,提出了死亡率模糊模型的参数估计方法[170]。对台湾人口死亡率数据的估计显示死亡率模糊模型预测效果优于Lee-Carter模型。

王晓军和赵明认为在中国应用Lee-Carter模型受到死亡率数据的局限,因而可以从死亡率改善产生的原因入手,对未来不同情景下死亡率的随机波动趋势进行实证分析[171]。用Monte Carlo方法随机化死亡时间,对死亡率一阶差分的均值建立随机游走模型估计死亡率短期改善,对多年死亡率改善水平作几何平均得到长期改善因子,并考虑了以肿瘤为代表的特殊致病原因的改善。

黄匡时在介绍经典Lee-Carter模型及其常用的改进方法的基础上,使用了相干和倒置改进的方法,将中国1987年5个区域期望寿命从40—75岁的模型生命表,拓展到76—100岁[172]。段白鸽基于全年龄段动态死亡率的Lee-Carter模型,对死亡率随时间变动率k采用ARIMA模型预测,对中国大陆地区1994—2010年,台湾地区1970—2010年死亡率和平均预期寿命进行建模,预测了2010—2060年的死亡率和平均预期寿命,验证了性别差异扩大、高龄死亡率减速和大陆地区与台湾地区趋同的3大趋势[173]。柳向东和范洋洋使用了台湾地区的死亡率数据,对大陆和台湾两个地区分别建立Lee-Carter模型,而后用协整分析建立基于相关性的向量误差修正模型(VECM),以此来提高预测的准确性[174]。

王志刚等推导了Lee-Carter模型下死亡率的分布函数和数字特征,以及相应的点预测和区间预测的表达式,以此构建了死亡率理论分布和预测区间[175]。使用中国1995—2010年5岁组死亡率,采取考虑误差项波动性的全因素法进行估计,发现常用的只考虑主因素的估计低估了长寿风险,在短期预测中低估更为严重。在另一研究中,王志刚等指出,男性和女性两个群体死亡率下降具有相关性,研究认为,对包含男女两性的总人群死亡率建立二维Lee-Carter模型可以减少对死亡风险的低估[176]。张志强和杨帆通过带变点检测的分段回归来改进解释变量为主成分得分的对数中心死亡率回归模型(Logarithmic Central Mortality Regression Model,经典PC模型),使预测精度明显提升,预测效果优于经典的Lee-Carter模型[177]。通过对比分析,研究认为,对数中心死亡率回归模型的第一主成分与Lee-Carter模型的时间项变化趋势几乎相同,反映了各年龄组的中心死亡率随时间变化而下降的信息,第二主成分则主要综合了队列效应对死亡率的影响。

综上所述,过去几十年间中国人口统计学界对Lee-Carter模型的改进进行了大量的尝试,也积累了丰富的经验成果。这些成果既包括基于非参数的死亡率估计方法,也包括利用死亡率与社会经济发展状况之间的关系进行的模型拟合与参数估计。这些改进和尝试,无疑有助于全面认识人口死亡率的变化规律、有效进行死亡统计分析;不过,关于这些不同的改进方法,系统的对比和评估还比较缺乏,不同方法在提高对观测数据拟合状况的同时,也需要关注和重视不同方法的原理及其人口学含义,提高改进方法的稳定性。



(四)死亡统计的其他维度


1.死亡率下降的理论极限

随着世界范围内人口死亡率的不断下降,一些发达国家和地区率先在高龄段出现人口死亡率以更快速度下降的趋势。这一趋势吸引了人口统计学的关注,近年来有研究开始讨论超高龄阶段死亡率下降是否会出现减速、是否存在极限年龄的问题。段白鸽和孙佳美研究了极值理论在高龄人口死亡率建模中的应用,并探讨人类寿命分布有限上界的存在性问题,对最高到达年龄进行了预测[178]。段白鸽和石磊使用“五普”和“六普”数据,对年份、城镇乡、性别的分层建模,采用统一的分层模型框架,并在高龄段使用不同的函数拟合死亡率的变化[179]。模型拟合的最优结果为死亡率下降减速提供了经验支持,也从一个侧面论证了极限年龄的存在。王伟进和陆杰华使用中国老人健康长寿影响因素调查1998—2008年追踪数据,分析了80岁以上高龄老人的死亡风险,研究发现女性异质性高于男性,在控制异质性之后,两性死亡率出现了交叉,在选择性机制作用下男性超高龄死亡率低于女性[180]。研究指出,高龄死亡率下降减速和两性死亡率交叉均存在,这些现象与死亡的选择机制有关。

张震利用中国人口普查资料以及世界人口死亡率和经济发展数据,使用寿命损失指标来考察20世纪50年代以来中国人口寿命不均等的变化历程,并对之进行历史纵向和国际横向比较[181]。研究发现,在过去半个多世纪中,中国不仅实现预期寿命的持续增长和寿命不均等的大幅下降,并且能在相同的收入水平上把寿命不均等降到全球极低的水平。李婷使用的生命力模型将死亡率分解为内生的“生命力”过程和外生死亡过程,如果外生冲击大于某时点生命力则发生死亡,以此将期望寿命分解为内生预期寿命及其外生损失[182]。通过分析性别差异、城乡差异并与日本进行比较,研究认为,未来中国预期寿命增长将逐渐转变为以内生因素提高为主的模式。

2.死亡研究中的健康维度

死亡研究和生命表技术的发展完善,也在很大程度上促成了相应技术在其他人口与社会经济统计分析中的应用。其中较为突出的研究成果表现在,随着人口老龄化的不断发展,人口统计学研究中开始将生命表技术与人口老化趋势、健康问题等相结合,研究老龄化社会突出的人口与健康问题[183]。这些研究中比较典型的有多状态生命表技术的发展和应用、平均健康预期寿命的估算、健康和死亡风险的差异及其变化等[184]。

林汉生介绍了模型生命表技术在老龄与健康研究中的应用[185]。顾大男等介绍了不同的健康预期寿命的计算方法[186]。李强和汤哲讨论了多状态生命表法在老年人健康预期寿命研究中的应用[187]。顾大男利用中国高龄老人健康与长寿纵向调查数据,运用多元惠普尔风险回归与曾—顾—兰德改进的多状态生命表方法研究了中国高龄老人生活自理能力预期寿命[188]。曾毅等在传统多状态生命表中考虑了临终前的自理能力(失能)状况,使得健康预期寿命的估算能够体现更广泛的健康内涵[189]。李成福等采用健康预期寿命年均增加法、健康预期寿命和预期寿命差值法,对中国2020年及2030年健康预期寿命进行推测,研究结论强调了健康预期寿命的重要意义,建议将健康预期寿命的发展纳入中国2030经济社会发展规划指标,建立中国健康预期寿命的监测指标体系[190]。

焦开山利用追踪调查数据考察了老年人健康预期寿命的差异,以及其随队列和年龄的变化趋势[191]。研究发现,较高社会经济地位的老人在健康预期寿命上并不具有显著优势,尽管其预期寿命具有优势;后者主要是由于发生残障后相对较低的死亡率导致。卢敏和彭希哲基于近年来国际人口统计学界讨论的期望余寿,提出如果按照期望余寿15年作为老年的定义标准,老年起点将随着人口预期寿命的持续提高而动态变化,将从2015—2020年的61.5岁提升至21世纪中叶的近70岁;由此估算的老年人口比重的上升幅度和速度明显较低[192]。

在死亡风险和死因方面,杨磊和王延涛用多种健康指标综合构建中国老年人虚弱指数,并建立增长曲线模型分析了虚弱指数及其队列差异,用Cox比例风险函数分析了死亡风险[193]。李涌平和韩丽媛从流行病学的疾病谱转变视角来研究中国的死亡水平和死因构成,认为中国死亡率下降符合流行病学中的欧曼转变模式,分疾病类型的死亡水平显示,城市心脑血管疾病和恶性肿瘤影响最大,农村则还包括伤害和中毒[194]。此外,王磊使用中国多世代人口数据库(双城)的死亡事件,采用事件史分析方法检验了晚清时期婚姻对死亡的保护作用[195]。王伟进和陆杰华发现婚姻状况和子女居住远近对男性高龄老人有保护性作用,但对女性老年人影响不显著[196]。邱红等使用2016年吉林省死因监测数据分析了主要疾病对预期寿命的影响[197]。结果指出,前10位死因的死亡比例占98.94%,前4位死因的死亡人数占总死亡人数的90.9%,影响较大的疾病包括循环系统疾病、肿瘤、呼吸系统疾病、消化系统疾病、内分泌系统疾病等。

大量统计研究基于中国老年健康影响因素追踪调查数据对死亡风险进行分析。这些研究发现,低体重指数老年人的死亡风险显著高于正常体重指数老年人[198];经常感到紧张、孤独的老年人的死亡风险更高,生活满意度较高的老年人死亡风险相对较低[199];社会弱势程度指数增加死亡风险[200];代际精神互动和物质互动显著减少死亡风险[201];居住方式的变化影响老年人死亡风险,和子女的居住安排由同住变为不同住的老人死亡风险最高,相反的居住安排变化或“一直同住”的情况,老人死亡率均显著更低[202]。李建新和张浩采用Log-logistic形式的加速失效模型考察生育史对中国老年女性寿命的影响,研究发现,早育经历会减少老年女性的存活时间,曾生或现存子女数为5个及以上的老年女性存活时间更长[203]。陆杰华和张昀考察了老年人死亡质量的变化及临终关怀服务的影响[204]。



(五)小结


过去70年来,中国人口死亡率总体上经历了快速的下降,人口平均预期寿命持续增长。这一过程与世界范围内死亡率下降的一般规律相吻合,反映了社会经济发展和疾病谱转变对生存状况和死亡风险的影响。在死亡率下降的一般过程中,不同年龄、不同性别的死亡风险下降先后有别,速度不尽相同,由此形成了死亡率差异和死亡模式的动态变化。与这些特征相联系,过去70年来,中国关于死亡的统计由相对单一的死亡水平估计,到死亡模式及其动态变化规律的考察,总体上经历了一个不断深入和完善的发展过程。在这一过程中,死亡统计分析的技术和工具不断完善,其中既包括国内学者自主提出的统计方法,也包括从国外引进并不断改进的技术手段。随着学界对经典问题的研究向纵深推进,关于死亡的统计成果从对总体趋势的把握逐步转向精耕细作。这些成果推进了对中国人口死亡状况以及人类生命及死亡规律的一般认识。

除此之外,关于死亡的统计活动和研究开始呈现学科交叉的特点,如精算学、流行病学等,这些研究为人口统计学完善死亡统计的研究思路和方法提供了借鉴与拓展。不过,由于其中一些跨学科的研究对人口发展机理把握不足,研究中出现了一些错误和偏差的结论,由此也引发了关于死亡统计原理和方法的学术探讨,客观上推动了学科的发展。



四 婚姻分析


广义的婚姻概念既包括未婚、已婚有配偶、分居、离婚、丧偶等婚姻状态,也包括结婚(初婚与再婚)、离婚、丧偶等婚姻事件。婚姻分析旨在通过统计数据揭示一定时间内人口的婚姻状态,并借助于婚姻预测模型,探寻未来人口婚姻状态发展趋势。



(一)人口婚姻状态


婚姻状态是人口统计学所要研究的重要现象之一,源于婚姻事件,如结婚、离婚、丧偶和再婚等,婚姻状态直接影响妇女生育率和人口出生率、人口迁移,以及妇女的就业等。

1.基本婚姻状况

基于全国人口普查和人口抽样调查数据信息,人口基本婚姻状况主要从未婚、有配偶、离异、丧偶四个方面进行分析。

新中国成立后至今,人口的婚姻状况发生较大变化。1950年有配偶者的比重约为61.9%,1960年约为83.7%,1970年约为94%;丧偶者比重则分别为37.7%、16.0%和5.6%;离婚者比重3个时期同期群均在0.5%以下[205]。20世纪80年代后,人口婚姻状态则主要来源于全国人口普查和人口抽样调查数据。

1982年、1990年、2000年、2010年4次全国人口普查,以及1995年、2005年、2015年全国1%人口抽样调查得到相应时期15岁及以上人口的婚姻状况。总体上,自第三次全国人口普查至2005年,15岁及以上人口中未婚人口所占比重呈下降趋势,2005年后该群体比重有所上升;有配偶人口所占比重呈稳定上升状态,比重均在70%左右;丧偶人群比重稍有降低,而离婚人口比重呈明显的上升趋势[206]。

具体地,未婚人口比重呈下降趋势。第三次全国人口普查数据中,中国15岁及以上人口中未婚人口为1.9亿,占15岁及以上人口的28.57%,近90%是25岁以下青年,30岁以上的大龄青年和40岁以上的中年未婚者所占比重很小,50岁以上的终身不婚者为1.86%,女性只有0.25%[207]。1990年未婚人群比例有所降低,男性15岁及以上人口中未婚比重为23.61%,与女性相比高出7.27个百分点[208]。大龄未婚人口总规模较大,但相应未婚人口在各队列中所占比重很低;男性大龄未婚的风险明显高于女性,且各地区及城乡间相应比率也存在明显差异[209]。

从历次人口普查、人口抽样调查来看,15岁及以上人口中有配偶人口所占比例相对较为稳定,均保持在70%左右。1982年第三次全国人口普查中中国女性的婚配率比男性高,完婚速度比男性快。20岁的女性中约27.4%有配偶,同龄男性的有偶率为6.54%;22岁的女性中一半以上的人有了配偶,同龄男性的有偶率为23.67%;25岁的女性有偶率已达到87.62%,同龄男性为61.13%;到30岁左右女性的婚姻活动已基本结束,此时有偶率达到98.00%,而同龄男性的婚配活动一直到35岁以后,有偶率最高达到90.83%,可以看出全国第三次人口普查时期中国女性的婚配率比男性高近8%,完婚年龄比男性提前5岁左右[210]。2000年后,有配偶比重保持在70%以上。在广东省这一人口流入大省,流动人口的婚姻状况发生了重要变化,未婚人口所占比例不断下降,其中女性尤为明显;近年来,男性未婚比例开始超过女性,但已婚有偶和离婚的比例则开始低于女性,流动人口的婚姻状况开始与本地人口趋同[211]。

就丧偶、离异人口而言,1982年全国第三次人口普查共有约4.8亿已婚人口,其中有偶人口占89.15%,丧偶人口占10.02%,离婚占0.83%,有偶率高,丧偶率低,离婚人口比重低[212]。1995年全国1%人口抽样调查中,中国15岁及以上人口中离婚及丧偶人口所占比重分别为0.71%和6.07%,相比1990年离异人口比重上升,丧偶人口比重略有降低[213]。根据2010年第六次全国人口普查数据,全国丧偶老年人口4774万人,占老年人口的26.89%。老年女性丧偶的概率明显大于男性,随着老年人口年龄的增加,丧偶率的差距也明显扩大,丧偶率的差别从10%以内提高到35%以上。近20年来中国老年人有偶比例明显提高,丧偶率下降,未婚和离婚比例有所上升。其中,女性老年人有偶比例随年龄下降幅度大于男性,农村男性老人未婚和城镇老人离婚的趋势均明显上升[214]。2015年中国老年人口的婚姻总体表现出有偶率高且丧偶率、离婚率和未婚率低的特点;与2010年相比老年人的丧偶率降低而有偶率提高,女性老年人与男性老年人的有偶率差距在缩小,但离婚老年人的比例不断增长;城市地区、经济较发达地区离婚老年人比例较高,农村、欠发达地区老年人的未婚问题相对突出;2010—2015年女性老年人有配偶比例降低的幅度、丧偶比例提高的幅度都大大高于同年龄组的男性老年人;2015年中国老年空巢家庭的比例进一步提高到34.62%,家庭中有多个老年人的现象也略有增多[215]。空巢老人家庭随着老年人年龄的增大而趋于下降,男性占比高于女性[216]。据预测,2010—2050年中国丧偶老年人口的总量将继续快速增长,到2050年达到11840万,是2010年的2.5倍;2010—2050年女性丧偶老年人口始终占到丧偶老人的80%以上,突显了未来中国女性老年人口问题的严重性[217]。

总体来看,新中国成立以来,中国15岁及以上人口中有配偶者占主体地位,未婚人群比例有所增大,离异人口比例上升,婚姻稳定性降低。

2.结婚率与离婚率

婚姻状况按照个体是否结婚可以划分为未婚和已婚两大类,其中已婚又分为初婚和再婚两类。结婚意味着建立了家庭,进而生育子女。在一定时期内,结婚的人越多,生育量越大。结婚率是一定时期内的结婚人数和同时期的年平均人口数(或年中人数)之比,通常用千分比表示。

新中国成立前,受传统儒家文化的影响,育龄妇女普遍结婚,且主要为早婚。新中国成立后,1950年《中华人民共和国婚姻法》(以下简称《婚姻法》)颁布,废除了包办、强迫、买卖、童养、重婚、纳妾等封建婚姻制度,15—19岁组育龄妇女的初婚率不断下降;20世纪70年代开始计划生育政策的实施使得初婚年龄进一步提高,15—19岁育龄妇女的初婚率进一步下降[218]。国家统计局公布的数据显示,1978—1982年中国内地居民粗结婚率总体上呈上升趋势,但不同时期又有明显波动,具体地:1978—1982年粗结婚率逐年上升,1982年达到峰值,约为10.4‰,这可能源于20世纪80年代初期新修订《婚姻法》的颁布使得之前数个可婚队列进入结婚者行列,使中国出现了一次结婚潮;1984—2000年各年份粗结婚率均在8‰左右,2001—2005年粗结婚率为6‰—7‰;2006年开始粗结婚率显著增高,2013年约为10‰;2014年开始又有所降低[219]。

从粗离婚率看,1978—2015年虽然粗离婚率数值在3‰以下,但总体上呈上升趋势,2016年年底已达到3‰[220]。在一定程度上表明,中国内地人口中离婚事件越来越多。对此也需要关注因离婚而产生的社会、家庭等问题。

近年来学者也就离婚人口的特征以及离婚率变化趋势进行了分析。在中国西南地区,1990—2010年离婚率除少数县域上升外,总体呈下降趋势,但离婚性别比总体偏高,且呈上升趋势;受此影响,离婚男性存在较为严重的婚姻挤压[221]。2005年和2010年北京市离婚登记数据表明,人口年龄、性别结构和年龄别离婚率变动对粗离婚率攀升均有贡献,2010年北京市粗离婚率较2005年上升了0.23个千分点,其中,人口年龄结构变动对粗离婚率上升的贡献率为31%,年龄别离婚率变动的贡献率为69%[222]。2005年全国1%人口抽样调查数据和2010—2014年家庭追踪调查数据分析表明,性别认同会导致结婚率下降和初婚年龄推迟;背离性别认同的家庭离婚概率随妻子相对收入上升而显著增加[223]。

总体上,自改革开放以来,粗结婚率在20世纪80年代至2005年均处于7%左右,但存在波动;2006年后有所上升,近5年来有所降低;中国粗离婚率呈逐年上升趋势。

3.初婚年龄

结婚是生育的前提,研究初婚年龄,特别是妇女的初婚年龄的变化对于生育的影响具有重大意义。

新中国成立初期至改革开放后的1987年,女性初婚年龄整体呈先上升后下降的趋势,其间具有一定的波动[224]。具体地,1949—1970年城市女性初婚年龄快速上升,从1949年的约19岁上升至1970年的约22.5岁;农村女性的初婚年龄从1949年的不足18.5岁逐渐上升到1970年的20岁;平均初婚年龄的变动在1950—1970的20年,基本每10年提升0.74—0.95岁;1970—1979年城市与农村女性、农业户与非农业户女性、汉族与少数民族女性的初婚年龄均稳步提高,且均在1979年达到初婚年龄的最高值。同时,城市女性平均初婚年龄高于农村女性,非农业户女性初婚年龄高于农业户女性,汉族女性高于少数民族女性。且随着时间的推移,城市女性与农村女性、非农业户女性与农业户女性的初婚年龄差增大,汉族女性与少数民族女性的初婚年龄差先增大后又减小[225]。1980—1985年女性初婚年龄总体上呈下降趋势,但城市女性的平均初婚年龄仍高于农村,且平均初婚年龄差在2岁左右;非农业户显著高于农业户,平均初婚年龄差在3岁左右;汉族女性平均初婚年龄高于少数民族,但二者之间的平均初婚年龄差有所缩小。1986年后女性平均初婚年龄又趋向增大,城市与农村、非农业户与农业户、汉族与少数民族女性平均初婚年龄差相对较为稳定[226]。

进入20世纪90年代后,中国女性人口的平均初婚年龄总体呈上升趋势。1990年、1991年女性初婚年龄尚低于22.5岁;1992年后持续上升,至2001年已提高至24岁。

近年来,城镇人口初婚晚于农村人口,东部地区的居民初婚晚于中西部地区居民,男性晚于女性;父母受教育程度较高者、流动者的初婚时间也平均较晚[227];四川省1%人口抽样调查数据表明,四川省晚婚趋势更为明显[228]。女性初婚年龄的这种变化除受社会经济发展的影响外,主要受中国婚姻法律制度的约束。1950年《婚姻法》规定男性结婚年龄不能低于20岁,女性结婚年龄不能低于18岁;1980年《婚姻法》规定,男性结婚年龄不得早于22岁,女性不得早于20岁,晚婚晚育应予鼓励,一直沿用至今。在一定程度上,1970年以前女性初婚年龄的上升出于自愿,而在20世纪80年代后初婚年龄的提高受《婚姻法》的影响更为突出。

4.婚姻模式

婚姻模式是婚姻研究的重要议题。婚姻模式的变迁不仅直接影响个体及家庭生活状态,而且对人口构成和人口增长具有重要影响。学者们对婚姻模式的研究主要集中于婚姻匹配和通婚圈两个方面。

从夫妇婚姻匹配看,1970—1990年的夫妇平均初婚年龄差为1.7—2.7岁[229],夫妇年龄差在夫小于妻1岁到夫大于妻4岁之间最为集中[230]。陕西农村“夫大妻小”仍是主流婚配模式,平均夫妻年龄差逐渐接近2岁;通婚圈呈扩大趋势,西部农村的初婚模式虽大多保留传统特征,但随着时代的变迁也呈现出新的变化[231]。四川省晚婚趋势更为明显,婚姻稳定性下降;婚姻同质性趋势明显,婚姻双方教育同类匹配程度高、教育梯度匹配性强[232]。

另外,独生子女、少数民族人口、边境地区人口的婚姻模式也发生了重大变化。2010年中国家庭追踪调查数据表明,夫妇双方是否为独生子女的关联性很强,前期人口预测可能低估了“双独”夫妇,而高估了“单独”夫妇的规模和比例[233]。从新生代流动人口的通婚圈特征看,年轻一代流动人口的地理通婚圈主要在省内和县市范围内,这比以往以乡内为主的通婚圈出现了明显的拓展。人口迁移流动现象不仅拓展了通婚圈,而且延缓了初婚时间、扩大了夫妇年龄差,这些现象均导致异质性婚配现象的上升[234]。近年来,少数民族人口的族际通婚现象呈递增趋势,但族际通婚的民族相对集中,且有收敛趋势[235]。在云南省边境一线地区,2000年后跨境婚姻问题突出,重点边境乡镇跨境婚姻人数年增加幅度超过10%,最高的甚至达年均30%以上[236]。

总体上,中国夫妇一致延续着男大女小的年龄匹配模式,且夫妇年龄差呈扩大趋势;人口的迁移流动使得通婚圈扩大,婚姻的同质性趋势明显。



(二)人口婚姻状态模型研究


婚姻结合是一个因素诸多的复杂过程,学者们采用不同的数学模型,对一定时间内人口的未婚、已婚状态,以及家庭稳定性等进行预测与分析。

曾毅应用多增—减生命表,利用模型或间接估计的方法估算年离别离婚率与再婚率,构造了中国妇女1950—1970年与1981年婚姻状态生命表,发现99.5%以上的妇女在35岁以前已经结婚;婚龄的提高与死亡率的降低影响了不同年龄婚姻状态的分布[237]。1988年,曾毅又利用家庭状态生命表模型,分析了中国人口的婚姻、生育、死亡等要素的巨大变动对妇女家庭状态的影响,给出了1950—1970年与1981年水平下,妇女处于“上有老”“下有小”的“超负荷”状态的年数[238]。

同一时期,屈锡华从未婚分布入手,构造未婚比曲线,考虑未婚及婚恋不确定性,建立未婚与初婚年龄分布的Fuzzy数学模型,并以全国1982年1‰人口生育抽样调查资料34—35岁组的未婚年龄分布为拟合对象,确定拟合曲线,并给出全国1982年1‰人口生育率抽样调查育龄妇女婚姻年龄参数估计及未婚年龄分布[239]。

蒋耒文等应用曾毅“家庭状态生命表模型”,分析湖南省妇女的婚姻、家庭状态,发现1988年湖南省不同年龄别妇女中早婚现象严重,终身不婚率低,总和离婚率低,家庭稳定性高[240]。

韦艳等利用“三普”至“六普”数据资料,采用净婚姻表的分析方法构建了1981—2010年男性和女性初婚表,通过初婚概率、未婚人口比例、终身结婚期待率和预期未婚寿命等关键指标,系统地分析和探讨中国初婚模式的变动及性别差异。研究结果表明,虽然初婚概率下降和峰值年龄有所推迟,男女未婚比例均保持较低水平,中国仍然属于普婚型社会;中国初婚模式的变动存在显著的性别差异,男性未婚水平较高的情况一直存在,而女性近年来初婚水平下降非常明显,初婚模式的性别差异正在逐渐缩小;中国初婚模式正处在转型中,其变迁与西方模式和亚洲模式既有相同之处,也存在差异[241]。

以上可看出,新中国成立以来中国人口的婚姻状况发生了巨大变化,虽然一些学者开发了婚姻状态模型,为家庭婚姻状态的预测提供了方法与工具,但婚姻状态预测模型的发展与应用研究相对较少。适应于婚姻家庭的变迁,这方面研究还有待于加强。



(三)婚姻挤压的分析与预测


婚姻挤压是婚姻匹配不平衡的直接结果。受长期重男轻女观念及其在生育行为中的男孩偏好影响,中国人口的性别失衡,其直接导致中国未来出现婚姻挤压现象。婚姻挤压是婚姻市场性别失衡的一种表现,如果婚姻市场中可供选择的男性和可供选择的女性之间比例失调会导致部分男性或者部分女性不能按照传统的偏好选择配偶,这一现象即为婚姻挤压。中国强烈的男孩偏好和女性低下的社会地位导致了对女孩的歧视,在人口学上表现为偏高的女孩死亡水平和出生性别比,从而使婚姻市场上男性过剩,产生了男性的婚姻挤压[242]。

现有研究对婚姻挤压规模的估算主要采用以下三种测度方法:一是同龄性别比法,假设男性或女性只与同龄的异性婚配,夫妇年龄差为0,同龄男性和女性之间的数量差异被视为婚姻市场过剩人口;二是相对性别比法,假定男性与年龄差相差几岁的女性结婚,两者数量上的差异被视为婚姻市场过剩人口;三是婚配性别比法,按照一定的婚配模式所确定的年龄差为标准,将某年龄组的男性与期望可结婚的女性进行匹配,其人数之间的差值即为婚姻市场过剩人口。出生性别比、死亡率性别差异、人口迁移、夫妇年龄差偏好、年龄结构变动、再婚、历史婚姻拥挤的传递和个人性格相貌与社会经济条件等均会对婚姻挤压产生影响[243]。

不同学者利用相应的婚姻挤压预测方法得出了不同的结论,但总体上,不同时期中国的婚姻挤压程度不同,婚姻挤压主要表现为男性婚姻挤压,且农村男性婚姻挤压更为突出。

1.不同时期中国婚姻挤压的程度不同

郭志刚和邓国胜利用婚配性别比方法,分析发现中国在20世纪60年代第一次出现了婚姻挤压;1995年22—25岁男性婚姻拥挤程度较1990年明显上升,32—36岁男性婚姻拥挤程度较1990年明显下降,甚至由过剩转为短缺;相反,1990—1995年29—33岁女性由短缺转为严重过剩[244]。陈友华预测发现,中国男性过剩人数在未来一段时间内将持续增加,20—49岁男性过剩人口2015年超过2000万,2025年将超过3000万,2035年将超过4000万,在2040年左右达到4400万人[245]。陈胜利等应用同龄比法测算婚姻挤压规模,结果显示,在2040年前后,中国婚龄人口中的男性比女性将多出2000万人左右[246]。李树茁等使用“五普”数据和所预测的2001—2050年人口数据,结合初婚和再婚市场设计了度量婚姻挤压的指标,测度了2001—2050年中国的婚姻挤压程度,考察了男孩偏好和再婚因素对中国未来婚姻挤压的影响。结果表明未来中国婚姻市场每年有10%—15%男性过剩人口,达到120万人。男孩偏好导致的高出生性别比显著影响未来婚姻市场,而再婚人口对婚姻市场上过剩人口也有显著影响[247]。

孙炜红和谭远发基于“六普”数据,利用队列要素法和婚配性别比法,测算中国初婚市场的婚姻挤压度及变化趋势,研究发现,1989—2030年中国婚姻挤压突升突降,表现出不同程度的轻度男性与女性婚姻挤压;2011—2030年中国婚姻挤压度随着时间推移逐年增大,到2030年为中度男性婚姻挤压,这期间会导致少数男性处于终身不婚的状态。特别地,1970—2014年中国台湾地区的婚配性别比逐年增大,同时,理论男婴富余比呈小幅度上升的走势,表明未来台湾地区的男性婚姻挤压也呈上升趋势,1987—2013年台湾地区的理论男婴富余比小于大陆值,但婚配性别比值高于大陆值[248]。

2.不同时期婚姻挤压的影响因素不同

中国强烈的男孩偏好和女性低下的社会地位导致了对女孩的歧视,在人口学上表现为偏高的女孩死亡水平和出生性别比,从而使得婚姻市场上男性过剩,产生了男性的婚姻挤压[249]。特别是2000年以来的高出生性别比的影响,未来40年会产生严重的男性婚姻挤压现象,且农村的男性婚姻挤压程度大于城市。婚姻挤压问题产生的最主要原因是出生性别比偏高,而出生性别比偏高又与计划生育政策的实施密不可分。有学者指出,2020年以后,中国婚配年龄人口差异程度开始持续增大,而造成这一问题的原因正是计划生育政策实施后出生的人口开始进入婚姻市场,而计划生育政策实施前出生的人口开始离开婚姻市场[250]。刘爽和蔡圣晗认为,导致大龄未婚问题的主要原因在于两性社会经济特征的结构性失衡,而非队列性别比失衡[251]。

研究发现,不同时期婚姻挤压的形成原因又有所不同。姜全保等构建了婚配性别比及其年龄结构和性别结构的分解方法,并根据“六普”数据及预测数据,研究了中国2010—2050年婚姻挤压中年龄结构因素和性别结构因素的影响,发现2010—2050年婚姻挤压以年龄结构因素为主导,2020—2034年性别结构因素的作用增强,而2034—2045年龄结构因素减弱,男性过剩主要是性别结构因素作用的结果,年龄结构因素不起作用或者起到减缓男性过剩的作用[252]。于潇等基于“六普”数据及其预测数据,利用未婚人口婚配性别比指标和未婚男性过剩比的分解模型,发现2010—2050年中国大龄未婚男性婚姻挤压非常严重,未婚人口性别结构因素增加了大龄未婚男性婚姻挤压的强度,而未婚人口年龄结构因素减缓了大龄未婚男性婚姻挤压;2010—2050年中国大龄未婚男性婚姻挤压呈波动趋势,其中2010—2021年中国未婚男性过剩比呈减弱趋势,主要原因是未婚人口性别结构因素在减弱,2022—2033年中国未婚男性过剩比呈增加趋势,主要原因是未婚人口年龄结构因素的负作用在逐渐减弱,2034—2050年中国未婚男性过剩比呈减弱趋势,主要是未婚人口性别结构因素的影响减弱与未婚人口年龄结构因素的负作用增强共同造成的;中国未婚男性婚姻挤压随着年龄的上升而加剧,尤其是农村大龄未婚男性婚姻挤压最严重[253]。

姜全保和李树茁从婚姻挤压的本源,即中国人口性别失衡问题出发,分析了中国历次人口普查、生育节育调查等显示的出生性别比的变化趋势、1980—2010年失踪女性,以及由此产生的男性过剩人口状况,提供了两种可以用来度量婚姻挤压的模型,通过预测指出,从2016—2046年,过剩男性人口为120万—150万,在2027年达到峰值,为143万—185万;在2060年平稳之后,年过剩男性人口在50万人上下[254]。

婚姻匹配是个体主观偏好和客观婚姻市场共同作用的结果,婚姻挤压本质上是人口性别年龄结构问题,宏观的性别和年龄结构是影响婚姻挤压的前置因素,个体的家庭与社会文化背景、经济基础、工作情况等社会资本才是影响婚姻挤压的根本原因[255]。但择偶不仅受经济因素的影响,还受到伦理道德、心理、宗教、种族等多种因素的影响[256],现实中夫妇婚龄差、通婚圈的逐渐扩大以及“单独二孩”政策的实施会在一定程度上减缓未来婚姻市场的潜在择偶压力[257],有关婚姻挤压的研究也需要考虑诸多社会、经济因素。



(四)计划生育统计


计划生育政策的实施也在一定程度上促进了人口统计指标的发展与统计实践。已婚育龄人群是计划生育政策的重点影响人群,三十余年独生子女政策的实施形成了众多独生子女,为此,此处仅从已婚育龄妇女人数和独生子女领证情况对有关计划生育统计研究加以阐述。

1.已婚育龄妇女人数

结婚年龄和已婚妇女比例是生育率水平最基本的决定因素。统计数据表明,1996年至2012年,中国已婚育龄妇女人数呈上升趋势,从1996年的约2.4亿上升到2012年的约2.78亿;2013年开始,中国已婚育龄人口数减少,至2017年年底降至约2.67亿人[258]。

另外,“单独”已婚育龄妇女作为一个特殊群体,她们的数量与变化趋势也得到了学者的关注。王广州通过建立随机微观人口仿真模型对“单独”育龄妇女的总量、结构和变动趋势进行了预测,结果表明,如果现行生育政策不变,“单独”育龄妇女总量在未来三四十年内持续增长的趋势不可逆转,且增长速度很快,年均增长速度在10‰以上,2050年“单独”育龄妇女占育龄妇女的比例将达到50%以上,总量超过1.2亿;如果放开“单独”二孩政策,2050年“单独”育龄妇女占育龄妇女的比例将在50%以下,总量仍超过1亿;如果全面放开二孩政策,2050年“单独”育龄妇女占育龄妇女的比例将在30%以上,总量在1亿以内[259]。

2.领取独生子女光荣证人数

中国从1980年开始在城乡实行严格的独生子女政策,独生子女领证率反映的是在生育一个孩子后不再生育第二个孩子的育龄妇女的比例。即已生育一孩且不再生育第二个孩子的领取独生子女证的育龄妇女占当年已婚育龄妇女总数(孩子年龄在14岁以内)的比重。在实行独生子女政策时期,独生子女领证率指标是考核独生子女政策实施效果的主要指标,也在一定程度上反映了新增独生子女的数量与变化趋势。

1996—2015年各年末独生子女领证率均在21%以上[260],不同年份有所波动:在2009年年底独生子女领证率最高,2010年后独生子女领证率持续下降。这可能源于中国20世纪70年代开始实行“晚稀少”的计划生育政策1975—1980年已有部分家庭只生育一孩。2010年后成年的独生子女逐步结婚、生育,2013年年底全国开始推行“单独二孩”政策,独生子女领证率逐年下降。2016年“全面二孩”政策实施后,独生子女领证率不再统计。计划生育政策调整后虽然独生子女不再是人口统计关注的重点,但无子女、少子女家庭还将长期存在,这些信息仍需借助适当的指标加以统计。



五 出生性别比估计


出生性别比是度量人口性别结构的一个重要指标,指一个时期内活产男婴和女婴的数量之比,通常用每100名活产女婴所对应的活产男婴的数量表示。根据国际上的统计,正常的出生性别比应为105—107[261]。

依据中国1960—2016年总人口出生性别比数据[262],1953年和1964年的0岁性别比分别为104.88和103.83。它们虽然不是严格意义上的出生性别比,但能间接表明中国20世纪五六十年代的出生性别比是正常的[263]。根据国家计划生育委员会1988年中国2‰人口生育节育抽样调查原始数据汇总结果,20世纪70年代出生性别比为106.05,在正常范围内。1970—1980年总人口出生性别比基本在正常范围内。自20世纪80年代以来,伴随计划生育政策的严格执行,中国出生性别比持续偏高:1982年第三次全国人口普查的出生婴儿性别比为108.5,偏高初露端倪,1987年全国1%人口抽样调查为110.9,1989年为111.3[264]。90年代继续攀升,1990年第四次全国人口普查时上升到111.3,1995年全国1%人口抽样调查为115.6,而2000年第五次全国人口普查则已达到119.92,超出国际公认正常范围约10个百分点。2000—2010年均在120左右波动;2010年后总人口出生性别比有所降低。有学者指出,随着性别鉴定技术的普及,以及生育政策对于生育数量的限制,人们通过技术手段流产女婴来满足男孩偏好[265]。由于对生育第一孩的性别比的直接干预,才促使了出生性别比持续升高和高孩次生育性别比及高孩次生育率的下降[266]。

出生性别比的估计有两种方法,即点估计和区间估计。人口出生性别比的估计一方面能揭示人口出生性别比变化的趋势与差异,同时,也可为治理人口出生性别偏高、相应人口政策的调整提供决策基础。



(一)出生性别比估计方法


人口出生性别比作为一个相对指标,需要较大的出生样本。马瀛通等以中国1988年2‰人口抽样调查为主要数据,分析了中国人口出生性别比变化的规律和特点,认为人口出生性别比是条件随机事件,这为突破传统分析人口出生性别比的简单方法,深入探索中国人口出生性别比升高问题,深刻认识人口出生性别比的变化规律和监测人口出生性别比的动态变化过程奠定了基础[267]。总体上,出生性别比的估计主要存在点估计和区间估计两种方法。

1.点估计

点估计即在一定样本群体内,用活产男婴数与活产女婴数直接估计或计算出生性别比。乔晓春指出,点估计中如忽略样本量、方差和置信区间等有可能得出错误的结论,提出计算特定区域某一年的人口出生性别比的出生孩子数应该在3000人以上,人口总体应在30万人以上[268]。

2.区间估计

区间估计是依据一定数量样本的出生性别比,借助于统计推断,确定出生性别比的置信区间。不同学者采用的估计方法不同,出生性别比的置信区间的估计值也会存在差异。如马瀛通将比例的置信区间转化成出生性别比的区间[269],乔晓春及曾毅等使用一阶泰勒展开式估计出生性别比的近似标准差和置信区间[270]。为了对人口出生性别比结构进行深入分析和数学描述,杨书章和王广州从妇女生育行为出发,构建人口出生性别比结构的状态空间,对搞清人口出生性别比的基本结构、变化规律提供帮助[271]。王广州采用国内外人口普查和抽样调查原始数据,从人口学和统计学两个方面研究了人口出生性别比变动的监测方法,证实在小样本条件下贝叶斯估计可以达到较好的统计监测目的[272]。姜全保和李树茁采用二项分布、卡方检验、一阶泰勒展开式、二阶泰勒展开式、Logistic回归、贝叶斯推断6种方法,估计和分析中国人口出生性别比的置信区间及其适用性,发现各种方法估计出得出生性别比区间存在较大的差异,不同方法可能得到相反的结论[273]。另外,陶涛和杨凡利用怀孕性别比、流引产性别比和出生性别比之间存在的内在逻辑关系建立三者的数量关系,从而能够利用病例性质而非统计报表性质的流引产性别比来间接估计出生性别比水平,将流引产情况与出生性别比升高现象建立起数学上的统计联系,通过监测流引产情况来实现对出生性别比较为准确的间接监测[274]。



(二)中国出生性别比水平估计


出生性别比升高是中国人口年龄性别结构转变的主要特征之一,学者们利用不同数据和方法对中国自20世纪80年代以来的出生性别比水平进行了估计。陈卫和翟振武通过教育数据调整的普查低年龄组性别比发现,中国实际的低年龄组性别比要比普查反映的水平低5—9个百分点,2000年普查的出生性别比高达117,但估计出的数值约在110,实际的出生性别比显然要低得多[275]。王军等使用人口普查、户籍登记和住院分娩三种数据,对中国出生性别比的估计和近年变化形势的预测研究表明,2010年中国出生性别比水平在118左右,2010年以来中国出生性别比存在下降的可能,生育政策逐步放开后中国出生性别比将呈下降趋势,中国出生性别比恢复正常至少需要15年左右[276]。

特别地,有学者指出,在使用区间估计法估计出生性别比时,如果观测值落在正常的出生性别比置信区间内,则不能判断该出生性别比异常[277];比较出生性别比观测值的置信区间和正常出生性别比(如106或107),如出生性别比落在置信区间内,则不能判断该出生性别比异常[278]。姜全保和李树茁对中国城镇出生性别比的估计发现,样本量较大时正常置信区间长度较小,1982年、1990年、1995年、2000年、2005年、2010年和2015年中国城镇出生性别比均偏离正常水平;尽管如此,样本量较小时,1991年、1997年、2002年和2004年的城镇出生性别比仍高于置信区间的上限,相应年份出生性别比偏离正常值;一些年份,如1994年的城镇出生性别比落在置信区间内,但因为样本数量小,置信区间长,难以判断出生性别比是否处于正常范围[279]。

2016年中国开始实行“全面二孩”政策,生育政策的调整在影响人们生育行为的同时,也会使中国出生性别比呈现新的态势。这些还需要借助第七次全国人口普查数据、生育调查数据,以及教育统计、出生人口等级数据等继续加以分析、估计和监测。



六 人口迁移流动研究


迁移流动是改变中国人口分布格局的重要力量。改革开放以来,人口迁移流动成为人们熟悉的社会现象。中国流动人口从1982年的700万增长到2017年的2.44亿。中国人口迁移流动政策经历了从自由迁徙阶段(1949—1957年)、严格控制阶段(1958—1983年)、逐步开放阶段(1984—2002年)、公平理念的提出及贯彻阶段(2003—2012年),直至党的十八大以来全面推进市民化阶段五个阶段。党的十九大以来,中国人口发展的历史进程也从以出生、死亡以及由其决定的自然变动主导的阶段转变为向以人口迁移流动为主导的阶段。

作为经济和社会双重转型条件下的重大现实问题,大规模的乡城人口迁移流动与快速城市化,对社会经济的发展产生了深远的影响,中国人口迁移流动研究也取得了引人注目的进展,在此主要从迁移流动调查、迁移流动态势和迁移流动模型三个方面加以具体分析。



(一)20世纪80年代至今人口迁移流动的主要调查


人口迁移流动调查是把握迁移流动态势的重要依据。20世纪80年代以来,随着中国流动人口的急剧增长,国家相关部门开始重视人口普查、人口抽样调查和人口监测调查中有关迁移流动状况的调查,一些研究机构也开展了有关流动人口调查。

1.1982年第三次全国人口普查

本次调查中流动人口指户口登记状况(调查项目六)为“常住本地一年以上,户口在外地”,以及“人住本地不满一年,离开户口登记地一年以上”两类人。

2.1986年74城镇人口迁移抽样调查

本次调查由中国社会科学院人口与劳动经济研究所主持进行,是中国历史上第一次专门针对人口迁移的全国性调查,共对全国15个特大城市、6个大城市、12个中等城市、10个小城市和31个镇的23895个家庭户和1643个集体户的100267人进行调查[280]。这次调查比较全面地收集了这些城镇新中国成立以来的迁移人口总量、迁移率、性别、年龄、受教育水平、婚姻状况特征,以及人口迁移与生育、人口迁移与就业、人口迁移与城市化的关系等方面的信息,为分析新中国成立以来中国城镇人口的迁移变动提供了宝贵的数据资料。

3.1987年全国1%人口抽样调查

本次调查中,设置了以下人口迁移项目:“在本地居住时间”(指迁入本地不满5年的居住时间)、“最后一次从何地迁来”(本地)和“迁移原因”。这次调查是中国统计部门首次在全国性人口调查中收集有关人口迁移的信息。这些信息对分析20世纪80年代前期中国的人口迁移状况具有重要价值。

4.1988年全国生育节育抽样调查

本次调查由国家计划生育委员会组织进行,调查覆盖全国30个省(直辖市、自治区)(不含台湾省),调查总规模为2152044人[281]。该调查收集了被调查者的“出生地”,迁移人口“来本样本点(调查登记地)的原因”“最后一次来本样本点的年月”,跨省迁移人口的“最后一次省际移动的原因”“最后一次省际移动的年月”“移出地”等,提供了非常丰富的人口迁移信息。

5.1990年第四次全国人口普查

本次普查收集了5岁及以上被调查者“1985年7月1日常住地状况”和迁移人口的“迁来本地的原因”[282],主要从流入地角度收集了流动人口信息。

6.1995年全国1%人口抽样调查

本次调查中,设置了以下人口迁移项目:“何时来本县、市、区居住”“从何地来本县、市、区居住”和“1990年10月1日常住地”。但1987年全国1%人口抽样调查和1990年第四次全国人口普查中使用的“迁移原因”项目被取消了。利用这次调查的数据,可以分析20世纪90年代前期中国的人口迁移和流动状况[283]。

7.2000年第五次全国人口普查

2000年第五次全国人口普查中在以户为单位的信息中,收集了“本户户籍人口中外出不满半年人数”“本户户籍人口中外出半年以上人数”和“暂住本乡镇街道但离开户口登记地不满半年人数”等信息[284]。本次人口普查以半年为基准,调查了流入和流出人口信息。

8.2005年全国1%人口抽样调查

根据2005年全国1%抽样调查项目,流动人口是指“调查时点居住地”在本调查小区,但“户口登记地情况”为本乡(镇、街道)以外的人口,同时剔除了市内人户分离人口。本次调查进一步明确了流动人口的概念,更确切地统计了流动人口的数量。

9.2010年第六次全国人口普查

第六次全国人口普查设置了“普查时点居住地”和“户口登记地”问项,并对“离开户口登记地时间”为半年以下、半年至1年、1—2年、2—3年、3—4年、4—5年、5—6年、6年以上的人口进行统计。同时,登记了离开户口登记地的原因[285]。本次调查从居住地和户口登记地两个角度对流动人口信息进行了统计,为确定流入人口和流出人口的分布与数量提供了数据基础。

10.2015年全国1%人口抽样调查

2015年全国1%人口抽样调查设置了“调查时点居住地址”“在本市居住时间”和“离开户口登记地的时间”,同时询问了离开登记地的原因。为确定辖区内和辖区内人户分离人口状况提供了数据基础。

11.全国流动人口卫生计生动态监测调查

国家卫生与健康委员会实施的流动人口动态监测调查始于2009年,至今已连续进行了10次调查。调查主要涉及流动人口生存发展状况、迁移特征、就业收入、居住情况、社会融合、心理健康、基本公共服务、基本社会保险、健康状况等内容。该调查为掌握中国流动人口数量、分布及流动迁移等情况提供了丰富的数据信息。

12.农民工监测调查

为全面、及时、准确地反映农民工数量、流向、结构、就业、收支、居住、社会保障等情况,根据国务院颁发的《国务院关于解决农民工问题的若干意见》(国发〔2006〕5号)为指导,国家统计局于2008年年底建立了农民工统计监测调查制度。目前,已初步建立起以一体化住户调查为基础,以农村劳动力从业统计为核心,以举家外出调查为补充的调查体系,并辅之以必要的专项调查。

13.第三期妇女地位调查

本调查由全国妇联组织实施,调查问卷中专门设置了“受流动影响人员附卷”,涉及妇女的外出经历、外出的工作与收入、同行亲属情况等,为分析妇女流动经历及其家庭地位等提供了数据基础。

另外,除全国性迁移流动调查外,一些省区、研究机构也基于区域发展的需要与研究需要进行了区域性的流动人口调查,在此不再赘述。

总体上,以上人口迁移流动调查涉及流动人口个体的基本状况、工作与收入、家庭状况、流动原因等,为审视中国人口迁移流动态势、相关政策制度的制定与调整提供了丰富的数据资料。



(二)人口迁移流动态势


中国的人口迁移流动大致经历了从新中国成立至改革开放前(1949—1960年)的持续增长阶段、稳定减少阶段(1961—1978年)和加速增长阶段[286](改革开放后40年的快速增长)3个主要阶段。

1.持续增长阶段(1949—1960年)

1949年至1952年年底是中国整个国民经济的恢复期,为彻底完成民主革命任务,尽快恢复和发展工农业生产,为经济建设做好准备,政府实行了自由迁徙的政策,农民进城或沿传统路线“闯关东”“走西口”。但这一时期国家正在进行一系列的整顿和改革,人口迁移量并不大[287]。

1953—1960年是新中国成立以来人口迁移的猛增时期,制定了国民经济发展第一个五年计划,拉开了全国大规模经济建设的帷幕,国家有计划地改变中国的工业格局,把沿海大批科研机构、工业密集工厂内迁到西北、西南边疆省区,大批新建企业也设置在安全区域。大批农民被征调进入城镇、矿山当工人,大批职工家属也随迁。1952年全国全民所有制工业部门职工为510万,至1958年增至2316万,新增职工绝大部分来自农村[288]。为了支援边疆建设,山东、河北等人口稠密地区的农民集体移民边疆开荒垦殖,国家还组织了大量的知识青年支边。据统计,1954年迁出迁入量各为2200万,到1960年达3300万,迁移人口6年猛增2200万,成了规模空前的从沿海向内地和边疆的迁移流[289]。从1958年起人口迁移的数量大幅度上升,与1957年相比,1958年的迁移人口总量增加了17.3%。到1960年人口迁移总量达到6515万人,如果只考虑户籍迁移人口而不考虑无户籍迁移人口,1960年的人口迁移数量是新中国成立以来的最高纪录[290]。

在这一阶段,中国人口流动主要从沿海流向内地和边疆,从农村流向城镇。另外,考虑工业发展的布局,这一阶段的流动大多由政府主管部门有计划有组织地进行,人口迁移流动也为国防安全、工业发展和边疆建设做出了巨大贡献。

2.稳定减少阶段(1961—1978年)

1959—1961年困难时期以及自20世纪60年代起中苏关系紧张,大量因备战而搬迁的工厂无法运转,使得此期间的人口迁移规模减小。资料显示,1962年中国人口迁移总量是4436万人,1963年已下降至2695万人。“文化大革命”期间,以学生录取分配和生产经营活动为主要原因的正常迁移人口减少,1700万上山下乡的知青和1000万下放干部成为迁移人口的主体。1967—1969年迁移人口降为500万—600万人,是新中国成立以来的最低点。1970年前后,大批知青上山下乡和干部下放劳动使迁移量有所回升。总之,20世纪60年代除两年有少量净迁入外,其他各年多为少量的净迁出,只有1961年和1962年两年有超过10万人的净迁出;20世纪70年代的人口迁移统计数字逐年上下波动,每年均为净迁入,最低的年份总量只有27人,最高时达164万人;且主要从城市流向农村,受自然灾害等影响,人口迁移流动也呈无规律状态[291]。

3.加速增长阶段(1979年至今)

(1)改革开放后流动人口普遍化,流动人口规模呈扩大趋势

1982年第三次全国人口普查数据显示,中国迁移流动人口总数约为657万人;1987年上升至1810万人,1990年第四次全国人口普查时期突破2000万人,随后迁移流动人口规模逐年扩大;1995年全国1%人口抽样调查时约为7073万人,2000年第五次全国人口普查时已达到10229万人,2005年全国1%人口抽样调查发现迁移流动人口已上升至14735万人,2010年第六次全国人口普查时约为22143万人,2015年年底增长至2.47亿[292]。改革开放以来,流动迁移人口的总规模处于持续增长的态势。预计2020年之前,流动迁移人口(包括乡城流动、城城流动及新落户城镇的农业转移人口)每年增长600万—700万人;2020年之后,流动迁移人口每年增长渐减至500万以下;到2020年、2025年、2030年,中国流动迁移人口将逐步增长到2.82亿、3.07亿、3.27亿[293]。

(2)流入地分布沿海化,中西部特大城市和城市群承载更多省内流动人口

随着迁移流动人口规模的扩大,流动人口的流入地也在不断发生变化。第三次全国人口普查数据显示,20世纪80年代黑龙江省吸收了约全国8.6%的流动人口,其次为河南、山东、江苏和安徽;同期,辽宁、吉林也吸收了较多的流动人口。新疆、内蒙古、山西作为资源省(自治区),20世纪80年代也吸收了较多流动人口,1987年这3个省(自治区)流动人口占全国流动人口的比例仅次于广东省。东南沿海地区一直是流动人口跨省流动的主要目的地。在沿海地区中,珠三角和长三角在集中吸引流动人口方面尤为突出。1982—2005年广东省流动人口占全国的比重从5.23%上升到了22.37%,而长三角地区的上海、江苏、浙江的流动人口比例总和从11.27%上升到了20.58%[294]。根据第五次和第六次全国人口普查,东部地区流动人口占全国的比重维持在2/3左右。2013年全国农民工监测调查报告显示;在7739万的跨省流动农民工中,流向东部地区6602万人,占85.3%;流向中西部地区1068万人,仅占13.8%。东部地区跨省流出农民工中,72.6%仍在东部地区省际流动;中部和西部地区跨省流出农民工中,分别有89.9%和82.7%的比例流向东部地区;分年龄阶段来看,约三成的“90后”流入长三角和珠三角的大城市就业,明显高于“80后”的23%和老一代的21%。因此,当前学术界的普遍共识是东南沿海地区作为流动人口主要目的地的趋势不会改变[295]。

另外,城市群将成为东部地区流动人口集聚的主要空间形态。东部地区的大规模流动人口主要集中在长三角、珠三角、京津冀三大城市群等特大城市群地区。这些城市群依然是中国经济增长的引擎,在科技创新、交通通达、信息交流、国际竞争、文化影响、人力资源等方面仍具有强大优势,将继续保持对流动人口的强大吸引力和吸纳能力。同时,北京、上海等特大城市正在主动疏解人口、产业、功能等,这些将使得周边城市和区域直接获益。随着长江经济带、长江中游城市群、成渝城市群等国家级规划的相继出台,中西部城市群成为全方位深化改革开放和推进新型城镇化的目标,中西部省会等特大城市和城市群将成为省内流动人口的新兴聚集地。

(3)人口流动趋于稳定化和家庭化

流动人口中女性流动人口、已婚流动人口和举家迁移的比例呈上升趋势。自20世纪80年代以来,流动人口中女性流动人口的规模也从1982年的357万增长到了2005年的7000万,相应比例也逐步升高,从1990年的44.45%上升到2005年的49.71%。1982年,已婚人口比例达到63.45%,1987年该比例达到68.37%,1990年下降到59.73%,2000年又攀升到64.84%,2005年则达到68.41%;与此相反,流动人口中未婚者的比例由1990年的36.1%下降到了29.1%[296]。

与此同时,随着时间的推移,在个体迁移流动积累了一定物质生活资源的基础上,人们对家庭生活的需要推动了投亲靠友的迁移流动,诸多因个体迁移流动而分离的夫妇与子女在迁入地团圆,出现合家迁移现象。举家迁移比例逐步上升。20世纪90年代流动人口以个体流动为主,举家迁移比例较低;2000年后,举家迁移成为流动人口的首要选择,迁移比例从1990年的7.44%上升到46.06%[297]。全国流动人口动态监测数据显示,2014年流动人口在现居住地居住平均时间超过3年以上的占55%,与稳定化相对应,流动人口的家庭化趋势开始凸显。“十二五”时期,举家外出农民工占全部外出农民工的比例持续快速提高。《中国流动人口发展报告2015》显示,近九成的已婚新生代流动人口是夫妻双方一起流动,与配偶、子女共同流动的约占60%,越来越多的流动家庭开始携带老人流动[298]。

(4)人口流出和回流的态势长期存在

流动人口的家庭化趋势加大了留守妇女、留守儿童、留守老人的随流比例,在一定程度上增大了人口流出规模。加之对城市生活的向往、受城市更多发展机会的吸引,农村人口外流比例会长期呈现增长趋势。农村、小城镇和中小城市人口的大比例流出态势不会改变,而会持续强化。与此同时,当前乡村振兴计划的实施,国家和地方政府均在大力推动流动人口回乡创业就业,并出台了相应的支持政策;加之多数举家流动家庭,特别是流入一线大城市的家庭,缺乏定居流入地的能力,仍将有较大比例的流动人口选择回流,返乡创业,或回到家乡附近的小城市务工、定居生活。这种人口流出和回流的状况将在较长时期内并存。

(5)国际迁移时代的到来

中国是一个长期没有国际移民的国家,但随着改革开放的不断深入,特别是最近一二十年内中国在社会经济、文化教育等各领域卓有成效的发展,越来越多的国际移民已开始把眼光投向中国。2010年第六次全国人口普查时,全国登记的国外、境外人员数量已达104.5万人。2016年3月,国际移民组织(IOM)的一份报告显示,2000—2013年,中国的国际移民总量增长了超过50%,并预计这种快速增长的趋势还将随着中国特大城市国际化水平的提升而强化[299]。广州市公安局数据显示,截至2014年10月,在广州市居住的外国人为11.8万人;上海市公安局数据则显示,2013年上海市实有境外常住人口31.9万人[300]。常住云南瑞丽市的缅甸人,保守估计也有3万人以上[301]。但是,与全球2.25亿跨国移民及其占全球总人口3%的比例相比,中国业已达到的国际移民规模及其在总人口中所占比例还仅仅处于起跑点。随着全球化进程的进一步推进和中国经济社会发展水平的进一步提升,完全可以预料,中国国际移民的规模在未来30—50年必然会有大规模的增长。预计到2030年,全国的国外及境外人员数量有望达到500万—1000万人[302]。在某些特殊背景如国际动荡,尤其是周边国家和地区可能出现动荡的情况下,国际移民、国际难民数量会更多。对此,国家相关部门应预做准备。

总体上,人口迁移格局南强北弱、流向自西向东;与东部和西部地区相比,中部地区人口迁移率较低;长三角、珠三角和京津冀等城市群的人口迁移流动相对更为集中[303]。全国人口迁移态势显示,随着时间的推移,省际人口迁移规模上升,迁移强度不断增强;人口迁移的重心有明显向北、向东偏移的趋势[304]。人口迁移改变了迁入地和迁出地的城乡人口结构,促进了人口城镇化,并在一定程度上缩小了省际差异[305]。现阶段,中国流动人口的总规模趋于缓慢增长,其中乡城流动人口规模已开始下降,城城流动占比不断提升;新生代流动人口占据绝对主体,性别结构趋于平衡,少数民族占比上升,流出和回流的双向化趋势明显。除此之外,流动人口家庭化趋势愈加明显,当前人口流动家庭化的特征已由夫妻流动开始转向夫妻与未成年子女共同流动,预计未来会有更多的家庭成员(特别是老人)加入家庭化的人口流动进程中[306]。从区域角度来看,人口流动仍呈现明显的地域特征,东部地区对流动人口的吸引力保持绝对优势;不过,长三角地区开始逐渐代替珠三角成为新的人口流动中心,人口流动开始北移;相比之下,中西部地区的人口流动分中心以人口就近转移为主[307]。各地区的人口迁移流动存在重要变化,不少地区的人口流向和范围不断扩大延伸[308];不过,预计在未来一段时间内,省际人口流动网络的整体格局难以发生根本性改变[309]。



(三)人口迁移流动模型


中国自改革开放后迁移流动人口快速增加,对城乡社会经济发展的影响愈来愈突出,诸多专家、学者借助于迁移流动模型,解释中国人口迁移流动的空间分布特征、迁移流动原因、影响迁移流动的因素,以及人口迁移流动的发展趋势。

1.迁移流动人口的空间分布及趋势预测

迁移流动人口的空间分布及趋势是学者们一致关注的重点问题,这方面的研究不仅扩展了迁移流动空间分布的预测方法,同时也揭示了空间分布的特征和趋势。胡启迪等在抽样调查的基础上,分析上海市迁移流动人口的年龄构成与性别构成等特征,依据初始年份的迁移流动人口的年龄状态,设定比较符合今后上海市迁移变动趋势的各年迁入率和迁出率,以及各年主要迁入原因的按因比率和主要迁出原因的按因比率,从而设计上海市人口迁移流动的预测模型,预测未来上海市区每年分年龄性别的迁移人数[310]。

李南和Shripad Tuljapurkar将带有年龄结构的人口迁移模型由只包含迁入地推广到了迁入和迁出地,讨论了迁移对迁入及迁出地年龄结构的影响,提供了研究区域内部迁移的框架,如城乡迁移等[311]。

黄建元和刘洋在分析各种流动人口模型适用性的基础上,构建了先采用Logistic曲线拟合法进行拟合修正,再应用拟合修正后的数据,通过等维递补灰色预测法进行流动人口预测的预测模型,并利用上述模型尝试对江苏省2010年、2015年、2020年流入人口的低中高方案进行预测,取得了较好的效果[312]。刘汝良等求出了Keyfitz模型和Rogers模型的理论解,并以Rogers模型为例,对人口迁移模型进行了改进,使之适用范围更广,进而建立了系统动力学模型,并对江西省的人口迁移问题进行了仿真预测,模拟出了江西省农村人口、城镇人口及城市化率的变化趋势,即到2050年江西省城镇化率将高达85%,城市化建设将基本完成[313]。

米红等引入地理信息系统中的人口分布重心和经济重心的概念,对传统的人口迁移重力模型进行了修正,并将其应用在农村人口向城市的迁移中,在此基础上,以系统动力学为主要方法,结合人口分要素预测与迁移模型,对未来中国人口的迁移规模和城市化率进行了预测,认为未来中国农村人口将持续减少,城市人口将持续增长,2013年城市人口超过农村人口,城市化水平将不断提高,按照现有模式发展,2050年估计能达到64.1%。随着农村与城市人口的此消彼长,每年迁移到城市的人口将逐渐减少,从2010年的1000多万降低到2050年的300多万;城市化速度也由每年提高0.8个百分点降低到每年0.2个百分点[314]。夏永祥和魏玮依据中国特殊的城乡和区域双重二元经济以及城乡二元社会结构下人口流动的特殊性,对传统人口流动模型进行修正,建立了新的人口流动模型,并以此分析中国产生民工荒现象的原因[315]。

张耀军和岑俏利用“五普”和“六普”数据,使用ArcGIS可视化分析和基于Moran’s I指数的全局空间自相关检验研究中国省内和省外流入人口的空间集聚特征,发现省外流入人口分布的空间集聚性明显,而省内则较弱[316]。陈锐等则基于经济、就业和交通成本进行改进,发现改进的模型均可以较好地解释人口迁移的分布,回归结果也优于传统的重力模型[317]。

钟水映和李春香在分析农村人口退出与市民化、城市化等关系的基础上,从农村人口退出视角,加入制度因素对托达罗人口流动模型进行再修正,并利用模型分析发现,乡城流动人口的流动退出过程可分为两个阶段:短期内,流动人口个体流动决策的依据是预期净收入最大化;长期内,具有若长期流动经历的流动人口在进行家庭迁移退出决策时,决策依据应是包含制度净收益在内的家庭预期净收益最大化。模型分析结果显示农地制度是影响农村人口退出的核心因素,未来农村人口的顺利退出要求农村土地实现更多的功能,特别是财产功能;农村土地制度,特别是退出制度需要进一步改革完善[318]。齐子翔和吕永强在回顾以往人口预测方法及其实证应用的基础上,尝试使用空间局部自相关的空间属性,在传统有限马尔科夫链的基础上,加入时间和空间因素构造了时空马尔科夫链以预测城乡人口流动[319]。胡科林和郑新奇结合国土功能评价指标和统计分析方法,提出了一套构建在GIS平台上研究省域人口迁移的新模型,以解决传统人口迁移模型不能适用于多种省域人口迁移的影响要素的问题[320]。

刘欣和蔡婧将灰色模型与径向基函数神经网络模型相结合,针对人口迁移行为中的合力效应提出新的人口迁移预测模型[321]。朱江丽和李子联通过构建异质性人口跨期流动模型,动态分析了户籍改革对区域经济与人口格局的影响效应及其传导机制,发现:第一,经济体长期均衡过程中,价格指数效应、前后向关联效应以及竞争效应都将影响企业家和农村劳动力的地区分布;第二,户籍改革促进在城市工业部门务工的农村劳动力市民化,户籍人口城镇化率将先经历快速上升而后减速增长,直至达到相对稳定;第三,户籍改革引致农村劳动力与企业家的比例以及农村劳动力迁移成本双双下降,扩大地区竞争效应与后向关联效应,影响地区经济与人口格局,探索户籍改革对地区发展的影响并提供了一个可行的分析框架,反映了不同条件下户籍改革效应的不同表现以及制衡因素的作用[322]。

孙功强等为揭示利益驱动下的人口迁移,基于动力学理论,由人均收入、公共服务资源人均占有量和平均年龄构造区域广义势,指出当某区域广义势高于各区域的平均势,该区域将有迁出者,那些广义势比平均广义势低的区域将是这些迁出者的迁入区;向不同区域迁入的人则由依赖于两地间广义势之差的迁移概率决定,结果表明,净迁入(迁出)人口随时间指数衰减,迁出(迁入)区总人口、人均收入、公共服务资源人均占有量均呈现近似为指数方式衰减(“反指数”方式增长),最后达到三者相互匹配的相对稳定态[323]。

郭志仪和刘红亮指出,利用人口年龄结构数据中死亡率相对稳定的特点和线性回归方法,可以对历史时期内特定区域中人口的迁移流动做出较为精确的估计,并利用甘肃省1990年以来普查数据和历年统计公报人口数据,在建立多维自适应计算模型的基础上,对甘肃省1978年以来总人口中跨省迁移人口的规模做了尝试性分析,指出如果使用普查年数据对跨省迁移人口的规模做简单线性回归,可能会带来较大误差[324]。

2.迁移流动的原因及影响因素

个体、家庭、社会政策以及基础设施等均会对迁移流动产生影响。马伟等基于引力模型研究了人口迁移的影响因素和机制,利用1987年、1995年、2005年3次全国1%抽样调查人口迁移数据,重点分析了以火车交通时间为表征的交通基础设施改善对人口迁移的影响,发现交通基础设施改善极大地影响了人口迁移,其中火车交通时间提速1%将会促使跨省人口迁移增加约0.8%,表明交通基础设施改善能够显著地促进人口或劳动力要素的自由流动和最优配置[325]。李春平和葛莹玉利用流出地人口调查资料,从家庭成员流出顺序和流出间隔的视角,运用多状态模型分析人口流动家庭化的动态过程[326]。研究表明,研究地区家庭化流动趋势明显,但仍有40%的夫妻处于分居状态,个人、家庭和环境因素对家庭化流动均有影响,其中子女对家庭成员流出有阻碍作用,但对家庭化流出有促进作用。认为对家庭化流动应该给予政策支持,并建立一套以家庭为服务对象的、具有完整生命周期的流动人口管理服务体系。张耀军和岑俏发现,影响省内和省外人口流入的因素同中有异,第三产业发展、职工平均工资较高对省内省外流入都有促进作用,而就业率高、城市化水平高更吸引省外流入,公共资源多更吸引省内流入[327]。刘晏伶和冯健的研究结果表明,迁入地城镇居民收入与迁移率呈正相关关系,与迁出地城镇收入、迁入地的科技文化水平、迁移距离和迁入地农村收入则呈负相关关系[328]。朱江丽和李子联研究发现,经济体长期均衡过程中,价格指数效应、前后向关联效应以及竞争效应都将影响企业家和农村劳动力的地区分布[329]。

除全国性人口迁移研究外,也有不少研究重点考察特定区域或特殊人群的人口迁移现象。王桂新对比分析了长三角与珠三角的人口迁移特征,指出这两大城市群的省际迁入人口均以男性为主、受教育水平普遍较低;不过,这些城市群迁移人口的地区分布仍存在差异,其区域内部净迁入地所占比例较小,净迁出地比例则较大[330]。类似地,周玉翠等对比分析了经济发达的江苏省和欠发达的湖南省人口城镇化的特征[331],向华丽考察了湖北武汉市非正式迁移人口的省际、省内和市内流场及其人口结构[332]。段成荣等回顾分析了近代人口流动对东北地区人口发展的作用,指出当前振兴东北人口仍有赖于人口流入[333]。此外,胡莹和李树茁利用历次全国人口普查数据考察了女性跨省婚姻迁移的特征及其变迁,研究发现,1990—2010年,中国跨省婚姻迁移人口由154万上升到近220万,其中女性比例在85%以上;女性跨省婚姻迁移与各地区的人口性别结构失衡以及地区间社会经济发展不平衡高度相关[334]。

还有研究运用人口迁移模型,考察了气候变化、高铁发展、城市公共服务水平、商品房价格,以及行政等级等社会经济和制度因素对人口流动的影响[335]。这些研究不仅对揭示人口流动的一般影响机制具有理论价值,而且呈现了当前中国社会经济发展的具体背景下人口流动变化的具体机制。

迁移流动对人口及社会经济的效应。迁移流动不仅是人口变动的核心组成部分,而且对人口变动的其他要素以及社会经济发展具有重要的影响。2018年,关于迁移流动效应的研究主要包括:重新实证检验了流动事件对生育水平的影响[336],探讨了迁移流动对人口空间格局的影响[337]、对老龄化区域不均衡的效应[338];考察了人口迁移的地区经济增长、住房价格变化等社会经济状况的影响[339]。这些研究认为,人口流动降低了社会的总体生育水平,在加速流出地人口老龄化的同时,缓减了流入地的人口老龄化程度。通过对劳动力的配置效应,人口流动对经济发展产生了重要的促进作用,与此同时,也在不同程度上推高了流入地的住房价格。



七 人口预测与其他间接估计


人口预测是人口统计学研究的核心范畴,包括对人口规模、结构及其要素发展变化的预测,准确及时的人口预测活动可以为相关社会经济与人口监测、决策服务。



(一)人口预测技术


对于经典的人口统计学而言,要素预测方法是人口预测的专业性工具,对复杂人口预测有着不可替代的作用。不过,受数据资料、计算负荷等方面因素的客观限制,早期的人口预测大多使用相对简单的趋势外推预测方法,如直线模型、抛物线模型、指数曲线模型、修正指数曲线模型与logistic曲线模型。20世纪80年代初,人口统计学领域有不少研究对人口预测方法进行推介、对比和统计阐释。例如,暴奉贤在介绍常用的人口预测方法的基础上,重点对比了不同类型的直接推算预测方法[340]。余澄扬着重介绍了指数函数预测方法,指出在数据有限、要求精度较低的情况下,指数函数预测法提供了一个快速、粗略的人口预测方法,具有一定的参考价值[341]。类似的关于人口预测函数和具体方法的对比分析,在过去几十年间一直是中国人口统计学研究的重要内容[342]。

王维国阐述了不同人口预测方法的性质与特点,指出趋势模型预测法与人口总数的分要素预测法只能预测人口总数,而无法提供未来人口状况的详细资料;相比之下,年龄移算法与队列要素数学模型预测法则能够提供未来人口的详细资料[343]。不过,后者的局限在于这些预测方法往往假设出生率等因素固定不变,忽视了这些要素的动态性质。鉴于此,王维国提出了完善原有的人口预测方法的思路。郭华指出,广义的人口要素法包括静态预测法与动态预测法,尽管前者在预测中假设死亡率、出生率等人口参数固定不变,但后者允许人口参数随时间连续变化;通过运用现代计算机数据处理技术,能够拓展人口预测的内容、改进预测的精度[344]。

在介绍和应用既有的人口预测方法的同时,也有不少学者针对传统预测方法的假设、数据要求等方面的局限性,尝试改进人口预测工具和技术。朱悦新将现代控制理论中关于系统辨识的原理与方法应用于人口系统,提出了按龄留存率的解析式,将参数估计问题转化为优化问题,为中国当时数据资料有限条件下辨识人口模型参数提供了一种有效的方法[345]。张天岭和杜闻贞介绍了英国人口学家Akkerman考虑家庭因素的人口预测方法,并根据中国具体情况对该模型进行改进;改进后的非稳定性人口模型可以预测中国人口总数、自然增长率、年龄结构、家庭户数、不同户主年龄特征的家庭的平均人口数等指标,为预测以家庭为单位的消费需求等内容提供了重要的手段[346]。王广州借鉴地理信息系统中指数空间变异函数模型,改进人口空间间接估计方法[347];其后续研究改进了利用一次人口调查数据对以往人口年龄结构估计的存活倒退法,提出了运用两个时点的人口数据,对两时点之间的人口年龄结构进行估计的方法[348]。

王广州从冈波斯(Gompertz)和逻辑斯蒂(Logistic)基本预测模型出发,介绍了经典的队列要素人口预测方法和孩次递进生育人口预测模型[349]。在此基础上,以1990—2010年3次全国人口普查数据为基础检验了孩次递进生育预测方法在人口结构预测中的可靠性。王广州系统回顾了人口预测的历史,介绍了主要的预测方法及软件技术,并结合实际预测案例阐释了人口预测方法和技术的应用[350]。贺小林在回顾生命表方法、布拉斯模型logit转换等研究方法的基础上,构建了基于年龄移算法的多要素人口预测模型[351]。通过将该模型在1990—2010年观测人口数据中的推演检验,预测了2010—2020年人口发展趋势,得出模型对短期人口预测较为精准的结论。郭雪峰等对传统灰色模型使用自适应滤波法进行残差修正,并使用改进后的模型对流动人口进行预测,研究发现,改进后的模型能够根据历史信息对残差权数进行动态修正,预测精度更高,实用性和可行性更强[352]。



(二)人口预测方法的应用


1.总人口预测:规模与结构

翟振武等立足于生育政策调整来考察中国人口与老龄化变动,使用2015年全国1%人口抽样调查数据和队列要素法,利用PADIS-INT软件对2015—2100年中国人口规模和结构进行预测[353]。其中生育水平的变动分为两个阶段,2017—2021年是政策调整后的出生堆积期,总和生育率先攀升到更替水平再于2021年降至1.8的水平,而2022—2100年从1.8的水平继续回落,维持在1.7的水平一段时期后,继续波动下降直到2070年1.6,并维持这一水平直至2100年;生育模式则使用全国1%人口抽样调查调整后的分年龄生育比例;性别比从2015年水平逐步下降到2030年的107而后保持。死亡模式以2015年全国1%人口抽样调查中分性别年龄死亡率为基础,死亡水平按照WPP采用的平均预期寿命中速提升方案进行推算。预测结果显示,总人口规模将于2029年左右迎来峰值(14.55亿人),此后将步入负增长,2100年降至约9.75亿人;人口年龄结构将不断老化,其中少儿人口和劳动年龄人口所占比重将不断缩减,老年人口比重则将不断扩大;因少儿人口对生育政策的调整“非常敏感”,少儿人口规模、比例和少儿抚养比将在生育政策调整后“立即出现明显的变化”,迎来一个小高峰,如少儿人口规模将在2022年左右迎来峰值,约为2.62亿人;老年人口规模将于2053年左右达到峰值(4.82亿人),此后将逐步缩减。顾和军和李青的研究关注类似的问题,用队列要素法预测了“全面二孩”政策对2017—2050年中国劳动年龄人口数量和结构的影响[354]。

郭震威和王颖用微观模拟方法确定生育率,然后再用宏观模拟确定2014—2100年的人口发展状况,认为适时实施“全面二孩”政策,并调整人口及相关经济社会政策,将妇女生育水平提高到1.8左右并逐步回归到更替水平上下,那么,未来三四十年,中国人口将趋向于一个稳定人口,人口自身各要素之间及其与经济社会资源环境之间可望保持总体协调[355]。

张车伟和蔡翼飞使用队列要素法进行人口预测,并通过逐年推算预测新增劳动力规模和学历结构;参考发达国家的规律设定了就业弹性,得到了劳动力需求预测;需求与供给相比确定了缺口总量,并用统计数据分解出年龄、学历及农民工等结构特征。结果表明,“十三五”时期,劳动供求基本平衡,但就业的结构性矛盾不断加大,结构性失业问题比较突出[356]。

向华丽和吴云程基于联合国生命量表和寇尔—德曼生命量表中不同模型生命表,分析了人口预测中不同模型生命表的选取对未来人口死亡模式、老龄人口预测结果的影响。研究指出,不同死亡模式的设置对老龄人口的预测结果具有明显差异,因而死亡模式的选择是科学预测、提高预测精度的前提[357]。

2.迁移流动和区域人口预测

齐子翔和吕永强在回顾以往人口预测方法及其实证应用的基础上,尝试使用空间局部自相关的空间属性,在传统有限马尔科夫链的基础上,加入时间和空间因素构造了时空马尔科夫链以预测城乡人口流动[358]。类似地,胡科林和郑新奇结合国土功能评价指标和统计分析方法,提出了一套构建在GIS平台上研究省域人口迁移的新模型,以解决传统人口迁移模型不能适用于多种省域人口迁移的影响要素的问题[359]。刘欣和蔡婧将灰色模型与径向基函数神经网络模型相结合,针对人口迁移行为中的合力效应提出新的人口迁移预测模型[360]。

李强等针对目前常用的人口预测方法针对小区域人口预测时往往面临数据可得性受限、质量不高等问题,指出概率人口预测方法能够较好地克服相应问题,并将Alho等发展的随机人口预测方法应用于小区域人口预测[361]。邹艳等在回顾小区域人口数据的插补方法、平滑方法和预测方法的基础上,针对小区域人口时间序列数据结构变化快的特点提出了一种基于渐消因子与滑动窗口的预测方法[362]。该方法将人口年平均增长率、地区人口规模比例、人口年均增长率之差视为动态变量,通过滑动窗口不断引入新的预测值更替相应模型参数,同时利用渐消因子不断强化新参数的作用、弱化历史信息的影响,由此提高参数的时效性和模型的灵活性。在此基础上,使用湖南省澧县人口数据对模型进行检验,结果支持了改进后模型的预测精度。

童玉芬和王莹莹采用系统动力学方法,对北京市人口进行了动态模拟。通过政策模拟,考察经济发展、产业结构升级、户籍制度放开等政策导向对未来北京市人口增长趋势的影响[363]。米红和杨明旭也在考虑迁移的情况下,以浙江省宁波市为例进行区域人口预测[364]。通过“五普”年龄移算与“六普”实际人口数挤出各年的年龄别净迁移模式,用迁移率、出生率和死亡率进行随机预测,研究发现净迁入能延缓人口总量下降,但在低死亡率和低出生率作用下人口老龄化仍将加剧。

劳昕和沈体雁综合考虑地级市城市体系,使用城市体系演化预测方法,根据均衡条件对全国的人口迁移进行迭代推演[365]。并按照不同政策导向设置情景分别预测了城市等级结构。研究的优点是系统考察迁移,缺点是没有考虑人口自身老化、出生等自然变动,仅设置自然增长率来反映自然增长。

另外,曾永明用“五普”和“六普”分县数据做人口密度的概率分布函数,并通过预测均值和标准差进行外推预测。不过,在标准差预测中,标准差不断放大且预测的决定系数很低,以此类推预测也就决定了预测中的主要结论即两极分化,预测本身需要更多依据[366]。

3.其他人口预测应用

王广州将普通高等教育年龄人口定义为18—24岁,借鉴使用生育研究中孩次递进人口预测模型来预测人口总量和结构等人口基数[367]。考虑到受教育的递进属性,使用与育龄妇女总和生育率计算方法类似的总和受教育年限指标作为教育总体水平的代表。通过假定年龄别在校模式不变,可以将总和受教育年限推算为年龄别在校率,而后在对2050年总和受教育年限的假设之上,估计年龄别在校人口数。人口预测结果显示,预计今后高等教育年龄人口规模将持续稳定下降,受“全面二孩”政策的影响,预计2035—2040年高等教育年龄人口规模开始回升;在校规模预测结果显示,2020年之前处于下降趋势,但规模降至3000万以下的可能性不大,虽然误差会随着外推而增大,但高等教育在校人口规模持续提高的可能性很小。该研究是灵活运用经典人口模型的一个范例,同时也展现出人口预测对中国各项事业发展的指引作用。

长期实行的计划生育政策无疑增加了失独的风险,准确估计失独妇女这一特殊群体的数量和变动趋势,对相关扶助措施的出台有着重要的基础性作用。王广州提出终身失独概率估计方法和失独育龄妇女再生育可能性等,指出由于存在再生育的可能性,用独生子女死亡概念近似失独妇女,其结果有可能大大高估时期失独妇女的总量;而在计划生育政策的影响下,中国育龄妇女二孩生育水平和生育模式是有着天花板的,参照二孩模式将失独育龄妇女再生育看作1≥2递进生育有可能高估失独妇女的总量;而现存子女递进生育模式方法更接近实际调查结果[368]。使用人口微观仿真方法,在1990—2014年全国人口普查原始数据、全国1%人口抽样调查原始数据、普查和人口变动抽样调查汇总数据基础上,估计目前35岁及以上失独妇女数量在140万左右,2050年失独家庭达到450万左右可能性较大,而2050年前中国时期失独妇女总量超过600万的可能性不大,失独家庭达到或超过1000万的可能性也不大。



(三)人口预测结果的评估与检验


李强使用时间序列模型中随机误差加权模型,关注人口预测中预测误差的时间自相关、误差与年龄和性别的相关关系,以及这三类相关性对人口预测结果的影响[369]。研究结果显示,在进行人口预测时,需要将预测误差相关性纳入模型,预测误差的相关性对总人口数量预测结果的影响相对较小,对分年龄段人口数量和人口年龄结构指标预测结果的影响较大。

石人炳和陈宁回顾评估了近几十年来的人口预测研究成果,指出目前人口预测存在“重结果预测,轻结果检验”“重未来描述,轻过往总结”的问题[370]。通过选取2010年以前学界相对权威的、全国性、中长期的预测成果,研究认为,以往这些人口预测的中短期趋势基本符合实际,但长期来看其预测结果差异较大,且存在普遍偏高的问题。造成这一结果的原因包括基础数据、参数设定和模型选择3个方面的问题。具体而言,现有多数人口预测研究中普遍存在生育参数设定高于实际统计水平,甚至是修正后的生育水平,死亡参数设定高于实际死亡水平;不同预测对基础数据的处理和评估缺乏统一的标准。这些因素共同决定了既有预测结果之间的差异。



(四)小结


新中国成立以来,中国人口统计学的发展见证了人口预测方法和技术的同步发展和逐渐成熟完善。在新中国成立之初,一些长期致力于人口统计研究的学者(如陈达等)就对人口预测给予了关注和重视。这些学者应用有限的人口统计数据,如年龄结构等,对当时的人口发展态势和发展趋向进行了研判,为正确认识人口形势、制定正确的人口与社会经济发展规划提供了依据。

概括而言,过去几十年中国人口预测技术的发展大致经历了由简单到复杂、逐步发展和完善的过程。20世纪80年代以前,主要的人口预测技术以单因素、简单的趋势拟合方法为主;20世纪80年代初,随着第三次全国人口普查以及一些大型专项抽样调查的出现,人口统计学界涌现了一大批关于人口预测方法的研究,其中既包括对国外人口预测技术的引进,也有中国学者自主研发的人口预测模型。这些预测方法与日益丰富的人口统计资料相结合,带动了人口预测方法和应用的繁荣。人口要素预测法逐渐替代简单的趋势外推方法成为人口预测的主要选择,这一发展意味着人口预测开始反映人口变动的内在机理和规律。随着人口统计数据的不断积累以及计算机技术的发展,人口预测方法朝着精细化、复杂化的方向不断发展。生育预测方法不仅考虑育龄人群的年龄、婚姻状况等特征,而且将孩次、性别、间隔等因素纳入预测模型;死亡预测方法将不同健康和疾病状态的转化纳入预测模型;人口规模的预测不仅考虑不同的人口变动因素,而且将这些变动因素之间的相互作用纳入模型。简言之,近几十年来中国人口预测方法通过不断修正和放松不切实际的假设条件、改善预测算法,提高了进行人口预测的能力和效率。

随着人口预测方法的快速发展,人口预测应用成果日趋丰富。一方面,人口预测方法和技术的应用范围快速拓展,传统的死亡预测技术被推广应用到保险、教育、婚姻家庭等领域。这些进展在客观上有助于检验和完善人口预测技术,也促进了相关领域的科学研究活动。另一方面,预测方法的不断成熟、软件和技术的便捷化,也在一定程度上助长了一些急功近利、不求甚解,甚至是参数和方法误用的现象。这些做法可能带来混淆视听的预测论断,不利于保持人口统计研究的科学性和严谨性。鉴于此,当前人口统计学科在正确认识和肯定其发展成就的同时,需要谨慎对待、纠正学界存在的错误做法,警惕有失科学性和严谨性的学术行为的泛滥。



上一章目录下一章
推荐书籍:新中国劳动经济学研究70年 新中国法学研究70年 新中国政治学研究70年 有钱女人怎么做 有钱人和你想的不一样:赢 有一种毒药叫成功 有一种缺点叫聪明 正向思考:预约你的幸福人生 遇见未来的自己 再启动