降雨指数类保险定价模型研究

摘要

本文讨论了基于地方自动站的降雨指数类产品所存在的定价挑战,并详细阐述了降雨数据缺失及数据年限短对于指数风险评估的影响。针对以上问题,提出了基于回归模型填补数据缺失及使用马尔可夫过程仿真进行数据扩充的解决方案。通过实验,证明了该方案在评估降雨指数风险中的有效性及优越性。

背景

近年来,全球多个国家和地区都频繁的遭到自然灾害的影响。从2011年的东日本海大地震,到美国的“卡特里娜”飓风,这些自然灾害在造成严重的经济损失的同时,也导致了大量的人员伤亡。大型自然灾害(巨灾)所造成的巨大损失已经威胁到人类社会的可持续发展。而从全球范围内各国的应对经验来看,保险是分散上述风险的重要手段之一。

我国政府近年来不断强调将金融工具运用到政府的公共管理过程中。其中,建立全面的巨灾保险制度体系得到了越来越多的重视。2013年,党的十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》中,第12条提到了“完善金融市场体系”,并着重强调,“完善保险经济补偿机制,建立巨灾保险制度”。2014年,国务院发布的《国务院加快发展现代保险服务业的若干意见》,被视为保险业的“新国十条”。在“完善保险经济补偿机制,提高灾害救助参与度”的内容中,巨灾保险制度建设被正式提上了议事日程,体现了国家对此制度的重视和市场的迫切需要。 2017年1月,在《国务院关于推进防灾减灾救灾体制机制改革的意见》中,进一步提出了“要充分发挥市场机制作用……不断扩大保险覆盖面,完善应对灾害的金融支持体系”,“鼓励各地结合灾害风险特点,探索巨灾风险有效保障模式”。

在党中央国务院的政策支持下,我国各地陆续开展了多种形式、各具特色的巨灾保险尝试。2013年,深圳和云南,作为中国保监会批复的首批巨灾保险试点地区,加紧了对巨灾制度框架的研究和设计。其中,深圳市2014年制定了由政府巨灾救助保险、巨灾基金和个人巨灾保险三部分组成的巨灾保险体系,主要侧重于对居民个体的保障。作为另一试点的云南省,则在地震巨灾保险制度的探索中取得了进展。于2015年8月,在大理启动了全国首个农房地震保险试点,并提出了以政府灾害救助为体系基础、政策性保险为基本保障、商业保险为有益补充的,“三位一体”的巨灾风险管理体系。同时,该保险也是第一次将“指数”保险的概念,引入政府巨灾保险的框架体系中。随后,广东省巨灾保险项目试点工作于2016年正式启动,进一步论证了通过指数作为保险理赔依据的及时性和有效性,为我国巨灾保险的开展,提供了重要的新模式。

广东省的巨灾指数保险,以台风风速和最大降雨量为保险理赔依据,当其对应的指数达到或超过预设阈值时,保险公司即根据气象部门出具的认证报告进行理赔。该过程的简便性,使得指数保险与传统保险产品相比,大大增加了赔付款项的给付效率,提高了救灾重建工作的时效性。然而,指数保险的特性却导致了其不可避免的“基差风险”,简而言之,就是被保险人的损失和指数保险赔偿之间的差额。甚至会出现有些承保地区触发了理赔,却未受灾;而有些地区未触发理赔,但却遭受了灾害。因此,虽然指数保险无法完全避免“基差风险”,但一款好的指数产品,应在设计的过程中尽量降低“基差风险”。

针对降雨类指数保险,产生基差风险的主要原因,通常是由于我国基本气象站总体偏少,分布不均衡导致。国家级降雨观测站全国仅2000余个,难以覆盖所有区县。另外,由于我国地形地貌的复杂性,单个降雨站点的信息也难以全面反映整个区县的灾害情况。因此,为降低基差风险,广东省的降雨指数保险在设计之初,不仅采用了国家级降雨站点数据作为参考,同时纳入了地方自动站的降雨数据,一并计算,来得到最终的强降雨指数。

强降雨指数精算定价的挑战

然而,使用地方自动站降雨数据虽然有效的降低了基差风险,但却给该保险产品的精算定价带来了巨大的挑战。与普通的降雨事件不同,我们所关注的是众多降雨事件中的极端强降雨事件,即尾部风险,所对应的指数计算基于一定区域内多个降雨站点雨量的极大值。其风险特性不同于火险,车险等传统保险,更接近低频高损的巨灾保险范畴。针对这类风险的定价,需要依靠高质量的历史数据以及科学的模型算法。而自动站的降雨数据不仅存在着数据缺失,同时,还存在着年限短等一系列问题。

下图(图1)以广东省某城市的自动降雨站的累积降雨数据为例,展示了自2008年起,该地区各个站点逐月降雨数据的缺失百分比情况。首先,在2008-2017年间,由于自动降雨站的建站时间参差不齐,导致部分降雨站较早年份的数据“完全缺失”;其次,由于数据的可获取性等原因,导致某时间段内的降雨数据集体缺失,比如下图中所示的2015年前的几个月。此外,不同于国家降雨站,自动降雨站不存在人工值守,只有定期维护,因此,偶发的设备故障也会导致部分降雨数据的缺失或异常。据统计,广东省大部分城市的数据整体缺失率介于10%到50%之间。

如何处理这些缺失的降雨数据,是我们需要解决的首要问题。如果我们直接忽略这部分缺失,则无疑会低估最终计算得出的强降雨指数。正如上文所提到的,指数的计算主要依赖于单次事件中特定区域内所有降雨站点的雨量最大值,显然,如果我们只在站点的子集上取最大值,则计算出的指数一定会小于等于真实的指数(下文称之为“目标指数”)。

以2020年发生的降雨事件为例,图2显示了所有的目标指数,以及随机抹去25%和50%降雨数据时所计算得到指数的时间序列。可以看出,在目标指数的时间序列中,最大事件的指数位于红色参考线上方。随着缺失百分比的增加,该事件的指数随即降低,并逐渐下降到参考线以下(确切数字如表1所示)。同时,数据的丢失会让我们错失一些小型降雨事件,而这将影响我们对整体降雨事件频率的估算。例如,在所示的目标时间序列中,我们一共拥有9次事件,但在缺少25%和50%的数据时,仅剩下7次和5次事件。

如果我们进一步考虑缺失数据对某单一事件的影响,那么丢失的站点集的不同将会对最终计算出的指数产生不同的影响。缺失某些特定站点集可能影响较小,但另一些可能会对指数造成严重的低估。图3a和3b显示了在数据缺失25%和50%的前提下,基于所有可能的站点缺失组合所计算得到的指数概率密度(红线代表目标指数0.58)。而表2记录了对应指数概率密度的平均,及可能的最小(图中蓝点)和最大值。可见,在数据缺失25%的情况下,指数的低估最高可以达到50%;而在数据缺失50%时,该低估甚至超过80%。

更为重要的是,即使不考虑上述降雨数据的缺失问题,地方自动站还存在数据年限短的问题。相较于国家站普遍的建站年限超过40年,地方自动站的建站时间却集中在最近的15年中。正如图4所示的广东省某城市为例,大部分自动站的建站时间在2008年左右,而有接近20%的自动站,建站时间在2015年前后。这一观察结果适用于广东省的大多数城市。

因此,以自动站大约10年的历史降雨数据作为参考依据直接用于精算定价,尤其是针对保险保障所关注的一些极端降雨事件,显然存在了很大的不确定性。换言之,10年间发生的最强降雨事件,我们是否就可以认定,该事件的回归期为10年?对于极端降雨事件的频率,我们有可能会低估或是高估,这主要取决于当前这10年是否是一个相对平静,抑或是相对剧烈的降雨时期。 图5显示了以某些国家站为例,基于40年历史数据的损失频率曲线(Loss Frequency Curve, 简称为LFC)。同时,我们选取了这40年中,相对安静、中等、和剧烈的10年降雨周期,绘制了相应的损失频率曲线 (LFC)。 损失频率曲线是降雨指数(x轴)相对于其发生频率(y轴)的曲线图,直观反应了事件损失与其频率之间的关系。如果我们认为由40年数据得到的LFC是相对可靠的,那么可以看出,同一降雨指数所对应的不同LFC的频率之间的差异。表3以指数0.3为例,显示了相对安静的降雨周期会显著低估事件频率,而相对剧烈的降雨周期则恰恰相反。可见,数据年限对于精算定价的重要性。

此外,我们所面临的另一个挑战则是对于超出历史最大值的极端风险的判断。如何建立一个模型来合理预估这类极端风险损失,一直是巨灾模型领域的一个重要难题,尤其是在数据量如此有限的前提下。

解决

针对以上两个挑战,我们提出了如下解决方案。 简而言之,我们首先采用插补算法,填充历史数据中的所有缺失值。 随后,我们使用仿真算法来扩充数据,以便更好地评估不同降雨事件,尤其是极端事件, 的损失及其频率。

1. 插补算法:填补缺失历史降雨数据

填补缺失数据最常用的插补方法即均值插补。其中,每一站点的平均降雨量首先由已有观测值计算得出,该平均值再用于补全该站点的缺失数据。 但是,这种方法的缺点是它没有考虑到站点与站点之间降雨的相关性,填补值不会由于相邻站点观测值的波动而产生变化。换而言之,即使相邻站点的降雨量达到极值时,我们也会继续填补相同的数值,即原站点已有观测值的均值。 因此,这种方法在极端降雨事件中,会严重低估降雨量,尤其在涉及使用极值降雨量进行指数计算时,均值插补法所能提供的帮助非常有限。 图6及表4沿用了图3中2020年某一降雨事件(目标指数0.58)为例。可以看出,无论是在数据损失25%,抑或是数据损失达到50%的情况下,均值插补法对于降雨事件指数的密度分布都几乎没有任何影响。

因此,我们建议在插补算法中引入回归模型,通过回归模型构建存在缺失值的站点和其相邻站点降雨量之间的相关性,以得到符合相邻站点降雨趋势的最佳估计值。例如,如果相邻站点的观测值很大,则该模型会大概率输出较大的填补值,反之亦然。在回归模型的选择上,我们尝试了包括 K-Nearest Neighbor (KNN),线性回归模型 (Linear Regression Model),和随机森林(Random Forest)在内的多种模型,建立实验,针对不同的缺失情况通过比较准确程度得出表现最好的模型1,2。同时,在回归模型预测值的基础上,我们还加入了随机扰动,将模型预测值的不确定性考虑在内。我们首先在图7中展示了基于回归插补模型填充后,计算得到的2020年指数时间序列。与图2相比,无论是在数据损失25%还是50%的情况下,得到的最大事件的指数和事件频率都显著缩小了与目标时间序列的差距(如表1及表5所示)。

图8及表6显示了回归插补算法在数据缺失25%和50%时针对单一事件的表现。与图6及表4相比,在数据缺失25%的情况下,经过回归插补算法计算得到的指数概率密度的平均值及可能的最小值分别为0.56和0.33,更接近目标指数0.58。此外,相较于基于均值插补集中在目标指数左侧的概率密度,现在的概率密度更加平均的分布在目标指数两侧,间接证明了回归插补算法在偏性(Biasedness)上的优势。以上观察也同样适用于数据缺失50%的情况。

2. 蒙特卡洛仿真模型: 扩充历史降雨数据

蒙特卡洛仿真(Monte Carlo Simulation)是现行普遍得到认可的数据扩充算法。在实现过程中,我们首先使用现有数据来校准所选择的概率模型,以捕捉数据中内在的统计特性;再基于该模型生成更多可能的数据样本用于随后的分析。在降雨的应用中,我们将该模型称为“多站点降雨生成器”,用于仿真各个站点(空间)任意时间长度上的降雨数据。然而,一个好的“生成器”不仅需要模拟出时间维度上的降雨关联性,也需要在空间维度考虑站点与站点之间的相关性,其复杂程度可想而知。

在现有的“多站点降雨生成器”中,基于高斯过程的模型(以下称为高斯模型),因其构造的简便性,受到众多学者的欢迎。具体来说,假设我们有n个站点,高斯模型的通用形式可以写做X(t) = g[G(t)],其中X(t) = [X1(t), …, Xn(t)]T,作为所有站点的降雨时间序列的集合,可以通过相对应的高斯过程G(t) = [G1(t), …, Gn(t)]T的非线性变换g来近似。该模型的原理,即通过高斯过程G(t)来捕获降雨量在时空维度上的相关性和变化,随后通过变换函数g,以进一步匹配更多的高阶统计性质。不同的模型针对不同的高阶统计性质定义了不同的变换函数g。例如,基于g转换来匹配目标序列X(t)的边际分布(marginal distribution)的模型被统称为Translation process 3; 而Third-order spectral representation和polynomial chaos expansion则可以分别获取目标序列的三阶矩(third-order moments)和高阶相关性(higher-order dependence)4,5

然而,高斯模型由于其尾部独立性(tail independence),无法同时在所有站点产生较大的降雨量。对于我们现有的基于最大降雨量的指数产品,这无疑会成为使用该模型的巨大障碍。 如果我们难以模拟极端降雨事件(例如台风雨:涉及多数站点连续多日的极端降雨),将导致我们对强降雨指数的损失和频率的严重低估。图9展示了基于高斯模型生成的仿真数据的LFC与基于40年历史数据的LFC的对比。显然,随着降雨指数的增加,由高斯模型推算出的指数事件频率逐渐由高估变为低估。在指数达到0.2时,高斯模型已经无法区配目标LFC曲线的厚度,反应出其对指数风险的低估十分明显。

因此,我们的目标是构建一个“多站点降雨生成器”,使得1. 其数学表达式可以像高斯模型一样简单明了,且2. 能够匹配历史降雨的尾部风险,并有一定概率在站点中产生前所未有的极值,以模拟诸如台风雨之类的极端事件。以上目标可以通过我们如下建议的模型来实现,该模型的形式为X(t) = g[Y(t)]。其函数形式与高斯模型非常类似,不同之处在于,我们用马尔可夫过程Y(t)(Markov process)取代高斯过程G(t) 6。马尔可夫过程具有对当前及过去的降雨模式的“记忆”,并可根据该“记忆”生成未来的降雨模式。与高斯过程相比,马尔可夫过程更多地源于历史数据,由此模拟出具有与历史观测更一致的统计性质的区域性降雨模式。它不仅能够像高斯过程一样捕获时空相关性,更重要的是,只要历史上发生过如台风雨等的极端降雨模式,该模型就能够再现甚至产生出超过历史最大值的更为严重的事件。因此,本模型能够更好的反应出降雨的尾部风险,对于指数风险的评估也就更为精准。在图4的基础上,我们同样选取了相对安静、中等、和剧烈的10年降雨周期,并增加了基于马尔可夫过程生成的仿真数据的LFC,得到了图10。很明显可以看出,无论是在安静、中等、还是剧烈的降雨周期,由仿真数据所构建的LFC均比使用10年历史数据构建的LFC与基于40年历史数据的LFC更为接近。如表7所示,以指数0.3和0.5为例,虽然仿真数据仍然会在相对安静的降雨周期低估事件频率,而在相对剧烈的降雨周期高估事件频率,但却显著缩小了与基于40年历史数据的事件频率的差距。

图11通过对图10进行对数变换,进一步展示了基于马尔可夫过程仿真模型在模拟尾部极端风险时的优越性。在相对安静的周期,由于缺乏极端事件,历史事件中并没有超过指数0.55的事件(蓝色点状曲线)。而我们的仿真数据却可以生成更为极端的事件(绿色星状曲线),且可与40年历史数据较好拟合。

总结

本文详细讨论了降雨指数产品所存在的定价挑战以及相对应的解决方案。简而言之,我们使用基于回归模型的插补算法填补降雨数据中的缺失值,再通过马尔可夫过程,生成更多与历史一致的仿真数据,用以更精确的评估用于进行指数计算的降雨尾部风险。我们建立了实验证明了该方法的有效性与优越性。当然,我们的模型仍有改进的空间。同时,我们相信,通过未来更多降雨数据的采集,可以进一步校准模型参数,改善模型的整体表现。

参考文献

  1. Mital et al. (2020). Sequential imputation of missing spatial-temporal precipitation data using random forests. Frontiers in Water, 2: Article 20.
  2. Gorshenin, A. et al. (2019). Application of machine learning algorithms to handle missing values in precipitation data. Distributed Computer and Communication Networks, 563-577.
  3. Grigoriu, M. (1995). Applied non-gaussian processes: Examples, theory, simulation, linear random vibration, and MATLAB solutions. Prentice Hall, Inc. Englewood Cliffs, NJ.
  4. Shields, M.D., Kim, H. (2017). Simulation of higher-order stochastic processes by spectral representation. Probabilistic Engineering Mechanics, 47: 1-15.
  5. Das, S., Ghanem, R., Finette, S. (2009). Polynomial chaos representation of spatio-temporal random fields from experimental measurements. Journal of Computational Physics, 228(23): 8726-8751.
  6. Grigoriu, M. (2013). Stochastic calculus: applications in science and engineering. Springer Science & Business Media.