论文题目:
Evaluating the Performance of LBSM Data to Estimate the Gross Domestic Product of China at Multiple Scales: A Comparison with NPP-VIIRS Nighttime Light Data
论文地址:
https://doi.org/10.1016/j.jclepro.2021.129558
论文作者:黄姿薇(第一作者),李少英(通讯作者),高枫,王芳,林锦耀,谭紫玲
内容导读
GDP 是衡量中国区域经济发展、社会状态的重要统计数据之一,也是城市发展相关研究的一项重要指标。传统的GDP数据是通过普查的方式来获取,该方法费时费力且容易受行政区划、统计口径以及各个地方统计政策差异的影响,导致可获取的GDP数据在空间维度上比较粗糙,且存在数据缺失、数据不一致等多种问题。与传统经济普查的高成本相比,遥感技术为经济估算提供了一种省时省力有效的方法。在众多的遥感数据来源中,夜间灯光影像(NTL)在调查经济活动中起到了直接而独特的作用,因为夜间灯光可以反映与经济状况密切相关的照明情况。多项研究表明,NTL数据与国家和区域经济总量有非常高的相关性,并有学者发现2013年发布的NPP/VIIRS灯光数据在经济建模方面要优于最早发布的DMSP/OLS灯光数据。然而,NTL数据主要反映夜间人类活动情况,无法反映发生在白天的人类活动,在经济活动估算方面仍然存在一定的局限性。
随着互联网的普及,智能移动设备的广泛使用和社交媒体(如QQ、微信、微博等)的兴起,推动了基于位置服务的社交媒体数据(LBSM)的诞生。其中,基于腾讯大数据平台获得的腾讯用户密度数据(TUD)是LBSM数据的典型代表之一。这类数据通过获取用户的位置信息,可以分析不同时段社交媒体用户数量以及用户的空间位置变化情况。已有研究表明,TUD数据具有覆盖范围广、时空分辨率高的优势,是对人类活动测度的重要手段。TUD数据不仅具有更高的时空精度,更重要的是它能够反映人类白天和夜晚的活动情况,一定程度上弥补了夜间灯光仅能反映人类夜间活动的局限。然而,近年来利用社交媒体数据进行的相关研究主要集中在人口流动,人口空间化等方面,对于经济方面的探索较为缺乏。因此,本研究拟回答以下问题:(1)社交媒体数据是否与夜间灯光数据一样,也适用于经济估算?(2)对于中国不同空间尺度的经济估算,社交媒体数据和夜间灯光数据哪种数据的建模能力更好?(3)与夜间灯光数据对比,社交媒体数据是否存在某些方面的优势?又有哪些不足?
本研究基于2019年节假日和非节假日TUD样本数据,模拟得到2019年年度TUD数据,并对比年度TUD和年度NPP/VIIRS-NTL数据在中国省、市、县三个空间尺度上经济建模方面的能力。
图1 研究的图形摘要
数据介绍
社交媒体腾讯用户密度 TUD(Tencent User Density)数据集来源于腾讯位置服务平台,由包括腾讯QQ、微信、腾讯地图和等应用的用户位置信息所产生。截至2020年底,腾讯位置服务平台日均定位请求超过1100亿,覆盖用户超过10亿。本研究首先将获取所得的TUD数据分为两组,包括节假日TUD(劳动节假期:2019年5月1日至5月4日)和工作日TUD(2019年4月28日至5月10日,排除劳动节假期数据)。然后将这两组TUD数据作为样本,利用加权求和法来模拟得到2019年年度TUD数据。具体的计算公式和更详细的数据介绍请参考全文。
图2 模拟所得 2019年年度腾讯用户密度数据(TUD)的空间分布图
本研究使用的NPP/VIIRS数据来自美国国家海洋和大气管理局(NOAA)。NPP/VIIRS数据共有22个光谱波段,本研究采用了2019年12个月DNB月平均辐射度图像合成2019年的年度夜间灯光数据。由于NOAA发布的原始NPP/VIIRS灯光数据未去除与火灾、气体耀斑、火山或极光相关的光探测,存在着许多噪声、负值、极高值等不稳定的光源,因此本研究对数据进行了重采样、负值消除、噪声处理和极高值去除等处理。处理后的灯光数据在经济估算能力上明显优于处理前的灯光数据,证明了本研究对灯光数据处理的有效性。
图3 处理后的2019年年度夜间灯光数据(NTL)空间分布图
结果分析
研究结果显示,NPP/VIIRS-NTL和LBSM-TUD数据与GDP数据在不同尺度上存在显著的线性正相关关系。但它们之间的相关性随着空间尺度的减小而减小。同时由图4可以看出,在省级尺度上NPP/VIIRS-NTL数据的GDP估算能力较好,而LBSM-TUD数据在县级尺度上的GDP估算能力更突出。
图4 夜间灯光数据(NTL)和腾讯用户密度数据(TUD)与国内生产总值数据(GDP)在不同空间尺度的散点图:(a) 省级尺度NTL与GDP数据;(b) 市级尺度NTL数据与GDP数据;(c)县级尺度NTL与GDP数据;(d) 省级尺度TUD与GDP数据;(e) 市级尺度TUD与GDP数据;(f)县级尺度TUD与GDP数据
通过将各模型的相对误差可视化到空间上发现(图5),GDP估算的准确性存在显著的空间差异,这侧面反映出NPP/VIIRS-NTL数据以及LBSM-TUD数据与GDP数据的关系存在空间异质性。此外,由图5还能看出,西北地区作为我国经济欠发达地区,在各尺度上NTL的GDP估算相对误差都远高于TUD。这反映出LBSM-TUD数据在经济欠发达地区具有更高的经济估算潜力。
图5 夜间灯光数据(NTL)与腾讯用户密度数据(TUD)在不同尺度预测GDP的相对误差空间分布图:(a)省级尺度NTL预测GDP的相对误差;(b)市级尺度NTL预测GDP的相对误差;(c)县级NTL预测GDP的相对误差;(d)省级尺度TUD预测GDP的相对误差;(e)省级尺度TUD预测GDP的相对误差;(f)县级尺度TUD预测GDP的相对误差
由图6可以看出,LBSM-TUD数据在县级尺度上估算GDP的能力确实优于NPP/VIIRS-NTL数据,其R2大于0.8的区域覆盖面更广更宽。此外,对比图6(a)和图6(b)可以发现,LBSM-TUD数据不仅在西北、西南等欠发达地区比NPP/VIIRS-NTL数据拟合效果更好,在华北、华南等较发达地区也比NPP/VIIRS-NTL数据拟合效果更好。这说明在中国经济欠发达地区以及经济较发达地区,LBSM-TUD数据比NPP/VIIRS-NTL数据都具有更高的经济估算潜力。
图6 夜间灯光数据(NTL)以及腾讯用户密度数据(TUD)与国内生产总值(GDP)数据进行GWR模型计算结果:(a) NTL数据与GDP数据的局部R2;(b) TUD数据和GDP数据的局部R2
为了进一步证明LBSM-TUD数据在中国经济欠发达地区和经济较发达地区具有更高的经济估算能力,本研究基于中国七大地理分区,进一步比较了TUD和NTL在不同地理区域的GDP估算能力。图7展示了NPP/VIIRS-NTL数据和LBSM-TUD数据在不同地区GWR模型结果的R²和标准误差(SE)。可以看出,在经济较落后的西北和西南地区,以及经济较发达的华北和华南地区,TUD数据的R²明显高于NTL数据,而标准误差同时远低于NTL。这些结果进一步证实了LBSM-TUD数据在中国经济欠发达地区和经济较发达地区内具有GDP估算的优势。其他有趣发现详见全文。
图7 中国七大地理分区GWR模型结果统计图
结论与讨论
1.社交媒体数据的优势性
本研究通过对比不同尺度下LBSM-TUD数据与NPP/VIIRS-NTL数据在中国GDP估算能力,发现TUD在县级尺度具有更高的经济估算潜力,同时在经济欠发达地区和经济较发达地区,TUD的经济估算能力也明显优于NTL数据,其原因可能如下:
(1)在中国经济欠发达地区通常地形较为复杂,受建筑物或高山的阻碍,这些地区NPP/VIIRS数据采集的错误概率会增高,导致NTL遥感数据的质量较差,估算GDP的能力相对较弱。TUD数据的采集机制与NTL数据有所不同,其采用的是GNSS高精度定位技术来获取用户位置信息,目前定位精度已高达99.3%。图8分别展示了我国西北和西南地区TUD数据和NTL数据分布情况,这两个地区都是典型的经济欠发达地区,具有地形复杂,人口稀少的特点。对比两种数据的分布情况可以看出,LBSM-TUD数据的采集效果明显优于NPP/VIIRS-NTL数据。因此,TUD数据对欠发达地区的GDP估算具有较强的能力。
图8 经济欠发达地区的腾讯用户密度数据(TUD)和夜间灯光数据(NTL)空间分布图:(a)新疆阿勒泰市阿勒泰地区TUD数据分布;(b)新疆省阿勒泰市阿勒泰地区NTL数据分布;(c)云南楚雄市双白县TUD数据分布;(d)云南楚雄市双白县NTL数据分布
(2)在许多经济较发达的大城市,受房价、城市空间结构等因素的影响,往往导致人们工作和居住空间的分离(职住分离现象)。对于此类城市,能够反映昼夜活动的LBSM-TUD比仅仅反映夜间活动的NPP/VIIRS-NTL数据更有利于估算县区尺度的GDP。以中国典型的大城市广州为例,如图9可以发现NTL数据(图9b)在郊区的分布比TUD数据(图9a)更广泛,尤其是在绿色矩形区域内。这主要是因为许多居民白天在中心城区工作,因此TUD数据在中心城区更加集中。晚上下班后,许多居民返回居住地所在的郊区,从而导致NTL数据的分布更加分散。由此可知,能反映昼夜活动的TUD数据在有职住分离现象的经济发达地区具有更强的GDP估算能力。
图9 广东省广州市非节假日腾讯用户密度数据(TUD)和夜间灯光数据(NTL)空间分布图:(a)广州市非节假日TUD数据分布;(b)广州市NTL数据分布
2.社交媒体数据的不足
虽然TUD数据在县级尺度体现了较强的GDP估算能力,但在省尺度和县尺度下其建模能力略低于NTL数据,主要原因可能如下:
(1)GDP是一个年度统计指标,而本研究使用的年度TUD数据是利用4月28日至5月10日的样本数据合成的,用以反映全年节假日和非节假日人类活动的分布情况。TUD数据小时间样本量问题会导致模拟年度TUD数据产生潜在偏差,这可能会影响其在年度经济评估中的有效性。
(2)人类活动的职住分离现象主要发生在县(区)之间,而在省和市尺度上,大多数人的工作和居住都在同一个省或城市。因此,LBSM-TUD数据在反映职住分离方面的优势并没有在省、市尺度上体现出来。
参考文献
Huang, Z W., Li, S. Y., Gao, F., Wang, F., Lin, J. Y., Tan, Z. L. 2021. Evaluating the Performance of LBSM Data to Estimate the Gross Domestic Product of China at Multiple Scales: A Comparison with NPP-VIIRS Nighttime Light Data. Journal of Cleaner Production, 328. 129558.
https://doi.org/10.1016/j.jclepro.2021.129558