用谷歌趋势预测失业率:年龄、性别和数字鸿沟

本文使用来自Google趋势的工作搜索查询的时间序列来预测西班牙的失业率。在这个框架内,我们根据谷歌趋势工具获得的预测结果,按年龄和性别研究了所谓的数字鸿沟的影响。就男性而言,我们的研究结果表明,数字鸿沟效应有利于最年轻的失业者。相反,对女性和总失业率的预测显然否定了这种影响。更有趣的是,事实证明,谷歌趋势查询对女性失业率的预测要比男性好得多,因为这个结果对各个年龄段都很有效。此外,从求职查询中识别出的良好预测指标的数量对女性来说也更高,这表明她们更有可能通过不同的查询来扩大求职范围。

随着21世纪互联网的兴起,世界发生了巨大的变化。尤其是,求职受到了强烈的影响,越来越多地受到网络资源的影响。事实上,这种求职方法已经成为在职和失业人员最常用的一种方法,因为它有望提高找到工作的机会,同时大大降低求职成本。例如,2009年,超过70%的美国年轻失业者在网上寻找工作(Khun and Mansour 2014)。在西班牙,最近一项针对失业人员的调查显示,98%的人使用互联网搜索和求职网站(Adecco 2016)。

与此同时,随着互联网的日益普及,数字革命为研究人员提供了大量的数据,可以利用这些数据对无数变量做出更准确的预测,包括失业数据。在过去的十年中,许多研究使用从互联网搜索中挖掘的数据来改进大多数常见模型所获得的预测。应用这种方法的先驱论文出现在医学领域,例如,Johnson等人(2004年),他们分析了互联网搜索流感症状与美国报告的病例数量之间的关系。在过去的十年里,这一观点产生了丰硕的文献,特别是许多论文专注于预测劳动力市场的演变。一些例子是Choi和Varian(2009, 2012)的研究;Pavlicek and Kristoufek (2015);Niesert等人(2020)和Caperna等人(2020)。与我们的论文更接近的其他论文将在下一节中讨论。

搜索引擎中的查询,在我们的例子中是Google Trends (GT),是免费且容易获得的。与通常使用的调查相比,它们还提供了更广泛、最新的数据,后者的发布会有一定的延迟。然而,从互联网搜索中挖掘的数据远不是灵丹妙药。在这方面,Cebrián和Domenech(2023)证明了与其测量精度相关的不可忽视的问题。同样,Naccarato等人(2018)指出,失业数据覆盖了已知的人口,具有估计和可靠的误差分布。相比之下,从GT下载的数据不是总体的概率样本,因此其误差分布是未知的。研究人员应该记住,它的代表性与消费模式和互联网普及率密切相关。从这个意义上说,只有互联网在全球完全普及,并且按年龄和性别划分的使用模式相同,从搜索引擎中挖掘的数据才会完全具有代表性。

关于这最后一点,许多研究已经解决了所谓的数字鸿沟问题,即不同年龄、种族、性别和社会经济地位对互联网接入和使用模式的吸收差异(例如,Novak和Hoffman 1998;Enoch and Soker 2006;Abbey and Hyde 2009;Hidalgo et al. 2020)。读者可参考van Dijk(2020)对这一主题的完整和最新调查。特别是,Gómez(2019)展示了西班牙网络访问和使用方面的不对称性。正如预期的那样,教育水平越高,经济状况越好,尽管这些差距在过去十年中已经大大缩小(另见Ca?ón Rodríguez等人,2016),但使用率越高。为了监测这一情况,西班牙国家统计局发布了一份按年龄、教育水平和性别分组的数字差距报告(见ine2020)。

从这个意义上说,我们的论文利用了2004年至2018年的GT时间序列数据,收集了170多个与搜索相关的项目,来预测失业数据。西班牙官方失业率数据按年龄组和性别分类,用于得出超前一步的样本外预测。这种分类使我们不仅可以研究数字鸿沟对年龄群体的影响,还可以研究性别,以及它与前一个年龄群体的相互作用。尽管关于GT预测能力的文献很多,但据我们所知,这是前所未有的。

本文组织如下。第2节对使用GT作为预测因子的文献进行了修订,重点关注失业申请和数字鸿沟。第3节详细介绍了分析中使用的数据,特别关注GT查询以及如何生成这些查询。基准模型和建议的替代方案在第4节中提出。第5节比较了拟议模型的预测结果与所有性别和年龄组组合的基准的比较。本文以讨论和结束语结束。

可利用的(准)实时全球变暖数据支持临近预报模型,该模型提供比传统指标更准确的估计。许多作者通过美国、德国、罗马尼亚、英国、西班牙、法国、意大利或加拿大等国的失业数据和其他与劳动力市场相关的变量证明了这一点。

以美国为例,Choi和Varian(2009、2012)以及Nagao等人(2019)证明,在预测失业率时,引入互联网搜索次数的指标可以改善传统模型的结果。D 'Amuri和Marcucci(2009)提供了类似的结果,在这种情况下,通过应用由GT搜索生成的索引。后来,相同的作者重新审视了他们之前工作的理论,在联邦层面分解了GT搜索,并将2008年大衰退的影响纳入D 'Amuri和Marcucci(2017)。最近,Borup和sch 特(2023)分析了使用大量gt查询变量时对预测的影响。他们得出结论,GT变量似乎并不比经典的宏观经济和金融序列更能预测失业率。但是,如果将多个GT序列组合在一起,最好采用非线性程序,则可以提高预测能力,大大超过上述经典指标。

对于德国,Askitas和Zimmermann(2009)使用三组关键字(失业机构、失业率、员工顾问)和一组由布尔运算符“OR”链接的查询(从职位空缺网站Monster和Jobboerse捕获)来计算失业预测的改进。

Simionescu(2020)在区域层面上研究了GT搜索的影响。本文的主要贡献是分析这种方法的结果,当预测失业率在罗马尼亚县,这是异质的经济和社会发展方面。在随后的一篇论文中,Simionescu等人(2020)也使用GT预测器估计了英国脱欧对失业的影响。

关于西班牙,最近出现了一些研究。Vicente et al.(2015)以及González-Fernández和González-Velasco(2018)在分别使用两个和一个GT搜索项预测西班牙失业率时,比使用不包含此信息的单变量和多变量模型获得更好的预测准确性。同样,Mulero和Garcia-Hiernaux(2021)发现,在使用大量gt查询搜索和降维技术预测月度失业率时,精度得到了显著提高。最后,Simionescu和Cifuentes-Faura(2023)也证明了GT数据预测西班牙和葡萄牙失业(在地区层面)的能力,在这种情况下,通过动态面板数据模型。

如前所述,D 'Amuri(2009)运用同样的想法来击败美国官方的失业率预测。有趣的是,这位作者是第一个关注潜在的选择偏见的人,他发现了有利于年轻人的数字鸿沟效应,认为他们是互联网最大的消费者。与使用GT预测器处理失业预测收益的大量论文相比,只有少数论文关注与数字鸿沟相关的这种选择偏差。其中一些是Fondeur和karam (2013)和Naccarato等人(2018),他们分别分析了法国和意大利的失业情况。前者研究了GT变量在预测15-24岁、25-49岁和50岁以上三个年龄段的法国失业率时的预测能力,仅在最年轻的人群中发现了具有统计学意义的结果。后者在选择偏差论证的支持下,只关注青年失业的预测能力。此外,Dilmaghani(2018, 2019)还研究了数字鸿沟对这种方法的影响。她的第一部作品分析了引入GT搜索来预测美国16至24岁青年失业率时的预测改进,区分了白人,西班牙裔或非裔美国人以及男性或女性。她的第二篇论文显示,对加拿大25岁至44岁年龄段失业率的预测有所改善。

本节介绍分析中用到的数据。我们首先描述(按性别和年龄)分类的失业序列。其次,我们详细介绍了GT查询,这些查询将被用作预测器,用于改进对失业数据的预测。

本研究分析了西班牙公共就业服务(SEPE)提供的未调整和分类失业系列。每个观察结果在下个月的第一周公布,并报告宣布在公共就业办公室找工作的人数(按年龄组和性别)。图1显示了失业数据的可用性,以及为什么(准)实时预测器作为GT变量可以改进其预测。

图1
figure 1

西班牙每月失业数据可用性

我们的样本涵盖了从2004年1月到2018年9月的这段时间,总共进行了177次月度观察,包括商业周期扩张和衰退。数据按年龄和性别分组,如图2所示。下面的论据支持这种分解。

25岁以下。这是文献中最常用的年龄范围。我们将使用这些系列(女性,男性和总失业)来对比D 'Amuri(2009)和Fondeur和karam (2013)先前报道的潜在选择偏差。

年龄在25到45岁之间。这些系列包含了西班牙大部分的劳动年龄人口。他们将被用来与年轻人的结果进行比较。

45岁以上的。这一群体的特点是互联网使用率较低,因此,在添加GT查询时,我们预计男女的失业率预测最低(如果有的话)。

最后,为了更好地研究不同年龄群体的影响,并使其与大多数文献具有可比性,我们建立了两个额外的群体:25岁以上和45岁以下。最后,我们得到了6个年龄组(3个不重叠,3个重叠)和3个样本(女性、男性和失业总数)。这相当于18个内生变量。这种分类将使我们能够研究整体的性别效应,并对潜在的数字鸿沟效应进行性别和年龄的比较。图3描述了上面介绍的所有系列。

图2
figure 2

失业序列作为内生变量的描述。这些数字与年龄相对应

图3
figure 3

按性别和年龄组分列的失业情况系列。阴影区域对应于验证期

我们使用Google数据,因为在该浏览器中引入的查询是对互联网上所有搜索的可靠估计。我们从一个名为Google Trends (GT)的工具下载数据。GT是一个搜索趋势功能,它显示给定搜索词在谷歌搜索引擎中输入的频率,相对于该网站在给定时间段内的总搜索量。该索引可以从2004年1月1日开始收集,直到搜索前36小时为止。

谷歌在其趋势中进行了一些数据清理。例如,在短时间内从同一台机器上重复执行的搜索将被删除并只计算一次。有关GT及其索引如何创建的更多详细信息,请参阅Mulero和Garcia-Hiernaux(2021)。正如Blazquez和Domenech(2018)所指出的那样,由于收集了大量的信息,GT已经成为与大规模数据相关的研究的有用工具。

然而,GT提供的信息在应用于潜在的预测时具有明显的局限性。Dilmaghani(2019)列出了四个问题。首先,搜索引擎的数据源不是总体的概率样本(见Naccarato et al. 2018)。由于这些数据反映了使用互联网的部分人口,它可能会受到选择偏差的影响(例如,求职查询可能是由来自大城市中心的年轻人驱动的)。其次,GT没有区分那些在失业时寻找工作机会的人,和那些只是考虑换工作的人。这种差异可能是至关重要的,因为失业者的工作查询通常显示出反周期行为,但雇员的搜索通常被认为是顺周期的。第三,GT没有提供用户的社会人口特征信息。第四,采用抽样方法计算GT指数。因此,如果加入一些新的观测值,GT序列可能会发生变化,这可能会在估计中产生一些偏差(见Vicente et al. 2015;Cebrián和Domenech 2023)。

除了上述缺点之外,关键字选择或数据处理不当可能会导致不准确。本文中应用的程序摘要遵循以下几行,可能对研究GT的研究人员有用。我们在2004年1月至2018年9月期间对170多个职位查询词进行了搜索。我们根据它们所代表的内容将搜索词分成四组。具体来说,第1组包括一系列与领先的求职应用相关的查询,例如Infojobs、Indeed、Monster;第二组由与西班牙失业中心相关的搜索组成,无论是在线的,实体的,公共的还是私人的,例如,就业办公室,SEPE,任仕达;第3组包含与标准求职词相关的查询,例如:职位提供、如何找工作、职位空缺;最后,第4组包含与在西班牙创造最多就业机会的公司相关的搜索,例如,在Inditex工作,Orange工作,Santander工作。此外,我们还结合了“相关搜索”GT工具提供的信息,该工具允许我们捕获与上述术语相关的其他查询。作为说明,图4显示了四个选定查询的GT索引。请注意,这些指数的时间演变与失业率系列相似,但它们之间的相关性可能有所不同。

图4
figure 4

GT索引查询linkedIn, Indeed, SEPE和Virtual job office。从所使用的163个查询中进行选择


摘要
1 介绍
2 文献综述
3.数据
4 模型
5 主要发现
6 讨论与合作 ncluding讲话
数据可用性
代码的可用性
笔记
参考文献

作者信息
道德声明



搜索
导航

#####

本节介绍本文中应用的模型。首先,我们介绍了单变量模型,该模型将为每个失业系列产生基准预测,这些系列由年龄和性别定义。其次,我们描述了包含GT查询信息的替代模型,这将潜在地改进基准预测。

我们选择ARIMA表示(Box and Jenkins 1976)来获得我们的基准模型。这里考虑的一般单变量月时间序列表示为:

(1)

式中,分别为B中p、q次多项式,和分别为p、q次多项式,12为季节频率。另外,B为滞后算子,因此,B为差分算子,B为常数,B为均值为零、方差为常数的不相关高斯变量序列。由于它在时间序列中是共同的,我们假设B和中的多项式的所有零都在单位圆之外(平稳性和可逆性要求)并且没有公因子。模型(1)有时被称为随机过程的季节性自回归综合移动平均(SARIMA)形式。实际上,应为每个失业随机过程写,其中i表示对应的性别年龄组;见图2。但是,为了简单起见,我们避免在Eq.(1)的所有元素中使用子指标i。

为了为每个内生变量确定合适的单变量模型,我们采用Garcia-Hiernaux等人(2023)提出的方法。从本质上讲,该过程首先检测在零频率和季节频率处的单位根的数量,并提出相应的转换,诱导平稳性;在我们的例子中。接下来,通过估计一系列模型,选择自回归和移动平均订单,首先是常规部分,然后是季节性部分。在删减了一些不重要的参数后,我们得到了如Eq.(2)所示的模型。在所有情况下,我们都添加了一个步长虚拟变量来捕捉2008年全球金融危机的影响,这场危机几乎没有触及西班牙的失业率水平。由该离群值修正后的序列用。最终模型的残差用NID算法进行测试(参见Garcia-Hiernaux et al. 2012),结果显示没有自相关的证据。

这一识别过程产生了两个非常相似的模型:第一,针对25至45岁、25岁以上和全部失业男性的SARIMA;总失业人数介乎25至45岁;45岁以下的失业妇女,其次是剩余系列的SARIMA模型。由于图3中所描述的系列彼此之间差异不大,因此期望类似的SARIMA结构。然而,各模型之间参数的估计值有很大的差异。最终的基本模型由Eq.(2)表示,其残差没有任何不规范的迹象,并且与脚注2中的统计假设相兼容:

(2)

其中为对应的失业级数。如上所述,25到45岁之间的男性,25岁以上的男性,所有男性,45岁以下的女性,总和在25到45岁之间。我们将在第5节的预测练习中使用这些模型作为基准。脚注3

作为替代模型,我们采用简单的思想,包括额外的解释变量,并保持残差的ARMA噪声结构,只要统计诊断不显示任何错误的迹象。因此,这些模型由以下传递函数表示:

(3a) (3b)

其中,每个指标将从从GT中挖掘的所有系列中选择。

现在,我们简要解释Mulero和Garcia-Hiernaux(2021)提出的选择特征方法,以选择Eq. (3a)中使用的指标。该过程包括一个相对简单的基于aic的前向逐步特征选择。让我们从一组174个查询开始。在第一步中,我们仅使用(3a)中没有滞后的一个潜在解释变量来估计列车样本的模型(3a - 3b),将结构保持在噪声Eq. (3b)中。我们对初始集合中的每个GT变量重复此步骤,这意味着为每个指标估计一个模型。一旦评估循环完成,我们根据所使用的最低信息标准对模型进行排序。为此,作者建议使用AIC。根据AIC,这允许我们从所有估计中获得最佳样本内模型。其次,我们根据所选模型的估计计算评估样本(这里是2016/01-2018/09)中的一步超前样本外预测。然后根据先前的预测计算均方根误差(RMSE)。我们重复这个过程,在之前的模型中添加一个新的指标,只要RMSE低于用基准得到的RMSE。为此,我们重新运行模型选择循环并选择其模型最小化AIC的下一个预测器。当包含一个额外的指标(其估计的模型产生最低的信息标准)并没有改进RMSE基准模型时,该过程停止。然后RMSE仅用于使算法停止,即确定Eq. (3a)中的J。

我们运行上面详细的程序来为所有性别和年龄组的组合找到替代模型。我们在已有的文献中选择了这种方法,主要有两个原因:(1)它计算简单,速度足够快,可以应用于大量的模型和指标:我们使用了18个内生变量和170多个潜在的预测因子;(2)它已被证明能够找到良好的预测因子和显著的预测收益。在Mulero和Garcia-Hiernaux(2021)中可以找到针对接近替代方案的更详细的讨论。

因此,替代模型(其预测将与基准进行比较)用等式表示。(3a-3b),其中with表示图2中每个内生变量(with)通过特征选择方法选择的预测因子。

本节分析了在33个期的样本外验证中应用以前的模型预测西班牙按性别和年龄组的失业率的结果。然而,本节的目的不仅仅是使用internet挖掘的数据来预测失业率。相反,主要目的是研究在预测失业时,纳入GT预测因子是否揭示了有关潜在年龄和/或性别数字鸿沟的信息。因此,比较了eq的预测性能。(2)和(3a-3b),其中包括所有年龄组和性别组合的GT数据。对于这种比较,计算相对于相应基准模型的RMSE和相对RMSE。所有的预测模型都是充分收敛的,没有显示出不良规范的证据。

由于样本外大小相对较小,rmse可能存在不可忽略的不确定性。为了将这种不确定性纳入我们对预测能力的评估,预测比较包括Diebold和Mariano(1995)检验及其p值。这个检验的零假设是两个预测(来自基准模型和替代模型)同样准确。因此,较小的p值证明替代模型比具有特定显著性水平的基准预测更好。

我们首先将重点放在不同年龄组的比较上,没有性别分类,在表格和数字中用All表示。首先,图5(顶部)显示了不同年龄组的模型(3a-3b)相对于基准的rmse。请注意,就最低均方根误差而言,最好的预测通常是使用几个GT变量得出的。表1中J的(低)值也揭示了这一点,并且似乎在性别和年龄组之间是一致的。其次,图5(上)和表1都没有显示Naccarato等人(2018)和Fondeur和karam (2013)分别在意大利和法国发现的青年偏差的证据,因为使用GT搜索作为预测因子,所有年龄组都表现出统计学上显著的好处(约10%或更少)。第三,与文献相反,当包括互联网搜索时,最低的预测收益是在最年轻的年龄组中发现的,这显然拒绝了总失业人口(男性加女性)的年龄数字鸿沟效应。

图5
figure 5

备选模型的预测精度。年龄和性别的相对均方根误差比较

表1最佳替代模型及其对应的rmse按年龄划分的基准点(全部)

然而,当这些年龄组按性别分类时,结果显示出一幅完全不同的画面。首先,有利于最年轻群体的数字鸿沟效应现在在男性中明显可见,因为年龄在25岁以下和45岁以下的群体是预测改善程度较高的群体;见图5(中)。表2证实了这一点,其中RMSE的增益仅在这两组中有10%的统计显著性。事实上,由于25 - 45岁年龄组的改善并不显著,人们可以得出结论,使用GT预测男性失业的好处只发生在25岁以下的人群中。相反,图5(下)显示,GT搜索系统地改进了基准模型对所有女性年龄组的预测。在查看表3时,我们观察到这些改进在5%的情况下确实具有统计学意义。事实上,将GT查询作为失业预测因子对女性的好处要比男性大得多。因此,我们可以得出这样的结论:总失业序列中发现的大部分收益来自女性一方。这一结果在文献中没有先例。

表2最佳替代模型及其对应的rmse年龄基准(男性)
表3最佳替代模型及其对应的rmse年龄基准(女性)

深入研究这一发现,表4和图6强调了不同年龄组的女性和男性在预测改进方面的差异,就每个基准的RMSE而言。在所有年龄组中,女性的增长明显更大。这种差异似乎与最年轻的群体(1.8个百分点)不太相关,但对其他群体来说是显著的(从18到31个百分点不等,根据年龄组,女性的收益较高;此外,该结果与用于构建预测的预测因子的数量无关。图6显示,无论年龄组或预测因子的数量如何,女性的相对RMSE始终低于男性。

图6
figure 6

备选模型的预测精度。按年龄组划分的男性、女性和总失业率的相对均方根误差比较

表4相对于其对应的RMSE女性、男性和不同年龄组的差异

除了这些主要发现之外,分析提供这些结果的查询也很有趣。因此,我们现在根据性别和年龄组讨论哪些是最好的GT查询的预测能力。我们将重点关注每个模型的两个特定的GT查询:(1)由特征选择算法选择的第一个预测器,如第4.2节所述,以及(2)在RMSE降低方面产生最高预测增益的预测器。表5提供了按年龄组分列的男子、妇女和总失业人数的资料。在研究男性失业率时,发现的最佳GT预测指标没有太大的可变性:就所有年龄组的均方根误差减少而言,linkedIn或Orange的职位空缺要么是算法选择的第一个特征,要么是最佳特征。当预测的改善在统计上是显著的(25岁以下或45岁以下的男性)时,唯一相关的GT查询是linkedIn,这证明了这个社交媒体网站在找工作时的重要性,尤其是对男性来说。这在图5(中)中也很明显,在大多数相对均方根误差中,男性只有一个递降。

表5按性别和年龄组划分的最佳GT预测因子

有趣的是,当考虑到女性失业率时,情况就大不相同了,最佳预测指标的可变性更高。表5显示了术语的多样性(例如,简历、职位空缺、虚拟就业办公室、工作机会等),表明女性更有可能将求职范围扩大到与网站、公司和公共机构相关的不同查询。因此,图5(下图)显示了女性相对均方根误差的几次下降。相反,前面的查询词似乎都没有提供足够的信息来预测男性失业。linkedIn仍然是一个很好的预测某些年龄段女性失业的指标,这解释了当考虑到总失业样本时,它仍然是大多数年龄段的最佳预测指标。

最后,为了建立这些发现的普遍性,未来的研究应该分析本文报告的结果是否对计算预测的商业周期阶段具有鲁棒性。这似乎并不明显,因为除了年轻人(见图3),女性和男性的失业系列在经济复苏期间显示出更多的差异(而在经济衰退期间则较少)。这可以部分解释在25岁以下失业者中发现的GT查询的性别影响较低。不幸的是,由于样本限制,我们的预测工作仅涵盖失业复苏阶段(图3中的阴影区域)。

本文研究了在预测西班牙失业率时,从互联网上以GT查询的时间序列形式收集的数据是否揭示了数字鸿沟对年龄和/或性别影响的一些信息。为了分析这一事实,我们按年龄和性别对失业序列进行了分解,并使用了170多个GT序列作为潜在的预测因子。

一些论文强调,即使在发达经济体,互联网接入也尚未普及,因此,与其他指标相比,这种按年龄、性别或种族划分的数字鸿沟在使用从GT中挖掘的数据时产生了选择偏差。D 'Amuri(2009)、Fondeur和karam (2013)以及Naccarato等人(2018)发现数字鸿沟效应有利于最年轻的失业者(超过其他年龄段),而Dilmaghani(2018)发现数字鸿沟效应有利于白人(超过西班牙裔和非洲裔美国人),(白人)男性优于(白人)女性。后一项研究只关注25岁以下的失业者。

令人惊讶的是,我们的研究只发现了年龄数字鸿沟对男性失业的影响。就RMSE而言,最年轻失业者的收益为14.5%,与Fondeur和karam (2013)的9-16%,D 'Amuri(2009)的15%,Vicente等人(2015)的15%以及France和Shi(2018)的10-19%的范围相似。

相反,对女性和总失业率的调查结果表明,没有证据表明存在任何年龄数字鸿沟效应。此外,对于每个年龄段的人来说,GT查询在预测女性失业方面的表现都比男性好得多。据我们所知,这些结果在文献中是前所未有的。当我们将这些发现与西班牙国家统计局(INE 2019)提供的数据进行对比时,我们观察到,只有在2015年,45岁以上的人的年龄数字差距才显著(相对于最年轻的人,年龄差距为29%)。2018年,这一差距降至13%。在同一项调查中,按性别划分的数字差距从2015年到2018年在所有工作年龄群体中都已缩小,甚至对大多数工作年龄群体来说都略有缩小(有利于女性)。这可以部分解释我们的结果。然而,我们认为GT变量与失业序列之间的关系过于复杂,无法仅通过年龄或性别的数字鸿沟效应来解释。许多其他因素在这里起作用,特别是当数字鸿沟的测量,作为通常互联网使用条款的差异,很小的时候。例如,女性比男性更多地查找搜索引擎(gargalo - castel等人,2010),教育水平越高,互联网使用越高(Gómez 2019),以及劳动力市场的国家特定结构可能是重要的额外变量,以解释本文获得的结果。事实上,van Dijk(2020)提出了造成数字鸿沟的三个主要因素:个人类别(如年龄、性别、种族等)、位置类别(如劳动、教育、家庭等)和资源。从这个意义上说,只能从这个练习中得出关于第一个因素的结论。

综上所述,本研究对文献的贡献是双重的:(1)本文首次提供证据表明,网络搜索预测因子对女性失业预测的改善程度远高于男性。这一结果适用于不同年龄组。此外,与此同时,失业女性似乎比男性使用了更多样化的预测指标;(2)与文献相反,通过对总失业序列的GT搜索获得的预测能力增益并未证明年龄数字鸿沟效应。然而,当按性别分类时,这种效应在男性中被观察到,但在女性中明显被拒绝。

最后,未来的研究应该分析本文报告的结果如何依赖于验证样本所经历的商业周期阶段。



下载原文档:https://link.springer.com/content/pdf/10.1007/s00181-022-02347-w.pdf

相关推荐