计量经济学导论08:平稳时间序列

【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

目录

平稳时间序列

平稳时间序列

在时间序列分析中,平稳时间序列是一类重要的特殊的随机序列。时间序列分析的基本用途是根据过去的信息预测未来,而平稳时间序列的历史记录 \(X_1,X_2,\cdots,X_n\) 中往往含有 \(X_{n+1}\) 的信息,这就使得利用历史样本预测将来成为可能。

首先介绍一下平稳时间序列的概念,分为两种:宽平稳序列和严平稳序列。

严平稳过程

对于时间序列 \(\{ X_t: t=1,2,\cdots\}\) ,如果对于每一个时间指标集 \(1\leq t_1\leq t_2\leq...\leq t_m\) 和任意的正整数 \(h\),满足 \(\{X_{t_1},X_{t_2},\cdots,X_{t_m}\}\) 的联合概率分布与 $ {X_{t_1+h},X_{t_2+h},\cdots,X_{t_m+h}}$ 的联合概率分布相同,则称 \(X_t\) 是严平稳的。

宽平稳过程

对于时间序列 \(\{ X_t: t=1,2,\cdots\}\) ,如果其均值和方差不随着时间而变化,协方差只依赖于两个观测值之间的距离 \(k\) ,而与所处的时间点 \(t\) 的位置无关,则称 \(X_t\) 是宽平稳的。

  • \({\rm E}(X_t)=\mu\)
  • \({\rm Var}(X_t)=\sigma^2\)
  • \({\rm Cov}(X_t,\,X_{t+k})=\gamma_k\)

我们通常所说时间序列的平稳性是指宽平稳性。

伪回归现象

采用平稳时间序列建立计量经济学模型的其中一个优点在于可以有效地避免伪回归现象。Granger 曾通过模拟试验发现,完全无关的非平稳时间序列之间可以得到拟合很好但毫无道理的回归结果。这说明非平稳时间序列由于具有共同的变化趋势,即使它们之间在经济行为上并不存在因果关系,但也能够显示较强的统计上的因果关系。

这就是伪回归现象,例如下面的两个模型:

\[Y_t=Y_{t-1}+u_{t} \ , \ \ \ \ u_t \sim N(0,\sigma^2) \ , \]

\[X_t=X_{t-1}+v_t \ , \ \ \ \ v_t \sim N(0,\sigma^2) \ , \]

显然 \(Y_t\)\(X_t\) 无关,但由于这两个时间序列由同分布的正态白噪声生成,如果做 \(Y_t\)\(X_t\) 的简单回归,结果的 \(t\) 检验会十分显著。

我们需要注意的是,并不是平稳时间序列之间不会出现伪回归现象,只是非平稳时间序列之间出现伪回归的可能性更大,因此对时间序列进行平稳性检验可以有效地减少伪回归现象。当然,杜绝伪回归的根本方法是正确的设定模型。

白噪声序列

白噪声是用来描述简单随机干扰的平稳序列,是最简单的平稳序列。定义如下:

\(\{\varepsilon_t\}\) 是一个平稳序列,如果对任何 \(s,\,t\in\mathbb{N}\)

\[{\rm E}(\varepsilon_t)=\mu \ , \ \ \ \ {\rm Cov}(\varepsilon_t,\,\varepsilon_s)=\left\{ \begin{array}{ll} \sigma^2\ , & t=s\ ,\\ 0\ , & t\neq s\ , \end{array} \right. \]

就称 \(\{\varepsilon_t\}\) 是一个白噪声,记作 \({\rm WN}(\mu,\,\sigma^2)\)

一般地,我们研究的都是零均值白噪声情况,即

\[{\rm E}(\varepsilon_t)=0\ , \ \ \ \ {\rm Var}(\varepsilon_t)=\sigma^2\ , \ \ \ \ {\rm Cov}(\varepsilon_t,\,\varepsilon_{t+h})=0 \ . \]

此外,我们还会遇到独立白噪声和正态白噪声的情况:

  • 独立白噪声:\(\varepsilon_t\sim\ {\rm i.i.d.}\ \ {\rm WN}(0,\,\sigma^2)\)

  • 正态白噪声:\(\varepsilon_t \sim N(0,\sigma^2)\)

其中正态白噪声一定满足独立同分布性质。

随机游走过程

随机游走是一种常见的非平稳时间序列,主要包括无漂移项的随机游走和加漂移项的随机游走。

随机游走

\[y_t = y_{t-1} + \varepsilon_t \ , \]

其中, \(\varepsilon_t\) 是均值为 \(0\) 和方差为 \(\sigma^2\) 的白噪声,\(\varepsilon_t\sim {\rm WN}(0,\sigma^2)\)

随机游走也被称为自相关系数为 \(1\)\({\rm AR}(1)\) 过程,通常被作为股票价格的一个统计学模拟,用来检验股票市场是否有效率。

我们可以把随机游走写成移动平均的表达式。设 \(y_t\) 的初值为常数 \(y_0\) 且独立于 \(\varepsilon_t,\,t\geq1\),则有

\[y_t=y_0+\varepsilon_1+\varepsilon_2+\cdots+\varepsilon_t \ , \]

实际应用的时候常假定为 \(y_0=0\) 。通过计算其均值和方差:

\[{\rm E}(y_t)={\rm E}(y_{t-1})={\rm E}(y_0+\varepsilon_1+\varepsilon_2+\cdots+\varepsilon_t)=y_0 \ , \]

\[{\rm Var}(y_t)={\rm Var}(y_0+\varepsilon_1+\varepsilon_2+\cdots+\varepsilon_t)=t\sigma^2 \ , \]

其方差与 \(t\) 有关,因此随机游走是非平稳的。

加漂移的随机游走

\[y_t=\delta+y_{t-1}+\varepsilon_t \ . \]

其中 \(\delta\) 为随机游走的漂移项,可以代表价格的时间趋势。这是因为如果我们代入 \(y_t\) 的初值 \(y_0\) ,通过迭代即可写成价格序列的构成:

\[y_t=\delta t+y_0+\sum_{i=1}^t\varepsilon_i \ , \]

在这样的模型设定下,其经济意义为:正(负)的 \(\delta\) ,表示价格序列最终走向正(负)无穷。

自相关函数 ACF

对于平稳时间序列,我们可以用自相关函数来刻画其平稳性。首先定义总体自相关函数

\[\rho_k=\frac{{\rm Cov}(y_t,\,y_{t+k})}{{\rm Var}(y_t)}=\frac{\gamma_k}{\gamma_0} \ , \]

大数据开发-Spark Join原理详解

自相关函数只有对于平稳序列才有意义,它表明一个过程记忆长度以及强度。根据上述定义可以看到 \(\rho_k\) 是关于滞后期 \(k\) 的递减函数,满足 \(\rho_0=1\)\(\rho_k=\rho_{-k}\)\(-1\leq \rho_k \leq 1\) ,并趋近于 \(0\)

但实际上,对于一个时间序列只能有一个样本实现,因此我们只能计算样本自相关函数

\[r_k=\frac{\displaystyle\sum_{t=1}^{n-k}(y_t-\overline{y})(y_{t+k}-\overline{y})}{\displaystyle\sum_{t=1}^n(y_t-\overline{y})^2} \ . \]

和总体自相关函数一样,随着 \(k\) 的增加,样本自相关函数 \(r_k\) 下降且趋近于 \(0\) ,但从下降速度来看,平稳序列比非平稳序列快得多。

关于自相关函数还有一个定理,这是我们之前提到的 Ljung-Box 检验的理论基础。

Bartlett 定理:如果时间序列由白噪声过程生成,则对所有的 \(k>0\) ,样本自相关函数近似地服从以 \(0\) 为均值,\(\displaystyle\frac{1}{n}\) 为方差的正态分布,其中 \(n\) 为样本数。

偏相关函数 PACF

对于平稳序列我们还有偏相关函数的概念,在这里我们只引入样本偏相关函数 PACF 的概念,总体偏相关函数需要引入专业课《时间序列分析》中的知识才可以讨论。

\(y_t\) 对连续的 \(k\) 阶滞后项 \(y_{t-1},y_{t-2},...,y_{t-k}\) 进行回归:

\[y_t=\beta_0+\beta_1y_{t-1}+...+\beta_ky_{t-k}+\varepsilon_t \ , \]

定义 \(k\) 阶偏相关函数 \(p(k)=\hat\beta_k\) 。同样地,随着 \(k\) 的增加,偏相关函数下降且趋近于 \(0\) 。但我们需要注意的是,此时的 \(\hat\beta_1\neq p(1),\,\hat\beta_2\neq p(2),\cdots,\hat\beta_{k-1}\neq p(k-1)\)

事实上,计算 \(p(1)\) 的时候需要做 \(y_t\)\(y_{t-1}\) 回归并求出 \(y_{t-1}\) 的估计系数;计算 \(p(2)\) 的时候需要做 \(y_t\)\(y_{t-1},\,y_{t-2}\) 回归并求出 \(y_{t-2}\) 的估计系数;以此类推。

PACF 和 ACF 的联系:

  • ACF 衡量的是仅 \(y_t\)\(y_{t-k}\) 之间的相关性;
  • PACF 衡量的是排除了 \(y_{t-1},...,y_{t-k+1}\)\(y_t\) 的影响之后的 \(y_t\)\(y_{t-k}\) 之间的相关性。

平稳性的单位根检验

\({\rm AR}(1)\) 序列

为了引入平稳性的检验方法,我们首先介绍一阶自回归模型,即 \({\rm AR}(1)\) 模型。模型设定如下:

\[y_t=\phi y_{t-1}+u_t \ , \]

其中,\(u_t\sim{\rm WN}(0,\,\sigma^2)\) 。我们可以根据系数 \(\phi\)\(1\) 的关系判断时间序列 \(\{y_t\}\) 的平稳性。

\(|\phi|>1\) 时,该随机过程生成的时间序列是发散的,表现为持续上升或持续下降,因此是非平稳的。当 \(\phi=1\) 时,是一个随机游走过程,也是非平稳的。只有当 \(|\phi|<1\) 时,该随机过程才是平稳的。

Dickey-Fuller 检验

简记为 DF 检验,只能用于检验一阶自回归模型是否具有平稳性,并且要求随机误差项必须是白噪声序列。对如下 \({\rm AR}(1)\) 序列进行回归,

\[y_t=\phi \, y_{t-1}+\varepsilon_t \ , \]

如果 \(\phi=1\),则非平稳,此时称 \(y_t\) 有一个单位根;如果 \(|\phi|<1\),则平稳。

可以将模型写成差分形式:

\[\Delta \, y_t=(\phi-1)y_{t-1}+\varepsilon_t \triangleq \delta y_{t-1}+\varepsilon_t \ . \]

检验是否存在单位根,我们需要进行左侧单尾检验,即 \(H_0:\delta=0\longleftrightarrow H_1:\delta<0\)

若拒绝零假设,则 \(y_t\) 是平稳的,否则为非平稳的。

需要注意的是,在零假设(非平稳)情况下,即使在大样本下 \(t\) 统计量也是有偏误的(向下偏倚),通常的 \(t\) 检验无法使用。Dickey-Fuller 提出了这一情形下 \(t\) 统计量服从的分布,此时我们将这个统计量称为 \(\tau\) 统计量,服从的分布称为 DF 分布。

简单概括 DF 检验的步骤:通过 OLS 估计 \(\hat\delta\) ,计算 \(\tau\) 统计量的值,与 DF 分布表中给定显著性水平下的临界值比较。 \(\tau\) 统计量的计算公式如下所示:

\[\tau=\frac{\hat\delta}{{\rm se}(\hat\delta)} \ . \]

在左侧单尾检验中,如果 \(\tau\) 统计量小于临界值,则 \(\delta\) 足够小以致于拒绝原假设,认为时间序列 \(y_t\) 不存在单位根,即 \(y_t\) 为平稳序列。

Augmented Dickey-Fuller 检验

在实际的平稳性检验中,时间序列可能由更高阶的自回归过程生成,或是存在随机误差项并非是白噪声的情况,这样用 OLS 估计会表现出自相关问题,导致 DF 检验失效。另外,如果时间序列包含有明显的随时间变化的趋势项,则也容易导致随机误差项的自相关问题。因此,我们对 DF 检验进行了扩充,提出了 ADF 检验。

我们可以用 ADF 检验形如 \({\rm AR}(p+1)\) 过程的平稳性,通过下面三个模型完成:

\[\Delta \, y_t=\delta \, y_{t-1}+\sum_{i=1}^p\phi_i\Delta \,y_{t-i}+\varepsilon_t \ , \]

\[\Delta \, y_t=\alpha+\delta \, y_{t-1}+\sum_{i=1}^p\phi_i\Delta \,y_{t-i}+\varepsilon_t \ , \]

\[\Delta \, y_t=\alpha+\beta t+\delta \, y_{t-1}+\sum_{i=1}^p\phi_i\Delta \,y_{t-i}+\varepsilon_t \ . \]

检验的原假设仍然为存在单位根,即 \(H_0:\delta=0\longleftrightarrow H_1:\delta<0\)

实际检验时从模型3开始,然后模型2,最后是模型1。

当其中有一个模型的检验结果拒绝原假设时,即不存在单位根时,则停止检验,认为时间序列是平稳的。

当三个模型的检验结果都不能拒绝原假设时,则认为时间序列是非平稳的。

检验原理与 DF 检验相同,只是对模型 1、2、3 进行检验时,有各自相应的临界值。

\(\alpha\)\(\beta\) 仍为双侧检验,\(\delta\) 为单侧检验。

单整时间序列

随机游走序列经差分后等价地变形为

\[\Delta \, y_t=y_t-y_{t-1}=\varepsilon_t \ , \]

由于 \(\varepsilon_t\) 是一个白噪声,因此差分后的序列 \(\{\Delta \, y_t \}\) 是平稳的,称为一阶单整序列,记为 \({\rm I}(1)\)

如果一个时间序列经过 \(d\) 次差分后变成平稳时间序列,则称原序列为 \(d\) 阶单整序列,记为 \({\rm I}(d)\)

\({\rm I}(0)\) 为平稳时间序列。

无论经过多少次差分都不能变为平稳的,称为非单整的。

大多数非平稳的时间序列一般都可以通过一次或多次差分的形式变为平稳时间序列。

大数据去重(data deduplication)方案

相关推荐

发表评论

路人甲

网友评论(0)