第三节 Box—Jenkins方法:ARIMA模型
数据挖掘交友
一、ARIMA模型介绍
1.ARIMA模型结构 数据挖掘工具
如果要对比较复杂的纯粹时间序列进行细致的分析,指数平滑往往是无法满足要求的。 数据挖掘工具
而若想对有独立变量的时间序列进行预测,指数平滑更是无能为力。 数据挖掘交友
于是需要更加强有力的模型。这就是下面要介绍的Box-Jenkins ARIMA模型。
数学上,指数平滑仅仅是ARIMA模型的特例。
数据挖掘研究院
比指数平滑要有用和精细得多的模型是Box-Jenkins引入的ARIMA模型。或称为整合自回归移动平均模型(ARIMA 为Autoregressive Integrated Moving Average一些关键字母的缩写)。该模型的基础是自回归和移动平均模型或ARMA(Autoregressive and Moving Average) 模型。
它由两个特殊模型发展而成,一个特例是自回归模型或AR (Autoregressive) 模型。假定时间序列用X1, X2, …, Xt表示,则一个纯粹的AR (p)模型意味着变量的一个观测值由其以前的p个观测值的线性组合加上随机误差项at(该误差为独立无关的)而得:
数据挖掘交友
这看上去象自己对自己回归一样,所以称为自回归模型;它牵涉到过去p个观测值(相关的观测值间隔最多为p个)。
ARMA模型的另一个特例为移动平均模型或MA (Moving Average) 模型,一个纯粹的MA (q)模型意味着变量的一个观测值由目前的和先前的q个随机误差的线性的组合:
数据挖掘论坛
数据挖掘论坛
数据挖掘工具
显然ARMA(p,0)模型就是AR (p)模型,而ARMA(0,q)模型就是MA(q)模型。这个一般模型有p+q个参数要估计,看起来很繁琐,但利用计算机软件则是常规运算;并不复杂。 数据挖掘研究院
2.ARIMA模型的平稳性和可逆性
要想ARMA(p,q)模型有意义则要求时间序列满足平稳性(stationarity)和可逆性(invertibility)的条件,
数据挖掘工具
这意味着序列均值不随着时间增加或减少,序列的方差不随时间变化,另外序列本身相关的模式不改变等。
数据挖掘研究院
一个实际的时间序列是否满足这些条件是无法在数学上验证的, 数据挖掘交友
这没有关系,但可以从下面要介绍的时间序列的自相关函数和偏相关函数图中可以识别出来。 数据挖掘研究院
一般人们所关注的的有趋势和季节/循环成分的时间序列都不是平稳的。这时就需要对时间序列进行差分(difference)来消除这些使序列不平稳的成分,而使其变成平稳的时间序列,并估计ARMA模型,估计之后再转变该模型,使之适应于差分之前的序列(这个过程和差分相反,所以称为整合的(integrated)ARMA模型),得到的模型于是称为ARIMA模型。 数据挖掘论坛
3.ARIMA模型:差分 数据挖掘工具
差分是什么意思呢?差分可以是每一个观测值减去其前面的一个观测值,即Xt-Xt-1。这样,如果时间序列有一个斜率不变的趋势,经过这样的差分之后,该趋势就会被消除了。 数据挖掘研究院
当然差分也可以是每一个观测值减去其前面任意间隔的一个观测值;比如存在周期固定为s的季节成分, 数据挖掘交友
那么相隔s的差分 为Xt-Xt-s就可以把这种以s为周期的季节成分消除。 数据挖掘论坛
对于复杂情况,可能要进行多次差分,才能够使得变换后的时间序列平稳。 数据挖掘论坛
二、ARIMA模型的识别和估计
上面引进了一些必要的术语和概念。下面就如何识别模型进行说明。 数据挖掘工具
要想拟合ARIMA模型,必须先把它利用差分变成ARMA(p,q)模型,并确定是否平稳,然后确定参数p,q。
现在利用一个例子来说明如何识别一个AR(p)模型和参数p。
数据挖掘工具
由此MA(q)及ARMA(p,q)模型模型可用类似的方法来识别。 数据挖掘交友
根据ARMA(p,q)模型的定义,它的参数p,q和自相关函数(acf,autocorrelations function)及偏自相关函数(pacf,partial autocorrelations function)有关。 数据挖掘工具
自相关函数描述观测值和前面的观测值的相关系数; 数据挖掘论坛
而偏自相关函数为在给定中间观测值的条件下观测值和前面某间隔的观测值的相关系数。
数据挖掘论坛
这里当然不打算讨论这两个概念的细节。引进这两个概念主要是为了能够了解如何通过研究关于这两个函数的acf和pacf图来识别模型。
三、用ARIMA模型拟合带有独立变量的时间序列。 数据挖掘实验室
用ARIMA模型拟合带有独立变量的时间序列 数据挖掘工具
从各种角度来看拟合带独立变量平方的ARIMA(2,1,2)( 0,1,1)7模型给出更好的结果。
数据挖掘实验室
虽然从上面的acf和pacf图看不出(一般也不应该看出)独立变量对序列的自相关性的影响,但是根据另外的一些判别准则,独立变量的影响是显著的,而且加入独立变量使得模型更加有效。
数据挖掘研究院
用ARIMA模型拟合带有独立变量的时间序列
要注意,一些独立变量的效果也可能是满足某些时间序列模型的,也可能会和季节、趋势等效应混杂起来不易分辩。这时,模型选择可能就比较困难。也可能不同模型会有类似的效果。
数据挖掘工具
一个时间序列在各种相关的因素影响下的模型选择并不是一件简单明了的事情。实际上没有任何统计模型是绝对正确的,它们的区别在于,在某种意义上,一些模型的某些性质可能要优于另外一些。 数据挖掘实验室
数据挖掘工具
思考题:
1.举例说明时间序列的各组成部分。 数据挖掘工具
2.请用简洁的语言说明指数平滑的基本思路。 数据挖掘论坛
3.时间序列分析与一般的简单回归分析有何不同? 数据挖掘研究院
4.请简要说明ARIMA模型的基本思想。
数据挖掘工具
数据挖掘研究院