统计套利
非齐次方差和一阶序列相关性(节选)
原文作者 ANDREW POLE 单位 John Wiley amp; Sons, Inc.
摘要:联合分布的图形不是圆形(变量时并不相关的情况下)的,就是椭圆形的(变量是相关的情况下)。在后一种情况下,可以看到沿着图形的主要和次要的轴,将 分成几个象限,然后用联合中位数点,将象限以放射状的方式分割,从而又被划分成两个相同概率的区域。剩下的任务是用随机数量的方式,对这些半象限进行正确的描述(就像对原先的结论所采用的描述方法)。
关键词:统计套利; 非齐次方差; 波动率;相关性
4.3非齐次方差
从一个给定的分布家族中,选出其中一个分布,然后家假定每天的价差,都是从这个分布中独立产生出来的。这个分布家族是固定的,但是某个给定的日子,根据分布家族中的一个成员分布做产生出来的价格是不确定的。家族成员之间的区别只与变量有关。变量序列的特性也就决定了价格序列的特征。
如果每一天变量显现出独立的“随机”性,该怎么办呢?价差就会看起来不是根据分布家族的单个成员,而是根据所有家族成员的一个平均值产生,其中这个平均值可能来自变量的相对频率。换句话说,t时刻的价差将不再是根据一个给定的sigma;的F而产生,而是由分布的积分产生:
举例来说,假设变量的条件是一个正态分布家族(这里是指平均值为常数),而其随机变量是随机产生的,就仿佛是由一个逆伽马分布产生的;那么,价差看起来好像是由学生t分布所产生的一样。这个结论的关键是随机元素,它保证(可能的)每天的数据看起来好像价差模型服从学生t分布。
因此我们可以说,在不均匀的变量序列情况下,“75%规则”依然是正确的。
请注意,并不一定需要如前面例子一样,价差分布(变量是有条件的)和变量分布(无条件的)具有简洁的数学形式。任何一般的(“变现很好的”,从连续性的条件下)分布,都能得出75%的结论。密度函数或分布函数,并不需要用一个封闭形式的数学表达式进行描述。
4.3.1波动率异常变化
自动回归条件异方差模型的产生,是为了在总体经济数据中,获得观察到的聚类方差的现象。在过去几年汇总,ARCH和GARCH模型在数量经济学和金融学文献中应用非常广泛,其中后者在波动率异常变动的现象中经常被用到。大多数这种波动率异常变化,会是的波动率从一般的水平开始变大,比较有代表性的是,这种情况与公司的坏消息有关。从历史上来看,波动率变小的情况比较少。从2003年上半年开始,美国交易所的股票波动率出现变小的现象。在2003年和2004年,价差波动率达到了空前的低点。
当波动率异常变动时,标准差不是每天独立的生成,而是会呈现连续的相关性。根据下面的结论,75%规则仍然成立:在波动率异常变动的过程中,如果与常数变量的状况(近似地)一样,定理也是适用的。因此,只有波动率出现的波动的那几天,结论才会有所不同。这样的日子非常少,因此结论会非常接近近似值。事实上,还可以这样证明结论:波动时不相关的。
4.3.2 数字上的示例
图4-2a展示了1000个样本的柱状图,这些是根据正态逆伽马分布产生出来的:
首先,根据逆伽马分布(有两个参数a和b,a和b的实际值并不是很重要:只要是任何的非负值都可以),生成一个独立的;然后根据的值,以均值为0、方差为的正态分布生成一个。在柱状图上,添加学生t分布的密度函数,代表了价差的理论编辑分布。图4-2b展示了一个时间序列的样本。
每天的价格变化向中位数方向移动的比列是75.37%,与前面的规则一致。
4.4一阶序列相关性
上面的结论可以扩展到变量具有相关性的情况。在最简单的情况下,可以考虑对称密度所对应的分布,因为在这种情况下,联合分布的图形不是圆形(变量时并不相关的情况下)的,就是椭圆形的(变量是相关的情况下)。在后一种情况下,可以看到沿着图形的主要和次要的轴,将分成几个象限,然后用联合中位数点,将象限以放射状的方式分割,从而又被划分成两个相同概率的区域。剩下的任务是用随机数量的方式,对这些半象限进行正确的描述(就像对原先的结论所采用的描述方法)。可以再范例中很容易的看到这个结论。假设和之间的协方差为C。定义一个新变量,作为相关变量的一个线性组合,
。系数r用公式表达为:
(r也就是和之间的相关性)令和不相关;而因子alpha;的选择方式,是为了让的方差等于的方差:
现将定理应用到和上,假设和具有相同的分布,因此我们可以得到:
将进行替换,将公式转化为一个包括原先变量的形状:
重新排列各公式项,得到需要的表达式:
很显然,在不相关的情况下,也就是r=0和alpha;=1,我们可以将其作为该情况下的一个特例。
的边界,按比例的象限进行分割,其比例大小由相关性的大小决定。在不相关的情况下,象限一分为二,与我们之前看到的一样。图4-3显示了与r之间的关系,当r= ,最大值(用一般的微分方法,令一阶倒数等于零,然后求解)。
在这里的论证中,所采用的额外限制条件是非常重要的,要特别注意。加入具有边际分布的变量,在线性组合中保持原来的分布形式,这个定理能够使用变量之间具有相关性这种情况。对于正态变量,双变量的学生t变量,以及许多其他的情况,定量都是正确的。但是在一般情况下,定理斌不是正确的。
当 和 完全相关,也就是在()的限制情况下,原来的结论就被打破了。失效的原因是由于奇点的存在,因为原先自由度为二(两个有不同的日子或观测值),在奇点上其自由度为一(两个不同的日子限定成具有的价格,因此定理的反转时一种不可能的情况)。
4.4.1 解析检验
一天之内的价格向中位数方向移动的频率,可以用概率的方式描述:
考虑上述公式的第一个部分:
这里符号杯广泛使用,仅仅是为了强调逻辑关系。对于连续变量,是不正确的,因为找哥哥变量取任何特定的值时,其概率都为零。正确的表达式,应该实在p电商计算出来的密度函数:
请注意,当和是独立的,条件积累概率(第一项)转化为无条件的概率值。
在接下来的结果推导中,对符号进行简化,用X来表示,用Y表示。那么,前面提到的概率公式可以转化为:
将条件积累概率展开,将其放到条件密度的积分公式中,得到:
其中表示X和Y的联合密度函数。
现在,利用:
(由于内部的积分化简为X的边际密度,根据中位数的定义,外部的积分正好等于)。那么,算法可以表示为:
立刻,我们就可以得出:
这看起来像是一个不相关的公式转化,但是实际上,只需两个步骤就可完成证明过程。此时,我们用用联合密度的对成型(对称性是由同边际分布的假设决定的)。在形式上,对称性的表达式为:
现在,调换积分的顺序(要小心观察积分的上下限),其代数式的等量公式为
因此:
倒数第二个步骤,注意后两个积分和是(再次根据中位数的定义得出):
因此:
第二个部分的推导过程也是类似的。
4.4.2 示例
示例 假设序列的相关性参数r=0.71,如下图,以及一个正太分布随机项,从一阶自动回归模型中抽取1000个概率样本。图4-4b显示了时间维度的图形:图4-4a显示了样本的边际分布。
这个序列的反转移动比列为62%。
更加实际一些,我们把这个序列当成是每天的观察值,计算出一个估计中位数。用局部的中位数调整数据序列(使用周期为10),对序列进行分析,如下图所示。这个调整过的数据序列呈现一个较大的反转移动比例,为65%。
外文文献出处:节选自《Statistical Arbitrage》
剩余内容已隐藏,支付完成后下载完整资料
Statistical
Arbitrage
Algorithmic Trading Insights
and Techniques
ANDREW POLE
John Wiley amp; Sons, Inc.
CHAPTER4
Law of Reversion
Now here, you see it takes all the running you can do, to
keep in the same place.
—Through the Looking Glass, Lewis Carroll
4.3 INHOMOGENEOUS VARIANCES
Spreads are supposed to be generated independently each day froma distribution in a given family of distributions. The family ofdistributions is fixed but the particular member from which price isgenerated on a given day is uncertain. Members of the family are distinguished only by the variance. Properties of the realized variancesequence now determine what can be said about the price series.
What can be said if the variances, day to day, exhibit in dependent
lsquo;lsquo;randomrsquo;rsquo; values? Then spreads will look as if drawn from, not a member of the original family, but from an average of all the members of the family where the averaging is over the relative frequencies of the possible variances. In other words, the spread on day t is no longer generated from F for a given sigma; but from the integrated distribution:
FP(p) = int;Fsigma; (p)dsigma;
For example, suppose that the family of variance conditional distributions is the normal family (with constant mean in this context) and that the variances occur randomly as if generated from an inverse gamma distribution; then spreads will look as if they were generated by the Student t distribution. The key to the result is the random element; it guarantees (probabilistically) that the daily transitions look as if the underlying spread model is Student t. (This point is expanded upon in Section 4.5 where a similar argument proves the result for arbitrarily different generating distributions day-to-day. An extended discussion of the relationship of marginal distribution to a time series of values is given in Chapter 5.)
We can therefore state that the 75 percent rule is true in the case of inhomogeneous variance sequences.
Note that the distributions for spread (conditional on variance) and for (unconditional) variance need not be of mathematically convenient forms as used in the previous example. Any regular (lsquo;lsquo;well behaved,rsquo;rsquo; in terms of continuity) distributions will yield the 75 percent result. There is no requirement for the density or distribution function to be expressed in a closed form mathematical expression.
4.3.1 Volatility Bursts
Autoregressive conditional heteroscedastic (ARCH) models (Engle, 1982) were introduced to capture the observed clustering of variances in macro economic data. In the past few years ARCH and GARCH models have been heavily used in the econometric and finance literature, the latter because of the oft remarked phenomenon of volatility bursts. Most such bursts are of increased volatility from a regular level, typically associated with bad news about a company. Historically, bursts of low volatility are less frequently experienced. Since early 2003, however, volatility of stocks on the U.S. exchanges has been declining. Spread volatility reached unprecedented lows in 2003 and 2004;implications of that development for statistical arbitrage are examined in Chapter 9.
When volatility exhibits bursts, variances are not generated independently each day but exhibit serial correlation. The 75 percent rule still holds by this argument: Within a burst, the theorem applies as if the situation were (approximately) constant variance. Therefore, only the transition days could alter the result. There are comparatively few such days, so the result will stand to a very close approximation. In fact, the result can be shown to hold exactly: The transitions are irrelevant—see the argument in Section 4.5 for the general nonconstant variance case. Chapter 5 presents analysis of related patterns.
4.3.2 Numerical Illustration
Figure 4.2(a) shows the histogram of a sample of 1,000 valuesgenerated from the normal–inverse Gamma scheme:
sim; IG[a, b],
sim; N[0, ]
First, generate an independent drawing of from the inverse Gamma distribution (with parameters a and b—the actual specification of a
FIGURE 4.2 Random sample from normal–inverse Gamma model and b does not matter: Any nonnegative values will do). Then, using this value of, generate a value for from the normal distribution with mean 0 and variance . Superimposed on the histogram is the density function of the Student t distribution, which is the theoretical marginal distribution of spreads here. Figure 4.2(b) shows the sample as a time series.
The proportion of one-day moves in the direction of the medianis 75.37 percent, satisfyingly in accord with the rule.
4.4 FIRST-ORDER SERIAL CORRELATION
The result can be extended to the case of correlated variables. The simplest case to consider is that of distributions with symmetric density functions, since then the contours are circles (uncorrelated) or ellipses (correlated). In the latter case, one can see that by dividing up into quadrants along the major and minor axes of the contours, then bisecting those quadrants radially from the joint median point as previously, one is left with equiprobable regions once again. (Recall that, with symmetric densities, all quadrants are probabilistically bisected this way, not just those corresponding to the lower left and upper right in the rotated coordinates.) The remaining task is to identify the half quadrants with a correct statement (like the one with which the original re
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[286794],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。