编辑:
2016-01-11
1.1偏最小二乘回归的基本性质
性质1 在 、 、 和 之间存在以下循环 计算 关系
1.2偏最小二乘回归的扩展性质及推导
下面,对偏最小二乘回归的部分基本性质进行扩展,给出了详细的证明过程。
扩展性质1 解释变量空间的潜变量向量 (即成分)与其同阶的反应变量空间的残差向量 直交,即给定任意 ,均有
扩展性质2 解释变量空间的潜变量向量 与其同阶及以后的反应变量空间的残差向量 直交,即给定任意 ,且 不小于 ,均有
证明:由扩展性质1知, ,
当 时,有
扩展性质3 在第 步计算得到的回归系数向量 与其对应的轴 之间有
在相关 文献 的基础上,根据偏最小二乘回归基本理论,扩展了部分性质,并给出了详细的证明过程,性质表明,与其它常见的多元统计分析方法相比,显示出该方法的独特之处。
3 战略管理企业调研实例的检验:基于主成份回归与PLS回归法的比较
本次调查历时6个月,调查方式以访问、E-mail、传真等方式进行,为保证问卷回收率访问调查被大量采用,共发出问卷200余份,回收146份,回收率为70.2%。大部分接受问卷企业对各项能力要素都比较看重。其中均值在5.5以上的二项要素:产品测试方面的专业水平、严格的质量管理,反映了大部分企业还是认同技术能力的高低对一个产品的最终影响。
“s
图 SEQ 图 “* ARABIC 1 企业能力各要素的现实表现直方图
通过聚类分析,将18个企业能力要素聚类为5大类。在此基础上运用SAS9.0进行回归分析。
战略管理的实证研究一般运用传统的因果模型为主,例如主成份分析法,我们运用战略管理研究方面企业核心能力实地调研的真实数据,运用主成份法进行回归分析。由可以得出删去第三个主成分 (PCOMIT= 1)后的主成分回归方程 (其中OBS为3的那一行)为Y=1.56437 + 0. 11973 x1+ 0. 18803 x2+ 0. 20956 x3+0. 05397 x4+ 0. 10827 x5数据主成分回归的结果见图2。
这个主成分回归方程中回归系数的符号都是有意义的;各个回归系数的方差膨胀因子均小于1.1 (见中OBS为2的那一行);主成分回归方程的均方根误差(RMSE=1.08289)。
介绍了PLS回归建模方法对于算法中,给出了一个具体例子, 计算 出了,PLS回归较好地克服了各指标间的多重共线性问题,通过此方法求得指数更准确、合理。最后,使用SAS软件中的PLS过程完成偏最小二乘回归分析。
上图的第一部分给出抽取潜在变量的个数及相应的用于度量拟合效果的预测残差平方和 (PRESS)的均方根值, 并指出在L = 1 时预测残差平方和的均方根达最小。输出的第二部
分给出第一、二个潜在变量所解释的变差的百分数 (包括自变量和因变量两方面) ; 输出的第三部分给出所拟合的模型的信息。其中OBS为2和3 的行给出自变量和因变量的均值和标准差; OBS为6的行给出抽取二个潜在因子时的偏最小二乘估计,由估计值可以写出标准化回归方程为 (Y和 x z 表示 Y 和 x 的标准化变量)
Y= 0. 11505 x1+ 0. 15942 x2+ 0.13036 x3+0. 11970 x4+ 0. 12946 x5
以上偏最小二乘回归方程中回归系数的符号都是有意义的。偏最小二乘回归的均方根误差(需根据原始变量方程算出)比普通最小二乘回归的均方根误差 ( RMSE= 1.07560)有所增大, 但增加不多。且比主成分回归方程的均方根误差为1.08289也有所增大。
偏最小二乘回归对研究很多因变量及很多自变量的相依关系时更能显示其特点, 此例变量个数少, 故没能看出太多的优点。
由实例看出,对于这组数据的处理,主成分回归与偏最小二乘回归的计算结果相比,PLS的计算结果更为可靠。且PLS可处理小样本,30-100家企业数据的优势使PLS在战略管理实证中的优势得以充分发挥。
4.偏最小二乘回归的改进策略及推导
在多元线性回归分析中,如果出现多重共线性的情况,用偏最小二乘回归分析解决这个问题有很大的优势.然而, 偏最小二乘回归也有它的弱点,比如,它对影响点是非稳健的,一个或几个影响点的存在,可以严重改变回归的结果.其次, 偏最小二乘回归的选成份的过程也存在缺点。
偏最小二乘回归的基本的原理是按降序和交叉有效性原则,顺次选择使 和 的协方差 尽量大的成分 。从前面提供的偏最小二乘回归的计算过程可以看到,对于一个数据集来讲,成分实际上就是解释矩阵 的列的线性组合,而回归就是建立在这些成分之上的。
在偏最小二乘回归中,提取成分 的基本思路是使协方差 最大。在很多情形下,这样提取的因子 可以保证对因变量的解释能力最强,同时对自变量集合又有最佳综合能力。
根据协方差的计算公式 ,最理想的情况是因为选出成份与因变量的相关系数(与响应变量具有较高的相关性)和方差(所选的成份既含有解释矩阵 中较多的信息)都最大而使协方差达到最大.在很多情况下,两者兼顾是可以做到的.但是,在某些情况下,尽管相关系数比较小,但由于方差非常大,还是能得到相当大的协方差. 相关系数比较小,回归的结果一般不会令人满意.这种情况下,不适宜直接使用偏最小二乘法.这一现象主要是由于解释矩阵中含有大量与响应变量无关的信息造成的.这些与相应变量无关的信息被提取成具有大方差和小相关系数的成份,从而使得入选成份虽然具有较大的协方差,但是仍然对响应变量缺乏解释能力.
为了说明这个问题,给出一个模拟的例子,具体
考虑模型
由于前面提到的偏最小二乘的弱点,得到3个估计都接近于0。如果偏最小二乘是有效的,那么估计的 、 、 的3个系数应该是
我们提出了一种改进的偏最小二乘回归。针对这样的情况,提出的解决办法是用投影的办法把解释矩阵中与响应变量无关的成分扣除出去,经过这样处理的解释矩阵便不存在含有大量与响应变量无关的信息的问题,也就适合使用偏最小二乘法来处理。
具体的过程
假定 为单位向量, ,能使 的方差达到最大的向量是矩阵 的最大特征值对应的特征向量。因此寻找那些具有大方差且与响应变量 线性无关的信息就等价于寻找矩阵 的具有较大特征值的标准特征向量,剩下所要做的就是将解释矩阵 投影到这些标准特征向量所张成的空间的正交补空间中去。投影后得到的矩阵就是扣除了那些与 无关的信息的解释矩阵,再对响应向量 做回归的时候就可以用偏最小二乘的方法。
编辑老师为大家整理了统计学论文8000字,供大家参考。更多详情请点击进入理学论文。
标签:统计学论文
精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。