皮尔逊相关系数和斯皮尔曼等级相关系数。它们可拿来评判两个变量之间的相关性的大小,按照数据满足的不同条件,我们要选择不同的相关系数进行估算和剖析(建模论文中最容易用错的技巧)。
一、基本概念
总体——所要考察对象的全部个体称作总体.
我们总是希望得到总体数据的一些特点(比如均值残差等)
样本——从总体中所抽取的一部份个体称作总体的一个样本
估算这种抽取的样本的统计量来恐怕总体的统计量:
比如使用样本均值、样本标准差来恐怕总体的均值(平均水平)和总体的标准差(偏离程度)
假定检验:参阅《概率论与数理统计》第八章
二、皮尔逊相关系数
就是机率论学的相关系数。通常我们觉得不加前缀说明的相关系数都是皮尔逊相关系数
首先我们要理解协残差
关于协残差:假如X、Y(相对于均值)变化方向相同则乘积为正,反之为负
注:协残差的大小和两个变量的量纲有关,因而不适宜做比较。
所以我们引入皮尔逊相关系数剔除了量纲的影响,正式X和Y标准化后的协残差
(1)总体皮尔逊相关系数
(2)样本皮尔逊相关系数
一些误区
以上的相关系数只是拿来来评判两个变量线性相关程度的指标;即我们必须先确认这两个变量是线性相关的,之后这个相关系数能够告诉你他俩相关程度怎样(先画散点图)
eg.方式上必须大致满足Y=a*X+b
比如下边几个错误示例
总结:
假如两个变量本身就是线性的关系,这么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;在不确定两个变量是哪些关系的情况下,虽然算出皮尔逊相关系数,发觉很大,也不能说明那两个变量线性相关,甚至不能说她们相关,我们一定要画出散点图来看才行。相关系数的明显性
通常相关系数大小与相关性的参照如上。**并且!!!**上表所定的标准从某种意义上说是轻率的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的。
所以,比起相关系数的大小,我们常常更关注的是明显性。(假定检验)
用勾画散点图观察是否为线性(SPSS更为便捷)对数据进行描述性统计(每位指标的最小值、最大值、均值、中位数值、偏度、峰度、标准差等)估算相关系数矩阵()。可以对其进行数据可视化处理(Excel)对皮尔逊相关系数进行假定检验:
(1)查表法
注:
在数理统计中,第二步的原假定和备择假定中的应当改为,其中为未知的总体相关系数,实际上我们关心的是总体的统计特点。(意思喃大约就是如此个意思,考量我就看不懂了)
t分布表:/e94a.html
(2)p值判别法
这些方式要简单一点
补充:0.5、0.5*、0.5**、0.5***的涵义(明显性标记)
通常我们默认的置信水平是95%(即明显性水平是5%)
估算各列之间的相关系数以及p值代码
[R,P] = corrcoef(Test)
%R返回的是相关系数表,P返回的是对应于每个相关系数的p值
皮尔逊相关系数假定检验的条件
第一、实验数据一般假定是成对的来自于正态分布的总体。由于我们在求皮尔逊相关性系数之后,一般都会用t检验之类的方式来进行皮尔逊相关性系数检验,而t检验是基于数据呈正态分布的假定的。
第二、实验数据之间的差别不能太大。皮尔逊相关性系数受异常值的影响比较大。
第三、每组样本之间是独立抽样的。构造t统计量时须要用到
检验样本是否符合正态分布
(1)JB检验(雅克‐贝拉检验):大样本n>30
峰度和偏度:
峰度就是样本的三阶矩,偏度是四阶矩。偏度左正右负,峰度越大越尖
x = normrnd(2,3,100,1);
% 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布
skewness(x) %偏度
kurtosis(x) %峰度
在的JB检验函数
[h,p] = jbtest(x,alpha)
%当输出h等于1时,表示拒绝原假设;h等于0则代表不能拒绝原假设。
%alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95
%x就是我们要检验的随机变量,注意这里的x只能是向量。
(2)-wilk检验(夏皮洛‐威尔克检验):小样本:3 这个通过SPSS较为便捷 得到的这个表只用看最后一列就好啦 这样检验的话还可以得到一些QQ图 (3)Q-Q图 在统计学中,Q‐Q图(Q代表分位数)是一种通过比较两个机率分布的分位数对这两个机率分布进行比较的机率图方式。 首先选取分位数的对应机率区间集合,在此机率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同机率区间上相同的分位数。 这儿,我们选择正态分布和要检验的随机变量,并对其作出QQ图,可想而知,假如要检验的随机变量是正态分布相关系数公式,这么QQ图就是一条直线。要借助Q‐Q图鉴定样本数据是否近似于正态分布,只需看Q‐Q图上的点是否近似地在一条直线附近。(要求数据量十分大!!!)qqplot(Test(:,1))
三、斯皮尔曼相关系数
注:另一种定义:等级之间的皮尔逊相关系数
这个是可以证明的相关系数公式,并且实际应用中结果可能与第一种定义有所不同(由于这个规定:假如有的数值相同,则将它们所在的位置取算术平均)。假如数据没有相同的则理论上与第一种定义结果相等。
斯皮尔曼相关系数的复句:
(1)corr(X , Y , 'type' , 'Spearman')
%这里的X和Y必须是列向量
(2)corr(X , 'type' , 'Spearman')
%这时计算X矩阵各列之间的斯皮尔曼相关系数
%matlab用的是第二种定义
斯皮尔曼相关系数的假定检验
(1)小样本(<):直接查临界值表
临界值表
(2)大样本情况(n>30):P值法
% 直接给出相关系数和p值
[R,P]=corr(Test, 'type' , 'Spearman')
四、两种相关系数的比较
皮尔逊相关系数:
斯皮尔曼相关系数:
斯皮尔曼相关系数和皮尔逊相关系数选择:
1.连续数据,正态分布,线性关系,用相关系数是最恰当,其实用相关系数也可以,就是效率没有相关系数高。
2.上述任一条件不满足,就用相关系数,不能用相关系数。
3.两个定序数据之间也用相关系数,不能用相关系数。
注:(1)定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量产生的,表现为类别,可以进行排序,属于品质数据。
eg.优良差用123表示,加减乘除没有意义。定序数据最重要的意义代表了一组数据中的某种逻辑次序
(2)斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系(比如线性函数、指数函数、对数函数等)就才能使用
另:对数据的可视化(相关系数矩阵)