请选择
请选择

A-level数学 | S1 Correlation and regression知识点回顾

来源:渊学通      发布时间:

A-level数学 | S1 Correlation and regression知识点回顾

 

 

Correlation and regression(相关与回归)是爱德思考局S1 paper的必考题,今天我们就来梳理一下这一章的知识点。

首先Correlation and regression 是什么呢?简单来说就是处理变量数据之间相关关系的一种统计方法,通过相关分析,我们可以判断出两个或者两个以上变量之间是否存在一定的关系,在S1里我们只会学习两个变量之间是否存在线性相关。

independent variable (自变量)set independently,用x来表示

dependent variable(因变量):随着自变量的变化而变化,用y来表示

 

上面的图叫作scatter diagram,我们用这个图来研究两个变量之间是否存在相关关系。画图步骤为:首先将两个变量相对应的数据列出(题目里会给出),第二步将对应的点标记在图上打X,以此来观察两个变量之间的关系。

negative correlation(负相关):当independent variable增长,dependent variable减少

positive correlation(正相关):当independent variable增长,dependent variable增长

no linear correlation(无相关):两个变量之间没有线性关系

当两个变量存在相关关系,我们可以画一条least square regression line也就是最小化误差的一条线,通常用

 

其中,Sxxx的离差平方和,公式为:

 

由此可以推出

 

 

如果数据是正相关的,那么b是一个正数,如果是负相关的,那么b是负数。

当我们通过以上的公式得到一个regression lineequation,我们就可以根据independent variable(x)的值来估计相对应的dependent variable(y)的值,但是x的取值必须是在给定的data range里。如果x value在给定的数据范围里,那么prediction就是可靠的,如果x value在给定的数据范围之外,那么prediction就是不可靠的。这里还有一个非常重要的点是我们只能根据x值来找对应的y值,不能通过y值来找对应的x值。

Interpolation-prediction within the range of the datareliableExtrapolation-prediction outside the range of the dataunreliable

Product moment correlation coefficientPMCC)用来测量两个变量之间的线性相关关系,我们通常用r来表示。这是一个-11之间的数值,1代表两个变量之间是perfect positive linear correlation-1代表代表两个变量之间是perfect negative linear correlation0代表两个变量之间no linear correlation。在01之间值越接近1相关性越好,越接近0相关性越差;在-10之间值越接近-1相关性越好,越接近0相关性越差。

PMCC的公式为:

 

有时候题目会有coded data,如果codinglinear的,那么PMCC不受coding的影响,它的值不会因为linear coding的变化而变化。

以上就是correlation and regression章节的重点啦,接下来给同学们留一道小题,同学们看看自己的掌握情况查漏补缺吧~这道题出自20196IAL S1 paper的第6题。

 


升学能力评估

版权所有:上海渊学通教育科技有限公司 沪ICP备:16053888号-10
在 线 客 服